欢迎访问【高校论文网】合作只是一个起点、服务没有终点!

论文流程 联系我们常见问题

您当前所在位置:

关于神经网络的数据挖掘方法研究

2017-06-25 22:28:00

神经网络的数据挖掘方法研究如下文

随着Internet的发展,从浩翰的数据库中挖掘有用的信息成为一个迫切需要解决的问题.数据挖掘的研究应用而生[1,2].它反复应用挖掘算法从观测的数据中提取一个更为简洁的模式.这种模式应该是一种自然的表示形式(如数学公式、自然语言或图表等).由于庞大的数据集的性质往往非常复杂,且非线性、持续性及噪音普遍存在,因此需要一种不同于传统的新的理论和方法去解决数据挖掘中的问题.神经网络作为一种非线性自适应动力学系统,具有通过自学习提取信息的内部特征的优点,非常适合解决数据挖掘的问题.本文针对目前数据挖掘中的研究热点分类问题,探索应用神经网络方法,挖掘大型数据库的分类规则.

1 使用神经网络进行数据挖掘的步骤基于神经网络的数据挖掘由以下二个阶段组成:网络构造和训练,规则抽取.

1.1 网络构造和训练这一阶段根据数据集中的属性数目和类数目以及数据特性,选择合适的编码方法,构造一个多层的前向神经网络(一般采用三层BP网即可).然后,通过教师示教的方式训练构造好的神经网络.

但是,即使对于只有一个输出单元的网络,随着输入单元的增多,网络各层单元之间的连接数将成倍增长,造成相应的提取规则也将成指数增长,给规则提取造成很大困难.为此,有必要对网络进行裁剪.网络裁剪的目标是在不增加网络的分类错误率的前提下,删除多余的连接和隐层单元,构造一个连接和单元数目相对较小的网络,以利于抽取简明可理解的规则.裁剪算法可采用递减的探测算法.递减式的探测算法是,从一很大的网格结构开始,在训练过程中,根据特定的问题的需要,逐渐减少结构的各个部分,直到找到能解决问题的网络结构为止.但该算法存在着不一定能找到最优结构的缺点.而遗传算法作为一种全局最优搜索算法,对目标函数既不要求连续也不要求可微,仅要求该问题可计算,而且它的搜索始终遍及整个解空间,因此非常容易得到全局最优解.遗传算法的这一特性使得它在进化神经网络结构时,可使进化后得到的神经网络具有结构简单、性能优良的优点.遗传算法已越来越多的应用到神经网络的进化中[3].

用遗传算法进化神经网络结构的算法如下:

(1)随机产生多个编码串,每个编码串对应了一种网络结构,这些编码串构成一个群体.

(2)将上述群体中的每个个体解码得到对应的神经网络结构,用数据集中的训练样本分别对这些结构的神经网络进行训练.

(3)根据训练的结果或其它策略确定每个个体(即每一种网络结构)的适应度值(它表明了该网络结构性能的好坏).

(4)选择若干适应度最大的个体,直接遗传给下一代.

(5)利用交叉和变异等操作算子对当前一代群体进行处理,产生下一代群体.

(6)重复步骤(2)—(5),直到当前一代群体中的某个个体(对应一个结构)满足要求为止.此时找到了一个结构最简单、性能最优的神经网络模型.

由于追求的目标是网络结构的最简化,因此,适应度值定义为:在网络的学习错误率一定的条件下,适应度值为网络连接数的函数.

1.2 规则抽取这一阶段从进化后产生的相对简单的网络中抽取分类规则,规则的形式为:if(x1θ1A1) and (x2θ2A2) and…and (xnθnAn) thenCj,其中,xi是输入属性,Ai是常量,θi是关系运算符,Cj是一个类标签.

网络进化后虽然使结构变得相对简单,但是,在输入元组和输出元组之间要找出清楚的关系仍然很困难,这主要归因于抽取规则的难度.首先,在一个简单的网络中,如果以if…then…rules的形式来表达输入元组之间的关系和它的类标签,仍然有太多的连接,如果一个网络有n个输入单元,则一共有2n个不同的输入模式,即使n很小,其中的规则也会很长或很复杂.其次,隐藏单元的激活值依据于输入元组,可能是一个近乎连续的值.要在隐藏单元连续的激活值和输出层中一个单元的输出值之间推导出一个清楚的关系也是非常困难的.因此,本文引入一种简单实用的规则抽取算法.

该算法由以下四步组成:

(1)应用一个群集算法来找出网络中每个隐藏单元的激活值集;(2)列举出可分辨的隐藏单元激活值并计算网络输出,产生根据可分辨的隐藏单元激活值描述网络输出的规则;(3)对于每一个隐藏单元,列举出导出它们的输入值,并产生一系列规则来根据输入描述隐藏单元的可分辨值:

(4)合并前两步得到的两套规则来获得有关输入和输出的规则.

该算法的第一步在不牺牲网络分类精确性的前提下,群集隐藏单元的激活值到一个可管理的可分辨值群体,群集后,我们在每个隐藏单元获得了一套激活值.第二步是将这些可分辨激活值和输出层激活值如类标签联系起来.而第三步是将它们和连接到隐藏单元的输入单元的属性值联系起来.算法的目的是发展和实现规则产生过程的自动化,它以一系列可分辨的模式和类标签作为输入,产生描述输入模式和它们的类标签之间关系的规则.

上文是神经网络的数据挖掘方法研究

相关推荐:

计算机数据库学籍管理系统

相关推荐:

热门论文
广告位招租

咨询QQ:879182359

客服  

高校论文网
在线客服