PG电子【中国】平台网站 - PG SOFT

PG电子平台数据挖掘技术简述|PG电子平台
× 快速导航
PG平台资讯
分类
PG电子平台数据挖掘技术简述
发布日期:2024-02-11 04:41:36

  数据挖掘起源于从数据库中发现知识(简称KDD),它首次出现在1989年 8月在底特律举行的第十一届国际联合人工智能学术会议上.为了统一认识,在 1996年出版的总结该领域进展的权威论文集《知识发现与数据进展》中, Fayyad,Piatetsky-Shapiro and Smyth给出了KDD和数据挖掘的最新定义,将二者加以区分.

  KDD的定义为:KDD是从数据中辨别有效的、新颖的、潜在有用的、最终可理解的模式的过程.

  数据挖掘的定义为:数据挖掘是KDD中通过特定的算法在可接受的计算效率限制内生成特定模式的一个步骤.

  由此可见,整个KDD过程是一个以知识使用者为中心、人机交互的探索过程.数据挖掘只是数据库中知识发现的一个步骤,但又是最重要的一步.因此,往往可以不加区别地使用KDD和数据挖掘.一般在研究领域被称作数据库中的知识发现,在工程领域则称之为数据挖掘.

  1989年举行了第一届专题讨论会后,1991、1993、1994年又连续举行了KDD 专题讨论会;1995年8月,在加拿大的Montreal,召开了首届知识发现和数据 挖掘的国际讨论会;亚太地区于1997年在新加坡举行了首届亚太知识发现和数据挖掘的国际会议(RAKDD,97);欧洲也于1998年召开了首届欧洲知识发现和数据挖掘的学术会议.

  与国外相比,国内对KDD的研究稍晚,没有形成整体力量,1993年国家自然科学基金首次支持该领域的研究项目.目前,国内的许多科研单位和高等院校开展了知识发现的基础理论及其应用研究,如清华大学、中科院计算技术研究所、空军第三研究所、海军装备论证中心等.其中北京系统工程研究所对模糊方法在知识发现中的应用进行了较深入的研究,北京大学正从事于数据立方体代数的研究,安徽大学、华中理工大学、复旦大学、浙江大学、中国科技大学、中科院数学研究所、吉林大学等单位进行了对关联规则挖掘算法的优化及相关领域的研究,取得了一定的成果,南京大学、四川联合大学和上海交通大学等单位探讨、研究了非结构化数据的知识发现以及Web数据挖掘.

  总之,当前数据挖掘与知识发现研究与开发的总体水平相当于数据库技术在七十年代所处的地位.迫切需要类似于关系模式、DBMS系统和SQL查询语言 等理论和方法的指导,才能使KDD的应用得以普遍推广.

  数据挖掘功能用于指定数据挖掘任务中要找的模式类型.数据挖掘任务一般可以分为两类:描述和预测.描述性挖掘任务刻画数据库中数据的一般特性,而预测性挖掘任务则在当前数据上进行推断,以进行预测.在很多情况,用户并不知道什么样的模式是有趣的,因此可能想探索多种不 同的模式,以从中选择出自己感兴趣的模式.这就要求数据挖掘系统应该能够挖掘多种类型的模式,以适应不同的需求.此外,数据挖掘系统应该能够发现各种粒度pg电子网站(即不同的抽象层)的模式,应当允许用户给出提示,指导或聚焦有趣模式的搜索.

  数据挖掘的功能以及可以发现的模式类型有:类/概念描述、关联分析、 分类和预测、聚类分析、孤立点分析和演变分析.

  数据可以与类或概念相关联.用汇总的、简洁的、精确的方式描述每个类和 概念可能是有用的.这种类或概念的描述称为类/概念描述.这种描述可以通过

  ●数据区分:将目标类对象的一般特性与一个或多个对比类对象的一般特性比较.

  关联分析用于发现关联规则,关联规则描述了给定数据集中的项之间的有趣联系.关联分析广泛应用于购物篮或事务数据分析.从大量商务事务记录中发现有趣的关联关系,可以帮助许多商务决策的制定,如分类设计、交叉购物和贱卖分析等.

  分类是找出描述并区分数据类或概念的模型的过程,以便能够使用模型预测类标号未知的对象类.预测是构造和使用模型评估无标号样本类,或评估给定样本可能具有的属性值或值区间.分类和预测之间的区别在于,分类是预测类标号(或离散值),而预测是建立连续值函数模型.例如,可以建立一个分类模型,对银行贷款的安全或风险进行分类;同时可以建立预测模型,给定潜在顾客的收入和职业,预测他们在计算机设备上的花费.

  聚类将数据对象分组成为多个类或簇,在同一个簇中的对象之间具有较高的 相似度,而不同簇中的对象差别较大.与分类不同的是,它要划分的类是未知的.

  在数据库中经常存在一些数据对象,它们不符合数据的一般模型.这样的数据对象被称为孤立点,它们与数据的其他的部分不同或不一致.孤立点可能是度量或执行错误所导致的.例如,数据库记录中有一些人的年龄是-999,这可能是这些人年龄没有被记录,而系统给未记录的年龄的缺省值就是-999.孤立点也可能是固有的数据变异后的结果.例如,一个公司总裁的薪水可能远远高于其他职员的薪水,他的薪水就成为了一个孤立点.在许多时候,孤立点被视为噪声或遗产而被丢弃,但是,在一些应用中,孤立点可能会很有用.例如,在医疗分析中,某些对多种治疗方式的不寻常的反应数据可能成为孤立点,但是这些数据对于治疗却非常重要.对孤立点数据进行分析称为孤立点分析.

  数据演变分析描述行为随时间变化的对象的规律或趋势,并对其建模.这种分析可能包括时间相关数据的特征化、区分、关联、分类或聚类,但是它的不同特点包括时间序列数据分析、序列或周期模式匹配和基于类似性的数据分析.

  数据挖掘指的是从数据准备到结果分析的一个完整的过程,该过程从大量数 据中挖掘先前未知的、有效的、可使用的信息,并使用这些信息做出决策或丰富知识.数据挖掘的一般步骤如下图所示.

  (1)确定业务对象.在开始数据挖掘之前最基础的就是理解数据和实际的业务问题,在这个基础之上提出问题,对目标有明确的定义.认清数据挖掘的目的是数据挖掘的重要一步,因此必须清晰地定义出业务问题.挖掘的最后结果是不可预测的,但对要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不会成功的。

  (2)数据准备.数据准备是保证数据挖掘得以成功的先决条件,数据准备在 整个数据挖掘过程中有大量的工作量,大约是整个数据挖掘工作量的60%.数据准备包括数据选择、数据预处理和数据的转换。

  ●数据的选择.数据的选择就是搜索所有与业务对象有关的内部和外部的数据信息,获取原始的数据;从中选择出适用于数据挖掘应用的数据,建立数据挖掘库.

  ●数据的预处理.由于数据可能是不完全的、有噪声的、随机的,有复杂的数据结构,数据预处理就要对数据进行初步的整理,清洗不完全的数据,为进一步的分析做准备,并确定将要进行的挖掘操作的类型.

  ●数据的转换.数据的转换是根据数据挖掘的目标和数据的特征,选择合适的模型,这个模型是针对挖掘算法建立的.建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键.

  (3)数据挖掘.数据挖掘就是对所得到的经过转化的数据进行挖掘,除了选择合适的挖掘算法之外,其余工作应该能自动完成.

  (4)结果分析.对挖掘的结果进行解释并评估.其使用的分析方法一般应根据数据挖掘的操作而定,目前通常会用到可视化技术。

  (5)知识的同化.知识的同化就是将分析所得到的知识集成到业务信息系统的组织结构中去.

  数据挖掘大量的借鉴了机器学习和统计学中的技术,这些技术对于有效的进行数据挖掘是至关重要的.数据挖掘的常用技术有:

  神经网络是最常用的数据挖掘技术之一,它从结构上模仿生物神经网络,是 一种通过训练来学习的非线性预测模型.它类似于人类大脑重复学习的方法,其 本质就是输入信号、结点、输出信号的集pg电子网站合,首先用训练集和实例对它进行训练, 这个过程叫做学习.学习结束后,新的模式就可以提交给这个网络.神经网络会 根据训练得到的经验对新的数据进行分析,完成分类、聚类、特征开采等多种数据任务.

  这种技术用树形结构来表示决策集合.这些决策集合通过对数据集的分类产 生规则.其典型的应用是分类规则的挖掘.建立决策树的过程可以递归地实现.首先选择最大信息量的属性,建立决策 树的根结点,然后再根据该属性的不同取值建立树的分枝结点.这样就把整个数 据集分成了几个子集.在每个分枝子集中重复建树的下层结点和分枝的过程,即 可建立决策树.国际上最有影响和最早的决策树方法是1986年J.Ross Quinlan 提出ID3方法,它对越大的数据库效果越好.在ID3方法的基础上,后人又发展了各种决策树方法,包括非常流行的C4.5算法、C5.0算法及CHAID算法等.

  遗传算法是一种基于生物进化过程的组合优化方法,它基于生物进化的概念 设计了一系列的过程来达到优化的目的.这些过程有基因组合、交叉、变异和自然选择.它根据适者生存的原则模拟自然界的生命进化机制,形成当前群体最适合的规则组成新的群体,以及这些规则的后代.该算法擅长于数据聚类,通过事件上和空间上的类比,可以把大量繁杂的信息数据进行系统化、条理化,从而找出数据之间的内在关系,得出有用的概念和模式,再建立数据模式时,将遗传算法与神经网络相结合,可以更好地提高模型的适应性.

  这种技术通过K个最与之相近的历史记录的组合来辨别新的记录.有时也称这种技术为K-最近邻方法.这种技术可以用在聚类、偏差分析等挖掘任务中.

  贝叶斯网络是建立在对数据进行统计处理基础上的方法,将不确定事件通过网络连接起来,可以对于其他相关事件的结果进行预测,其网络变量可以是可见的,也可以隐藏在训练样本中.贝叶斯网络具有分类、聚类、预测和因果关系分析的功能,其优点是易于理解,预测效果较好,借助先验信息,先验信息具有时效特征,在数据统计中,往往旧信息太多, 而旧信息的映射效果会随着时间推移而逐渐降低, 这一点和加权有点类似。缺点是对发生频率很低的事件预测效果不好.贝叶斯网络在医学和制造业等领域的应用具有较好的效果.

  对数据库中的记录的属性字段按归类形式进行抽象,建立起来的层次结构称 为概念树.利用概念树提升的方法可以大大减少和浓缩数据库中的记录.将多个属性字段进行概念树提升,将得到高度概括的知识基表,再将其转化成规则.一般采用概念树的方法对数据库进行预处理.

  粗糙集理论是一种研究不精确、不确定性知识的数学工具,这一方法在数据挖掘中具有重要的作用,通常处理含糊性和不确定的问题,发现不准确数据或噪音数据内在的结构关系,可用于特征的约简和相关分析中.

  (1)源自于数据库本身,现实世界数据库中的数据是动态的且数量庞大,有 时数据是不完全的,存在噪音,不确定性,信息丢失,信息冗余,数据分布稀疏 等问题.

  (2)数据挖掘技术与特定数据存储类型的适应问题.数据库类型多样,不同 的数据存储方式会影响数据挖掘的具体实现机制、目标定位、技术有效性等.比如适用于关系数据库的算法未必适用于面向对象数据库.指望一种通用的应用模式适合所有的数据存储方式来发现有效知识是不现实的.因此,针对不同数据存储类型的特点,进行针对性研究是目前流行而且也是将来一段时间所必须面对的问题.

  (3)知识的表示形式.它包括如何对挖掘到的知识进行有效的表示,使人们容易理解.比如如何对数据进行可视化,推动人们主动地从中发现知识.可视化要求已经成为目前信息处理系统的必不可少的技术.对于一个数据挖掘系统来说,它更是重要的.可视化挖掘除了要和良好的交互式技术结合外,还必须在挖掘结果或知识模式的可视化、挖掘过程的可视化以及可视化指导用户挖掘等方面进行探索和实践.因此知识表示的深入研究将是数据挖掘实用化的一个重要步骤.

  (4)目前的数据挖掘系统还不尽如人意,人们还不能像关系数据库系统那样 调用SQL语言就能快速查询到自己想要的东西.虽然经过多年的探索,数据挖掘系统的基本构架和过程已经趋于明朗,但是受到应用领域、挖掘数据类型以及知识表达模式等的影响,在具体的实现机制、技术路线以及各阶段或部件(如数据清洗、知识形成、模式评估等)的功能定位等方面仍需细化和深入研究.由于数据挖掘是在大量的源数据集中发现潜在的、事先并不知道的知识,因此和用户 交互式进行探索性挖掘是必然的.这种交互可能发生在数据挖掘的各个不同阶段,从不同角度或不同粒度进行交互.所以良好的交互式挖掘(Interaction Mining) 也是数据挖掘系统成功的前提.

  (5)现有的理论和算法本身还有待发展完善.像定性定量转换、不确定性推理等一些根本性的问题还没有得到很好的解决.同时为了有效地从数据库的大量数据中提取信息,数据挖掘算法必须是有效的和可伸缩的.换句话说,对于大型数据库,数据挖掘算法的运行时间必须是可预计的和可接受的.所以需要发展高效的数据挖掘算法.

  另外数据挖掘系统与实际应用结合得还不够.除了经典的“啤酒”与“尿布外,还没有太多数据挖掘成功的范例.因此,数据挖掘与其他技术特别是数据仓 库技术的结合将是今后一个重要的发展方向.