PG电子平台PG电子平台(1)数据挖掘的含义和功能数据挖掘的定义非常模糊,对它的定义取决于定义者的观点和背景。如下是一些有代表的数据挖掘定义:
1.SAS研究所(1997):“在大量相关数据基础之上进行数据探索和建立相关模型的先进方法”。
2.Bhavani(1999):“使用模式识别技术、统计和数学技术,在大量的数据中发现有意义的新关系、模式和趋势的过程”。
[1Leabharlann BaiduJiaweiHan,MichelineKambr.数据挖掘———概念与技术(影印版)[M].北京:高等教育出版社,2001.
[3]李经振.数据挖掘:统计学的分支[J].江苏统计,2002,(9).[4]韩明.数据挖掘及其对统计学的挑战[J]统计研究,2001,(8).[5]孙薇斌.数据挖掘中统计方法的作用和问题点[J].数理统计与管理,2004,(5).
从上述对数据挖掘的简介中可以明显看出,数据挖掘与传统的统计学既有着区别又有着联系,所以人们对两者的关系也就有了许多争论。本人认为数据挖掘是统计学的一个分支。这不仅是因为数据挖掘大量借用了统计学的方法(如抽样技术、因子分析,聚类分析、回归分析和时间序列分析等),更重要的是因为数据挖掘与统计学有着共同的处理对象———数据;共同的目的———处理和分析数据获得数据中的信息,这是最本质的。根据权威的不列颠百科全书的统计定义,一切研究如何收集、分析、表述和解释数据的方法论科学都是统计学,所以作为一
统计学最初是作为一门实质性科学建立起来的,它从数量上研究某类具体的现象(如社会经济发展)的规律,但是,随着统计学研究范围的不断扩大以及统计方法在社会领域和自然领域内的有效应用,加之统计方法体系本身的不断发展和完善,使得统计学的研究对象也发生了变化。统计学已从实质性科学中分离出来,转而研究统计方法,成为一门方法论的科学。即统计学是研究如何搜集数据、整理数据和分析数据的一门方法论科学。从本质上看,统计工作的核心就是数据(或者信息)的采集、分析和处理正如权威的不列颠百科全书将统计定义“statics; the science of collecting, analyzing, presenting, and interpreting data”即“统计:收集、分析、表述和解释数据”
3.Handetal(2000):“数据挖掘就是在大型数据库中寻找有意义、有价值信息的过程”。
一般说来,数据挖掘是一个利用各种分析方法和分析工具在大规模海量数据中建立模型和发现数据间关系的过程,这些模型和关系可以用来做出决策和预测。它强调对大量观测到的数据库的处理。它是涉及数据库管理、人工智能、机器学习、模式识别、及数据可视化等学科的边缘学科。
种数据处理和分析方法,数据挖掘是统计学的一个分支。一部分人因为数据挖掘的对象数据具有不是来源于为挖掘而积累起来的数据库、规模巨大、使用很多非统计方法技术等与传统的统计学的不同之处,认为数据挖掘不是统计学的一个分支,而是一门独立的边缘交叉学科,或计算机科学的一个分支。其实计算机知识在数据挖掘中的地位就如同数学在物理等学科中一样,只是一个必不可少的工具而已,我们并不能因为物理等学科大量应用数学而将其视为数学的分支。同样来源于生物学思想的遗传算法和神经网络等技术也不是为数据挖掘所独有,它们也是只是一种数据分析方法而已。可见数据挖掘是统计学的一个新兴的重要分支。数据挖掘所处理的数据是一种特殊数据,与传统统计学所处理的数据相比有着一些明显的特征:海量性、自然性、动态性、异地存储等,还有很多数据为非数字型,这些正是数据挖掘给传统统计学的挑战,也是将数据挖掘作为统计学的一个分支给统计学注入的新鲜血液。统计学界应该勇敢地面对这些挑战,努力开发出更多针对上述特征的数据处理方法和技术。统计学还应敞开胸怀,海纳百川,将一切收集、分析、表述和解释数据的科学方法和技术都吸收过来。这样统计学一定会更加适应时代发展的要求,一定能创造出更大的辉煌。同时,因为统计学相对于数据挖掘而言具有悠久的历史和严密的理论基础和体系,将数据挖掘作为统计学的分支,统计学亦会有力促进数据挖掘的进一步的发展和成熟。
[6]行智国.统计学与数据挖掘的比较分析[J].统计教育,2002,(6).[7]王斌会,吴载斌.数据挖掘技术及其应用现状.
摘要:统计学在处理数值数据方面有着成熟的理论与技术,而数据挖掘则在处理高维的复杂的数值或非数值性数据方面,借助计算机、机器学习、人工智能等理论与技术,有着不可替代的优势。数据挖掘和统计学应该相互学习和渗透,各自分工,协同工作,共同为挖掘隐藏在复杂现象背后的有价值的知识贡献力量。
1.传统统计方法:(1)抽样技术:我们面对的是大量的数据,对所有的数据进行分析是不可能的也是没有必要的,就要在理论的指导下进行合理的抽样;(2)元统计分析:因子分析,聚类分析等;(3)统计预测方法,如回归分析,时间序列分析等。
2.可视化技术:用图表等方式把数据特征用直观地表述出来,如直方图等,这其中运用的许多描述统计的方法。可视化技术面对的一个难题是高维数据的可视化。
随着计算机、网络技术的发展,出现了大量数量大、涉及面宽的数据,依靠以往那种由简单汇总、按指定模式去分析的传统统计方法是无法完成这类数据的分析的。因此,一种智能化的、综合应用各种统计分析方法、数据库、智能语言来分析庞大数据资料的技术就应运而生,这就是目前国际上统计最热门的话题之一“数据挖掘”(Data Mining)。数据挖掘出现后,它是作为一门独立的边缘交叉学科,还是计算机科学的一部分,还是统计学的一部分?对比众说纷纭。本人认为虽然数据挖掘中常用的技术方法和工具中有一部分来自于统计学,但作为一种数据分析方法,数据挖掘仅是统计的一部分,当然这可能要求统计学家们改变他们的一些传统的基本思路及操作原则。将数据挖掘看作统计学的一个分支将有利于促进数据挖掘和传统统计学的共同发展。
4.神经网络:模拟人的神经元功能,经过输入层,隐藏层,输出层等,对数进行调整,计算,最后得到结果,用于分类和回归。
5.遗传算法:基于自然进化理论,模拟基因联合、突变、选择等过程的一种优化技术。
6.关联规则挖掘算法:关联规则是描述数据之间存在关系的规则,形式为“A1∧A2∧…An→B1∧B2∧…Bn”。一般分为两个步骤:(1)求出大数据项集。(2)用大数据项集产生关联规则。除了上述的常用方法外,还有粗集方法,模糊集合方法,Bayesian Belief Net Words,最邻近算法(k-nearest neighbors method(k N N))等。总之,作为一门处理数据的新兴技术,数据挖掘有许多的新特征。首先,数据挖掘面对的是海量的数据,这也是数据挖掘产生的原因。其次,数据可能是不完全的、有噪声的、随机的,有复杂的数据结构,维数大。最后,数据挖掘所采用的技术涉及到:数据库、人工智能、统计学、可视化、并行计算等不同学科和领域。