pg电子网站pg电子网站该【2024年数据挖掘离线作业 】是由【书犹药也】上传分享,文档一共【17】页,该文档可以免费在线阅读,需要了解更多关于【2024年数据挖掘离线作业 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。浙江大学远程教育学院《数据挖掘》课程作业姓名:皇甫旭丹学号:7年级:秋学****中心:奉化学****中心—————————————————————————————引言一、填空题(1)数据库中的知识挖掘(KDD)包括如下七个步骤:数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评定和知识表示(2)数据挖掘的性能问题重要包括:算法的效率、可扩展性和并行处理(3)目前的数据挖掘研究中,最重要的三个研究方向是:统计学、数据库技术和机器学****4)孤立点是指:某些与数据的一般行为或模型不一致的孤立数据二、简答题(1)什么是数据挖掘?答:数据挖掘指的是从大量的数据中挖掘出那些令人感兴趣的、有用的、隐含的、先前未知的和也许有用的模式或知识。(2)一个经典的数据挖掘系统应当包括哪些组成部分?答:一个经典的数据挖掘系统应当包括如下部分:数据库、数据仓库或其他信息库、数据库或数据仓库服务器、知识库、数据挖掘引擎、模式评定模块、图形用户界面。(3)Web挖掘包括哪些步骤?答:数据清理:(这个也许要占全过程60%的工作量);数据集成(数据存入数据仓库建立数据立方体,选择用来进行数据挖掘的数据);数据挖掘(选择适当的算法来找到感兴趣的模式);展现挖掘成果(将模式或者知识应用或者存入知识库)。(4)请列举数据挖掘应用常见的数据源。(或者说,我们都在什么样的数据上进行数据挖掘)答:常见的数据源包括关系数据库、数据仓库、事务数据库和高级数据库系统和信息库。其中高级数据库系统和信息库包括:空间数据库、时间数据库和时间序列数据库、流数据、多媒体数据库、面对对象数据库和对象-关系数据库、异种数据库和遗产(legacy)数据库、文本数据库和万维网(等。第二章认识数据一、填空题(1)两个文档向量d1和d2的值为:d1=(1,0,3,0,2),d2=(3,2,0,0,1),则它们的余弦相同度为:5/13(2)数据离散度的常用度量包括极差、分位数、四分位数、百分位数四分位数极差和标准差(3)一个常用确实定离群点的简单措施是:IQR处的值。二、单项选择题(1)对于下图所示的正倾斜数据,中位数、平均值、众数三者之间的关系是:A、中位数=平均值=众数; B中位数平均值众数;C、平均值中位数众数; D;众数中位数平均值答:C。(2)下面的散点图显示哪种属性有关性?A不有关; B正有关; C负有关; D先正有关然后负有关;答:C。三、简答题(1)什么是基于像素的可视化技术?它有什么缺陷?答:对于一个m维数据集,基于像素的可视化技术在屏幕上创建m个窗口,每维一个。统计的m个维值映射到这些窗口对应位置上的m个像素。像素的颜色反应对应的值。基于像素的可视化技术特点:难以展现多维空间的数据分布,不显示数据子空间中是否存在稠密区域。(2)对称的和不对称的二元属性有什么区分?答:对称的二元属性指变量的两个状态具备同等价值或相同权重;而不对称的二元属性中,变量的两个状态的重要性是不一样的。对称的二元属性能够使用简单匹配系统评定它们的相异度;ard系数评定它们的相异度。第三章数据预处理填空题(1)进行数据预处理时所使用的重要措施包括:数据清理、数据集成、数据变换和数据规约(2)数据概化是指:沿概念分层向上概化(3)数据压缩可分为:有损压缩和无损压缩两种类型。(4)进行数值归约时,三种常用的有参措施是:线性回归措施、多元回归和对数线)常用的数值属性概念分层的措施有哪些?答:常用的数值属性概念分层的措施有分箱、直方图分析、聚类分析、基于熵的离散化和通过自然划分分段。(2)请描述主成份分析(PCA)算法步骤答:1)规范化输入的数据:所有属性落在相同区间内;2)计算k个标准正交向量,即主成份;3)每个输入数据的向量都是这k个主成份向量的线)主成份按照重要程度降序排列。(3)在现实世界的数据中,元组在某些属性上缺乏值是常有的。描述处理该问题的各种措施。答:处理空缺值的措施有:1)忽视元祖。当类标号缺乏时一般这么做(假定挖掘任务设计分类或描述),当每个属性缺乏值的百分比变化很大时,它的效果非常差。2)人工填写空缺值。这种措施工作量大,可行性低。3)使用一个全局变量填充空缺值:例如使用unknown或-∞。4)使用属性的平均值填充空缺值。5)使用与给定元祖属同一类所有样本的平均值。6)使用最也许的值填充空缺值。如使用像Bayesian公式或判定树这么的基于推断的措施。(4)常见的数据归约方略包括哪些?答:数据归约方略包括:(1)数据立方体聚集(2)维归约(3)数据压缩(4)数值归约(5)离散化和概念分层产生第六—七章挖掘频繁模式、关联和有关一、填空题(1)关联规则挖掘中,两个重要的兴趣度度量是:支持度和置信度(2)Aprior算法包括连接和剪枝两个基本步骤(3)项集的频率是指包括项集的事务数(4)大型数据库中的关联规则挖掘包括两个过程:找出所有频繁项集和由频繁项集产生强关联规则(5)依照规则中所处理的值类型,关联规则可分为:布尔关联规则和量化关联规则(6)Apriori性质是指:频繁项集的所有非空子集也必须是频繁的(7)在多维关联规则挖掘中,我们搜索的不是频繁项集,而是频繁谓词集二、简答题(1)简述在多层关联规则挖掘中,在不一样的层使用一致的支持度的优缺陷。答:优点:搜索时轻易采取优化方略,即一个项假如不满足最小支持度,它的所有子项都能够不用搜索。缺陷:最小支持度值设置困难,太高则将丢掉出目前较低抽象层中故意义的关联规则;太低则会在较高层产生太多的无兴趣的规则。(2)怎样提升Apriori算法的有效性?有哪些常见措施?答:能够使用如下几个思绪提升Apriori算法有效性:减少对数据的扫描次数;缩小产生的候选项集;改进对候选项集的支持度计算措施。常见措施包括:a、基于hash表的项集计数;b、事务压缩(压缩深入迭代的事务数)c、划分;d、选样(在给定数据的一个子集挖掘);e、动态项集计数。第八章分类一、填空题(1)数据分类模型的常用表示形式包括分类规则、决议树和数学公式等。(2)朴素贝叶斯分类是基于类条件独立假设。二、简答题(1)在判定树归纳中,为何树剪枝是有用的?答:决议树建立时,许多分枝反应的是训练数据中的噪声和离群点点,树剪枝能够识别并减去这种分枝,以提升对未知数据分类的准确性。(2)为何朴素贝叶斯分类称为“朴素”的?简述朴素贝叶斯分类优缺陷。答:基于贝叶斯定理的推断需要大量训练数据以覆盖类条件概率空间,引入了很大开销。朴素贝叶斯分类做了类条件独立假设,大幅减少了计算开销。他的优点是轻易实现并在大多数情况下能够取得很好的成果;他的缺陷是类条件独立在实际应用中缺乏准确性,因为变量之间常常存在依赖关系;这种依赖关系影响了朴素贝叶斯分类器的准确性。(3)分类措施的常用评定度量都有哪些?答:精度(Precision):标识为正类的元祖实际为正类所占的百分比。召回率:正元祖标识为正的百分比。F度量:精度和召回率调和评定指标。准确率(accuracy),识别率:测试数据中被正确分类的元祖所占的百分比。灵敏度(Sensitivity):真正例(识别)率。特效性(Specifictiy):线)简述数据分类的两步过程。答:第一步建立模型,建立描述预先定义的数据类或概念集的分类器;第二步,在独立测试集上评定模型的预测准确率,通过测试后再使用模型,对新的数据进行分类。三、算法题(1)使用判定树归纳算法,依照用户年龄age(分为3个年龄段:18,18...23,23),e(取值为high,medium,low),是否为student(取值为yes和no),信用credit_rating等级(取值为fair和excellent)来判定用户是否会购置PCGame,即构建判定树buys_PCGame,假设既有的数据通过第一次划分之后得到如下图所示成果,并依照该成果对每一个划分中的各个属性计算信息增益对age18的用户:Gain(e)=,Gain(student)=,Gain(credit_rating)=23的用户:Gain(e)=,Gain(student)=,Gain(credit_rating)=,来判定用户是否会购置PCGame。 age1818…2323