PG电子【中国】平台网站 - PG SOFT

2024年PG电子平台商业经济行业技能考试-数据挖掘工程师考试历年高频考点荟萃带答案docx|PG电子平台
× 快速导航
PG平台资讯
分类
2024年PG电子平台商业经济行业技能考试-数据挖掘工程师考试历年高频考点荟萃带答案docx
发布日期:2024-06-06 10:20:46

  2024年商业经济行业技能考试-数据挖掘工程师考试历年高频考点荟萃带答案

  2.使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?()

  6.聚类(clustering)是这样的过程:它找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。

  12.为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务?()

  13.使用星型模式可以从一定程度上()查询效率。因为星型模式中数据的组织已经经过预处理,主要数据都在庞大的事实表中。

  15.考虑下表数据集,请完成以下问题: (1)估计条件概率。 (2)根据(1)中的条件概率,使用朴素贝叶斯方法预测测试样本(A=0,B=1,C=0)的类标号; (3)使用Laplace估计方法,其中p=1/2,l=4,估计条件概率。 (4)同(2),使用(3)中的条件概率。 (5)比较估计概率的两种方法,哪一种更好,为什么?

  20.什么是聚类?简单描述如下的聚类方法:划分方法,层次方法,基于密度的方法,基于模型的方法。为每类方法给出例子。

  21.先验原理可以表述为:如果一个项集是频繁的,那包含它的所有项集也是频繁的。

  23.计算一个单位的平均工资,使用哪个中心趋势度量将得到最合理的结果?()

  24.粒度是对数据仓库中数据的综合程度高低的一个衡量。粒度越小,细节程度越高,综合程度越低,回答查询的种类()

  8.假设12个销售价格记录组已经排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内?()

  11.在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是:()。

  13.数据仓库按照其开发过程,其关键环节包括()、数据存储于管理和数据表现等。

  17.考虑值集{12,24,33,2,4,55,68,26},其四分位数极差是:()。

  18.模式为对数据集的全局性总结,它对整个测量空间的每一点做出描述;模型则对变量变化空间的一个有限区域做出描述。

  20.如果对属性值的任一组合,R中都存在一条规则加以覆盖,则称规则集R中的规则为()。

  23.如果规则不满足置信度阈值,则形如的规则一定也不满足置信度阈值,其中是X的子集。

  2.考虑值集{1、2、3、4、5、90},其截断均值(p=20%)是()。

  3.在项目实施时,根据事实表的特点和拥护的查询需求,可以选用()、业务类型、区域和下属组织等多种数据分割类型。

  15.假定用于分析的数据包含属性age,数据元组中age的值如下(按递增序): 13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,33,35,35,35,35,36,40,45,46,52,70。 (a)使用按箱平均值平滑对以上数据进行平滑,箱的深度为3。解释你的步骤。评论对于给定的数据,该技术的效果。 (b)对于数据平滑,还有哪些其它方法?

  16.OLAP技术侧重于把数据库中的数据进行分析、转换成辅助决策信息,是继数据库技术发展之后迅猛发展起来的一种新技术。

  18.什么是用户信息需求表(信息包图法)?它为什么适用于数据仓库的概念模型的设计?

  4.正确答案:对于一个M维数据集,基于像素的可视化技术在屏幕上创建m个窗口,每维一个。记录的m个维值映射到这些窗口对应位置上的m个像素。像素的颜色反映对应的值。基于像素的可视化技术的缺点;难以呈现对维空间的数据分布,不显示数据子空间是否存在稠密区域。

  1,数据仓库的时间范围比操作数据库系统要长的多。操作数据库系统主要保存当前数据,而数据仓库从历史的角度提供信息。

  2,数据仓库中的每一个关键结构都隐式或显式的包含时间元素,而操作数据库中的关键结构可能就不包含时间元素。

  9.正确答案:同时满足最小支持度阈值和最小可信度阈值的规则称之为关联规则。

  (5)当条件概率为0的时候,条件概率的预测用Laplace估计方法比较好,因为我们不想整个条件概率计算结果为0。

  17.正确答案:是对差异和极端特例的描述,用于揭示事物偏离常规的异常现象,如标准类外的特例,数据聚类外的离群值等。

  20.正确答案:聚类是将数据划分为相似对象组的过程,使得同一组中对象相似度最大而不同组中对象相似度最小。主要有以下几种类型方法:

  给定一个有N个元组或者记录的数据集,分裂法将构造K个分组,每一个分组就代表一个聚类,KN。而且这K个分组满足下列条件:第一,每一个分组至少包含一条记录;第二,每一条记录属于且仅属于一个分组(注意:这个要求在某些模糊聚类算法中可以放宽);对于给定的K,算法首先给出一个初始的分组方法,以后通过反复迭代的方法改变分组,使得每一次改进之后的分组方案都较前一次好,而所谓好的标准就是:同一分组中的记录越近越好,而不同分组中的记录越远越好。

  这种方法对给定的数据集进行层次似的分解,直到某种条件满足为止。具体又可分为“自底向上”和“自顶向下”两种方案。例如在“自底向上”方案中,初始时每一个数据记录都组成一个单独的组,在接下来的迭代中,它把那些相互邻近的组合并成一个组,直到所有的记录组成一个分组或者某个条件满足为止。

  基于密度的方法与其它方法的一个根本*区别是:它不是基于各种各样的距离,而是基于密度的。这样就能克服基于距离的算法只能发现“类圆形”的聚类的缺点。这个方法的指导思想就是:只要一个区域中的点的密度大过某个阈值,就把它加到与之相近的聚类中去。

  基于模型的方法给每一个聚类假定一个模型,然后去寻找能够很好的满足这个模型的数据。这样一个模型可能是数据点在空间中的密度分布函数或者其它。它的一个潜在假定就是:目标数据集是由一系列的概率分布所决定的。

  PG平台 电子

  一是为了解决企业决策分析中的系统响应问题,数据仓库能提供比传统事务数据库更快的大规模决策分析的响应速度。

  二是解决决策分析对数据的特殊需求问题。决策分析需要全面的、正确的集成数据,这是传统事务数据库不能直接提供的。

  三是解决决策分析对数据的特殊操作要求。决策分析是面向专业用户而非一般业务员,需要使用专业的分析工具,对分析结果还要以商业智能的方式进行表现,这是事务数据库不能提供的。

  4.正确答案:雪花模式中某些维表是规范化的,因而把数据进一步分解到附加的表中,模式图形成了类似雪花的形状。通过最大限度地减少数据存储量以及联合较小的维表来改善查询性能。雪花模型增加了用户必须处理的表数量,增加了某些查询的复杂性,但同时提高了处理的灵活性,可以回答更多的商业问题,特别适合系统的逐步建设要求。

  7.正确答案:基于贝叶斯定理的推断需要大量训练数据以覆盖类条件概率空间,引入了很大开销。朴素贝叶斯分类做了类条件独立假设,大幅降低了计算开销。他的优点是容易实现并在大多数情况下可以取得较好的结果;他的缺陷是类条件独立在实际应用缺乏准确性,因为变量之间经常存在依赖关系,这种依赖关系影响了朴素贝叶斯分类器的准确性。

  第二步,在独立测试集上评估模型的预测准确率,通过测试后再使用模型,对新的数据进行分类。

  MOLAP是事先生成多维立方体,供以后查询分析用,而ROLAP是通过动态的生成Sql,去做查询关系型数据库,如果没有做性能优化,数据量很大的时候,性能问题就会显得比较突出了。

  商业层面上:数据挖掘就是对大量业务数据进行抽取,转换和分析以及建模处理,从中提取辅助商业决策的关键性数据。

  首先找出最有判别力的因素,然后把数据分成多个子集,每个子集又选择最有判别力的因素进一步划分,一直进行到所有子集仅包含同一类型的数据为止。最后得到一棵决策树,可以用它来对新的样例进行分类。

  分类规则的挖掘方法通常有:决策树法、贝叶斯法、人工神经网络法、粗糙集法和遗传算法。

  分类的过程包括2步:首先在已知训练数据集上,根据属性特征,为每一种类别找到一个合理的描述或模型,即分类规则;然后根据规则对新数据进行分类。

  统计学主要是对数量数据(数值)或连续值数据(如年龄、工资等),进行数值计算(如初等运算)的定量分析,得到数量信息。

  数据挖掘主要对离散数据(如职称、病症等)进行定性分析(覆盖、归纳等),得到规则知识。

  6.正确答案:OLAP是在OLTP的基础上发展起来的,以数据仓库为基础的数据分析处理,是共享多维信息的快速分析,是被专门设计用于支持复杂的分析操作,侧重对分析人员和高层管理人员的决策支持。

  11.正确答案:在一些应用领域中,识别离群点是许多工作的基础和前提。一般地,离群点可能对应于稀有事件或异常行为,所以,离群点的挖掘会给我们带来新的视角和发现,离群点往往具有特殊的意义和很高的实用价值,需要对其进行认真审视和研究,因为它们表示一种偏差或新的模式的开始,这可能会对用户带来危害,或造成巨大损失。

  1,尽管数据仓库中的数据来自于数据库,但它们却是在物理上奋力保持的,操作数据库的更新操作不会出现在数据仓库环境下。

  基于划分的聚类方法:给顶一个n个对象或元组的数据库,一个划分方法构建数据的k个划分,每个划分表示一个簇,丙炔k《=n。划分方法要求每个组至少包含一个对象并且每个对象属于且仅数以一个组。聚类目标可以是最优化某种量度,比如最小化数据点与类中心的距离平方和等。

  划分准则是同一个聚类中的对象尽可能的接近或相关,不同聚类中的对象尽可能的远离或不同。

  14.正确答案:是根据时间序列型数据,由历史的和当前的数据去推测未来的数据,也可以认为是以时间为关键属性的关联知识。

  (2)聚类:可以通过聚类检测离群点,将类似的值组织成群或簇。直观地,落在簇集合之外的值视为离群点。

  信息包图法,也叫用户信息需求表,就是在一张平面表格上描述元素的多维性,其中的每一个维度用平面表格的一列表示,通常的维度如时间、地点、产品和顾客等;而细化本列的对象就是类别,例如时间维度的类别可以细化到年、月、日,甚至小时;平面表格的最后一行(代表超立方体中的单元格)即为指标度量值,例如,某年在某销售点的某类产品的实际销售额。创建信息包图时需要确定最高层和最低层的信息需求,以便最终设计出包含各个层次需要的数据仓库。

  总之,信息包图法是一种自上而下的数据建模方法,即从用户的观点开始设计(用户的观点是通过与用户交流得到的),站在管理者的角度把焦点集中在企业的一个或几个主题上,着重分析主题所涉及数据的多维特性,这种自上而下的方法几乎考虑了所有的信息源,以及这些信息源影响业务活动的方式。

  数据仓库的元数据除对数据仓库中数据的描述(数据仓库字典)外,还有以下三类元数据:

  22.正确答案:分箱的方法主要有:①统一权重法(又称等深分箱法)②统一区间法(又称等宽分箱法)③最小熵法④自定义区间法数据平滑的方法主要有:平均值法、边界值法和中值法。

  2024年卫生资格(中初级)-眼科主治医师考试历年高频考点荟萃带答案.docx

  2024年卫生资格(中初级)-社区护理主管护师(中级)考试历年高频考点荟萃带答案.docx

  2024年卫生资格(中初级)-神经内科主治医师考试历年高频考点荟萃带答案.docx

  2024年卫生资格(中初级)-神经外科主治医师考试历年高频考点荟萃带答案.docx

  2024年卫生资格(中初级)-神经电生理脑电图技术(主管技师)考试历年高频考点荟萃带答案.docx

  2024年卫生资格(中初级)-神经电生理脑电图技术(师)考试历年高频考点荟萃带答案.docx

  2024年卫生资格(中初级)-精神病学主治医师考试历年高频考点荟萃带答案.docx

  2024年卫生资格(中初级)-结核病主治医师考试历年高频考点荟萃带答案.docx

  2024年卫生资格(中初级)-耳鼻咽喉科主治医师考试历年高频考点荟萃带答案.docx

  2024年卫生资格(中初级)-职业卫生主治医师考试历年高频考点荟萃带答案.docx

  GB/T 12976.2-2008额定电压35 kV(Um=40.5 kV)及以下纸绝缘电力电缆及其附件第2部分:额定电压35 kV.pdf

  PG平台 电子

  原创力文档创建于2008年,本站为文档C2C交易模式,即用户上传的文档直接分享给其他用户(可下载、阅读),本站只是中间服务平台,本站所有文档下载所得的收益归上传人所有。原创力文档是网络服务平台方,若您的权利被侵害,请发链接和相关诉求至 电线) ,上传者