2024年商业经济行业技能考试-数据挖掘工程师笔试考试历年高频考点试题摘选含答案.docx
2024年商业经济行业技能考试-数据挖掘工程师笔试考试历年高频考点试题摘选含答案.docx
2024年商业经济行业技能考试-数据挖掘工程师笔试考试历年高频考点试题摘选含答案
2.在基于规则分类器的中,依据规则质量的某种度量对规则排序,保证每一个测试记录都是由覆盖它的“最好的”规格来分类,这种方案称为()。
3.在现实世界的数据中,元组在某些属性上缺少值是常有的。描述处理该问题的各种方法有:()。
5.在项目实施时,根据事实表的特点和拥护的查询需求,可以选用()、业务类型、区域和下属组织等多种数据分割类型。
7.()将两个簇的邻近度定义为两个簇合并时导致的平方误差的增量,它是一种凝聚层次聚类技术。
14.在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。
15.给定两个向量对象,分别表示为p1(22,1,42,10),p2(20,0,36,8): (a)计算两个对象之间的欧几里得距离 (b)计算两个对象之间的曼哈顿距离 (c)计算两个对象之间的闵可夫斯基距离,用x=3 (d)计算两个对象之间的切比雪夫距离
17.根据顾客的收入和职业情况,预测他们在计算机设备上的花费,所使用的相应数据挖掘功能是()。
23.一个数据库有5个事务,如表所示。设min_sup=60%,min_conf=80%。 (a)分别用Apriori算法和FP-growth算法找出所有频繁项集。比较两种挖掘方法的效率。 (b)比较穷举法和Apriori算法生成的候选项集的数量。 (c)利用(1)所找出的频繁项集,生成所有的强关联规则和对应的支持度和置信度。
31.数据立方体度量可以根据其所使用的聚集函数分为三类,分别是:()、()和()
32.模式为对数据集的全局性总结,它对整个测量空间的每一点做出描述;模型则对变量变化空间的一个有限区域做出描述。
33.在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟合不足的问题。
37.在数据挖掘中,常用的聚类算法包括:()、()、()、基于网格的方法和基于模型的方法。
39.计算一个单位的平均工资,使用哪个中心趋势度量将得到最合理的结果?()
40.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?()
47.什么是用户信息需求表(信息包图法)?它为什么适用于数据仓库的概念模型的设计?
48.假定用于分析的数据包含属性age。数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70,问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。第二个箱子值为:()。
49.一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130人,四年级110人。则年级属性的众数是:()。
53.Bayes法是一种在已知后验概率与类条件概率的情况下的模式分类方法,待分样本的分类结果取决于各类域中样本的全体。
55.下表中列出了4个点的两个最近邻。使用SNN相似度定义,计算每对点之间的SNN相似度。
57.在现实世界的数据中,元组在某些属性上缺少值是常有的。描述处理该问题的各种方法。
58.熵是为消除不确定性所需要获得的信息量,投掷均匀正六面体骰子的熵是:()。
62.两个文档向量d1和d2的值为:d1=(1,0,3,0,2),d2=(3,2,0,0,1),则它们的余弦相似度为:()
64.从应用的角度看,数据仓库的发展演变可以归纳为5个阶段:以报表为主、()、以预测模型为主、以运营导向为主和以实时数据仓库和自动决策为主。
66.考虑下表数据集,请完成以下问题: (1)估计条件概率。 (2)根据(1)中的条件概率,使用朴素贝叶斯方法预测测试样本(A=0,B=1,C=0)的类标号; (3)使用Laplace估计方法,其中p=1/2,l=4,估计条件概率。 (4)同(2),使用(3)中的条件概率。 (5)比较估计概率的两种方法,哪一种更好,为什么?
67.数据仓库按照其开发过程,其关键环节包括()、数据存储于管理和数据表现等。
71.著名的数据仓库系统设计师on认为,数据仓库与其他数据存储系统的区别的四个特征是:()、()、()和()
73.聚类(clustering)是这样的过程:它找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。
2.帮助市场分析人员从客户的基本信息库中发现不同的客户群,通常所使用的数据挖掘功能是()。
4.OLAP技术侧重于把数据库中的数据进行分析、转换成辅助决策信息,是继数据库技术发展之后迅猛发展起来的一种新技术。
5.假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为:()。
6.定义下列数据挖掘功能: 关联、分类、聚类、演变分析、离群点检测 使用你熟悉的生活中的数据,给出每种数据挖掘功能的例子。
D、数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合
12.下表所示的相依表汇总了超级市场的事务数据。其中hotdogs指包含热狗的事务,指不包含热狗的事务。hamburgers指包含汉堡的事务,指不包含汉堡的事务。 假设挖掘出的关联规则是“hotdogs=hamburgers”。给定最小支持度阈值25%和最小置信度阈值50%,这个关联规则是强规则吗? 计算关联规则“hotdogs=hamburgers”的提升度,能够说明什么问题?购买热狗和购买汉堡是独立的吗?如果不是,两者间存在哪种相关关系?
13.考虑这么一种情况:一个对象碰巧与另一个对象相对接近,但属于不同的类,因为这两个对象一般不会共享许多近邻,所以应该选择()的相似度计算方法。
17.数据仓库就是一个面向主题的、集成的、()、反映历史变化的数据集合。
18.考虑值集{12,24,33,2,4,55,68,26},其四分位数极差是:()。
20.操作型数据存储实际上是一个集成的、面向主题的、可更新的、()、企业级的、详细的数据库,也叫运营数据存储。
22.维度可以根据其变化快慢分为元变化维度、()维度和剧烈变化维度三类。
2024年农林牧渔职业技能考试-农作物植物种子繁育员笔试考试历年高频考点试题摘选含答案.docx
2024年农林牧渔职业技能考试-实验动物从业人员上岗证笔试考试历年高频考点试题摘选含答案.docx
2024年农林牧渔职业技能考试-森林管护工笔试考试历年高频考点试题摘选含答案.docx
2024年农林牧渔职业技能考试-蔬菜园艺工笔试考试历年高频考点试题摘选含答案.docx
2024年冶金工业技能鉴定考试-冶金工程师笔试考试历年高频考点试题摘选含答案.docx
2024年冶金工业技能鉴定考试-彩涂工笔试考试历年高频考点试题摘选含答案.docx
2024年冶金工业技能鉴定考试-炼铁热风炉工笔试考试历年高频考点试题摘选含答案.docx
2024年冶金工业技能鉴定考试-碾泥工笔试考试历年高频考点试题摘选含答案.docx
2024年冶金工业技能鉴定考试-配料工笔试考试历年高频考点试题摘选含答案.docx
2024年冶金工业技能鉴定考试-锻工笔试考试历年高频考点试题摘选含答案.docx
西门子 ET200分布式 I O 系统 ET 200S 操作说明.pdf
2024年03月湛江市教育局直属湛江中学(广东实验中学湛江学校)招考聘用86人笔试历年高频考点试题附黑钻版答案与详解.docx
原创力文档创建于2008年,本站为文档C2C交易模式,即用户上传的文档直接分享给其他用户(可下载、阅读),本站只是中间服务平台,本站所有文档下载所得的收益归上传人所有。原创力文档是网络服务平台方,若您的权利被侵害,请发链接和相关诉求至 电线) ,上传者