在UCI上下载壹种用于分类的数据集,使用C4.5算法,设置不壹样的参数建立两個有指导的學习,记录检查集錯误率。使用式(5,9)确定两個模型的检查集錯误率与否存在明显差异。
對于壹种用于分类的数据集,使用C4.5算法,设置不壹样的参数建立两個有指导的學习,记录检查集錯误率。使用式(5,9)确定两個模型的检查集錯误率与否存在明显差异,從而學會评估有指导的學习模型。
数据集名為IRIS.xls,选择所有150個实例和5個属性,其中4個属性作為输入属性,第5個属性Iris_type作為输出属性,生成.csv文献,加载到Weka。
通過度析混淆矩阵,重新设置参数使用比例66%,反复上述环节,执行程序,计算錯误率為3.9%,较之前有了些許提高。
接下来通過假设检查来比较两個用同样训练集创立的有指导的學习模型。公式如上图所示。其中E1為模型M1的检查集分类錯误率;E2為模型M2的检查集分类錯误率;q為两個模型分类錯误率的平均值,即q=(E1+E2)/2;n1和n2分别是检查集A和B的实例個数;q(1-q)是用E1和E2计算出来的方差值。代入数据可得最终的Z=0.057,假如Z值不小于等于1.96,就有95%的把握认為M1和M2的检查集性能差异是明显的。此時算出来的是0.057,就阐明两個聚类算法的性能差异不是明显的。
通過观测混淆矩阵,并记录检查集錯误率,從而修改参数使錯误率減小,虽然通過计算成果改善的不明显,不過通過试验掌握了學习措施。
通過這次试验,在此前的基础上愈加深入的理解了C4.5决策树算法以及Weka软件的使用。
使专心脏病人数据集(CardiologyNumerical)的前150個实例作為训练集实例,剩余的153個实例作為检查集实例,选择两种或多种数据挖掘技术建立有指导的學习模型,运用混淆矩阵和检查集錯误率评估所建模型,并使用假设检查确定這些模型之间与否存在明显性差异。
选择两种或多种数据挖掘技术建立有指导的學习模型,运用混淆矩阵和检查集錯误率评估所建模型,并使用假设检查确定這些模型之间与否存在明显性差异,從而學會评估有指导的學习模型。
计算K個簇中心与其他剩余实例简朴欧氏距离,用這個距离作為实例之间相似性的度量,将与某個簇相似度高的实例划分到该簇中,成為其组员之壹。
假如计算得到新的簇中心等于上次迭代的簇中心,终止算法過程。否则用新的簇中心作為簇中心并反复环节(3)~(5)。
二、最大期望(EM)算法:是在概率(probabilistic)模型中寻找参数最大似然估计或者最大後验估计的算法,其中概率模型依赖于無法观测的隐藏变量(LatentVariable)。最大期望常常用在机器學习和计算机视覺的数据聚类(DataClustering)领域。最大期望算法通過两個环节交替進行计算:第壹步是计算期望(E),运用對隐藏变量的既有估计值,计算其最大似然估计值;第二步是最大化(M),最大化在E步上求得的最大似然值来计算参数的值。M步上找到的参数估计值被用于下壹种E步计算中,這個過程不停交替進行。
心脏病人数据集(CardiologyNumerical)的前150個实例作為训练集实例,剩余的153個实例作為检查集实例,生成.csv文献,加载到Weka。
加载数据集,选择Instance列,單击Remove按钮,使该属性不参与训练。切换到Cluster选项卡,單击Choose按钮,打開算法选择對话框,选择SimpleKMeans算法。
單击Choose按钮右方的文本框,打開参数设置對话框,查看参数,并保持默认。注意将K值(numCluster)设置為2,距离函数选择欧氏距离。
成果中将151個实例分為0和1两個参数分别由91個和60個实例。使用Kmeans算法最终分类為0的有84個,分类為1的有68個。与原始的数据集中的分类有壹定的偏差。计算得分类錯误率為5.6%。
單击Choose按钮,打開算法选择對话框,使用EM算法進行试验,成果中分类為0的有74個,分类為1的有78個。与原始数据集中的分类有壹定差异,分类錯误率為4.9%。
接下来通過假设检查来比较两個用同样训练集创立的有指导的學习模型。公式如上图所示。其中E1為模型M1的检查集分类錯误率;E2為模型M2的检查集分类錯误率;q為两個模型分类錯误率的平均值,即q=(E1+E2)/2;n1和n2分别是检查集A和B的实例個数;q(1-q)是用E1和E2计算出来的方差值。代入数据可得最终的Z=1.076,假如Z值不小于等于1.96,就有95%的把握认為M1和M2的检查集性能差异是明显的。此時算出来的是1.076,就阐明两個聚类算法的性能差异是不明显的。
成果中将151個实例分為0和1两個参数分别由91個和60個实例。使用Kmeans算法最终分类為0的有84個,分类為1的有68個。与原始的数据集中的分类有壹定的偏差。计算得分类錯误率為5.6%。使用EM算法進行试验,成果中分类為0的有74個,分类為1的有78個。与原始数据集中的分类有壹定差异,分类錯误率為4.9%。
2024年注册安全工程师执业资格考试试卷《安全生产管理知识》.docx
[吉林]2023年吉林农业大学招聘18人(7号)笔试历年高频考点(难、易错点)附带答案详解.docx
[台州]浙江台州市立医院招聘采购部工作人员笔试历年高频考点(难、易错点)附带答案详解.docx
[吉安]2023年江西吉安职业技术学院机械与电子工程学院外聘教师招聘笔试历年高频考点(难、易错点)附带答案详解.docx
[台州]浙江台州温岭市委机构编制委员会办公室招聘编外人员笔试历年高频考点(难、易错点)附带答案详解.docx
[台州]浙江台州温岭市禁毒办招聘禁毒社工笔试历年高频考点(难、易错点)附带答案详解.docx
[台州]浙江台州玉环市医疗保障局招聘编外工作人员笔试历年高频考点(难、易错点)附带答案详解.docx
LG 洗衣机滚筒洗衣机WD-T1450B0S.ACN产品说明书Chinese.pdf
原创力文档创建于2008年,本站为文档C2C交易模式,即用户上传的文档直接分享给其他用户(可下载、阅读),本站只是中间服务平台,本站所有文档下载所得的收益归上传人所有。原创力文档是网络服务平台方,若您的权利被侵害,请发链接和相关诉求至 电线) ,上传者PG电子平台PG电子平台