[1]汪晶,邹学玉,喻维明,等.分布式MVC-Kmeans算法设计与实现[J].三才(TM)期刊,2019,29(6):113-119.
点击复制

分布式MVC-Kmeans算法设计与实现
分享到:

《三才(TM)期刊》[ISSN:1008-0341/CN:37-1280/R]

卷:
第29卷
期数:
2019年第6期
页码:
113-119
栏目:
其他
出版日期:
2019-08-25

文章信息/Info

文章编号:
1673 1409 (2019)06 0113 07
作者:
汪晶 邹学玉 喻维明 孙咏
长江大学电子信息学院, 湖北荆州434023
关键词:
Hadoop云平台K-means聚类Canopy算法最小方差大规模数据
分类号:
TP391
文献标志码:
A
摘要:
针对K-means算法聚类质量和收敛速度取决于初始聚类中心选取的问题,提出了一种利用最小方 差获取Canopy最优全局中心作为K-means聚类中心初值的算法,并利用Hadoop平台MapReduce编程模 型进行了分布式MVC-Kmeans算法的设计与实现。标准UCI数据集测试结果表明,与传统K-means聚类 算法相比,该算法可以得到更好的聚类质量,且收敛速度更快,适于大规模数据的聚类分析。

参考文献/References:


[1]吴夙慧,成颖,郑彦宁,等.K-means算法研究综述[J]. 现代图书情报技术,2011 (5):28~35.
[2]Mccallum A,Nigam K,UngarL H. Efficientclusteringofhigh-dimensionaldatasetswithapplicationtoreferencematching[A]. ACMSIGKDD [C].2000:169~178.
[3]JiaweiHan,KamberM. 数据挖掘概念与技术[M]. 范明,孟小峰译. 北京:机械工业出版社,2000:53~54.
[4]邢长征,谷浩. 基于平均密度优化初始聚类中心的K-means算法[J]. 计算机工程与应用,2014,50 (20):135~138.
[5]陈光平,王文鹏,黄俊. 一种改进初始聚类中心选择的K-means算法[J]. 小型微型计算机系统,2012,33 (6):1320~1323.
[6]冯波,郝文宁,陈刚,占栋辉.K-means算法初始聚类中心选择的优化[J].计算机工程与应用,2013,49 (14):182~185,192.
[7]张琳,牟向伟. 基于Canopy+K-means的中文文本聚类算法[J]. 图书馆论坛,2018,38 (6):113~119.
[8]刘宝龙,苏金. 基于Hadoop平台的K-means聚类算法[J]. 计算机系统应用,2017,26 (6):182~186.
[9]VermaY,HoodaS.AReviewPaperonBigDataandHadoop [J].InternationalJournalofScientificandResearchPublications,2015, 3 (2):682~684.
[10]RalfL?mmel.Google??sMapReduceprogrammingmodel-Revisited [J].ScienceofComputerProgramming,2008,70 (1):1~30.
[11]张淑芬,董岩岩,陈学斌. 基于云计算平台Hadoop的HKM 聚类算法设计研究[J]. 应用科学学报,2018,36 (3):524~534.
[12]冀素琴,石洪波. 面向海量数据的K-means聚类优化算法[J]. 计算机工程与应用,2014,50 (14):143~147.
[13]廖帅,王扬钧,姜楠,等. 一种基于类内聚集度和类间离散度的特征集提取方法[J]. 航天电子对抗,2017,33 (6):34~36.
[14]刘建红. 基于Hadoop平台的聚类算法并行化研究[D]. 长春:吉林大学,2017.
[15]AsuncionA,NewmanDJ.UCImachinelearningrepository [EB/OL].http://archive.ics.uci.edu/ml,2009-12-23.
[16]KruijfM,Sankaralingam K. MapReducefortheCellBroadbandEngineArchitecture [J].IBMJournalofResearchandDevelopment, 2009,53 (5):1~12.
[17]牛怡晗,海沫.Hadoop平台下Mahout聚类算法的比较研究[J]. 计算机科学,2015,42 (S1):465~469

更新日期/Last Update: 2019-06-25