摘要:短文本聚類在數(shù)據(jù)挖掘中發(fā)揮著重要的作用,傳統(tǒng)的短文本聚類模型存在維度高、數(shù)據(jù)稀疏和缺乏語義信息等問題,針對(duì)互聯(lián)網(wǎng)短文本特征稀疏、語義存在奇異性和動(dòng)態(tài)性而導(dǎo)致的短文本聚類性能較差的問題,提出了一種基于特征詞向量的文本表示和基于特征詞移動(dòng)距離的短文本聚類算法。首先使用Skip—gram模型(Continuous Skipgram Model)在大規(guī)模語料中韌I練得到表示特征詞語義的詞向量;然后利用歐式距離計(jì)算特征詞相似度,引入EMD(Earth Mover,SDistance)來計(jì)算短文本間的相似度;最后將其應(yīng)用到Kmeans聚類算法中實(shí)現(xiàn)短文本聚類。在3個(gè)數(shù)據(jù)集上進(jìn)行的評(píng)測(cè)結(jié)果表明,效果優(yōu)于傳統(tǒng)的聚類算法。
注:因版權(quán)方要求,不能公開全文,如需全文,請(qǐng)咨詢雜志社