亚洲成色777777女色窝,777亚洲妇女,色吧亚洲日本,亚洲少妇视频

基于詞向量和EMD距離的短文本聚類

摘要:短文本聚類在數(shù)據(jù)挖掘中發(fā)揮著重要的作用,傳統(tǒng)的短文本聚類模型存在維度高、數(shù)據(jù)稀疏和缺乏語義信息等問題,針對(duì)互聯(lián)網(wǎng)短文本特征稀疏、語義存在奇異性和動(dòng)態(tài)性而導(dǎo)致的短文本聚類性能較差的問題,提出了一種基于特征詞向量的文本表示和基于特征詞移動(dòng)距離的短文本聚類算法。首先使用Skip—gram模型(Continuous Skipgram Model)在大規(guī)模語料中韌I練得到表示特征詞語義的詞向量;然后利用歐式距離計(jì)算特征詞相似度,引入EMD(Earth Mover,SDistance)來計(jì)算短文本間的相似度;最后將其應(yīng)用到Kmeans聚類算法中實(shí)現(xiàn)短文本聚類。在3個(gè)數(shù)據(jù)集上進(jìn)行的評(píng)測(cè)結(jié)果表明,效果優(yōu)于傳統(tǒng)的聚類算法。

關(guān)鍵詞:
  • 短文本  
  • emd距離  
  • 詞向量  
  • 相似度計(jì)算  
  • 聚類  
作者:
黃棟; 徐博; 許侃; 林鴻飛; 楊志豪
單位:
大連理工大學(xué)信息檢索研究室; 遼寧大連116023
刊名:
山東大學(xué)學(xué)報(bào)·理學(xué)版

注:因版權(quán)方要求,不能公開全文,如需全文,請(qǐng)咨詢雜志社

山東大學(xué)學(xué)報(bào)·理學(xué)版緊跟學(xué)術(shù)前沿,緊貼讀者,國(guó)內(nèi)刊號(hào)為:37-1389/N。堅(jiān)持指導(dǎo)性與實(shí)用性相結(jié)合的原則,創(chuàng)辦于1951年,雜志在全國(guó)同類期刊中發(fā)行數(shù)量名列前茅。