好吊妞国产欧美日韩免费观看网站,免费成人在线电影,日韩精品免费一区二区夜夜嗨

<s id="eys6q"></s>

基于詞向量和EMD距離的短文本聚類

摘要：短文本聚類在數(shù)據(jù)挖掘中發(fā)揮著重要的作用，傳統(tǒng)的短文本聚類模型存在維度高、數(shù)據(jù)稀疏和缺乏語義信息等問題，針對(duì)互聯(lián)網(wǎng)短文本特征稀疏、語義存在奇異性和動(dòng)態(tài)性而導(dǎo)致的短文本聚類性能較差的問題，提出了一種基于特征詞向量的文本表示和基于特征詞移動(dòng)距離的短文本聚類算法。首先使用Skip—gram模型（Continuous Skipgram Model）在大規(guī)模語料中韌I練得到表示特征詞語義的詞向量；然后利用歐式距離計(jì)算特征詞相似度，引入EMD（Earth Mover，SDistance）來計(jì)算短文本間的相似度；最后將其應(yīng)用到Kmeans聚類算法中實(shí)現(xiàn)短文本聚類。在3個(gè)數(shù)據(jù)集上進(jìn)行的評(píng)測(cè)結(jié)果表明，效果優(yōu)于傳統(tǒng)的聚類算法。

關(guān)鍵詞：

短文本
emd距離
詞向量
相似度計(jì)算
聚類

作者：

黃棟; 徐博; 許侃; 林鴻飛; 楊志豪

單位：

大連理工大學(xué)信息檢索研究室; 遼寧大連116023

刊名：

山東大學(xué)學(xué)報(bào)·理學(xué)版

注：因版權(quán)方要求，不能公開全文，如需全文，請(qǐng)咨詢雜志社

投稿咨詢免費(fèi)咨詢雜志訂閱

期刊名稱：山東大學(xué)學(xué)報(bào)·理學(xué)版

山東大學(xué)學(xué)報(bào)·理學(xué)版緊跟學(xué)術(shù)前沿，緊貼讀者，國(guó)內(nèi)刊號(hào)為：37-1389/N。堅(jiān)持指導(dǎo)性與實(shí)用性相結(jié)合的原則，創(chuàng)辦于1951年，雜志在全國(guó)同類期刊中發(fā)行數(shù)量名列前茅。

雜志信息雜志咨詢

亚洲成色777777女色窝,777亚洲妇女,色吧亚洲日本,亚洲少妇视频

基于詞向量和EMD距離的短文本聚類

服務(wù)介紹

期刊咨詢

訂閱雜志

期刊推薦