亚洲成色777777女色窝,777亚洲妇女,色吧亚洲日本,亚洲少妇视频

基于多特征融合的垃圾短信識(shí)別

摘要:垃圾短信已日益成為影響人們?nèi)粘I畹膰?yán)重問題,由于短信屬于短文本,長度較短,特征稀疏,尤其是垃圾短信為逃避過濾機(jī)制,其結(jié)構(gòu)和內(nèi)容常常不規(guī)范,所以傳統(tǒng)的文本特征提取方法并不能完全適用于短信分類。從短信的結(jié)構(gòu)及語義兩個(gè)角度提取特征項(xiàng),并建立語義特征詞表,采用基于多特征融合的方法來向量化表示短信文本。針對(duì)短信數(shù)據(jù)集中存在的噪聲及數(shù)據(jù)不平衡問題,分別比較了NB、SVM、DT、LR、MLP、RF分類器的性能差別。實(shí)驗(yàn)表明,采用RF分類算法,能有效減弱噪聲干擾及數(shù)據(jù)不平衡性所帶來的影響。通過在CCF2015中國好創(chuàng)意競賽題目“垃圾短信基于文本內(nèi)容識(shí)別”所提供的數(shù)據(jù)集上進(jìn)行驗(yàn)證,取得了很好的效果。

關(guān)鍵詞:
  • 垃圾短信  
  • 多特征融合  
  • 數(shù)據(jù)不平衡  
  • 隨機(jī)森林  
作者:
李潤川; 昝紅英; 申圣亞; 畢銀龍; 張中軍
單位:
鄭州大學(xué)信息工程學(xué)院; 河南鄭州450000; 鄭州大學(xué)互聯(lián)網(wǎng)醫(yī)療與健康服務(wù)河南省協(xié)同創(chuàng)新中心; 河南鄭州450000; 鄭州大學(xué)產(chǎn)業(yè)技術(shù)研究院; 河南鄭州450000; 鄭州大學(xué)外語學(xué)院; 河南鄭州450000; 周口師范學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院; 河南周口466001
刊名:
山東大學(xué)學(xué)報(bào)·理學(xué)版

注:因版權(quán)方要求,不能公開全文,如需全文,請(qǐng)咨詢雜志社

山東大學(xué)學(xué)報(bào)·理學(xué)版緊跟學(xué)術(shù)前沿,緊貼讀者,國內(nèi)刊號(hào)為:37-1389/N。堅(jiān)持指導(dǎo)性與實(shí)用性相結(jié)合的原則,創(chuàng)辦于1951年,雜志在全國同類期刊中發(fā)行數(shù)量名列前茅。