摘要:垃圾短信已日益成為影響人們?nèi)粘I畹膰?yán)重問題,由于短信屬于短文本,長度較短,特征稀疏,尤其是垃圾短信為逃避過濾機(jī)制,其結(jié)構(gòu)和內(nèi)容常常不規(guī)范,所以傳統(tǒng)的文本特征提取方法并不能完全適用于短信分類。從短信的結(jié)構(gòu)及語義兩個(gè)角度提取特征項(xiàng),并建立語義特征詞表,采用基于多特征融合的方法來向量化表示短信文本。針對(duì)短信數(shù)據(jù)集中存在的噪聲及數(shù)據(jù)不平衡問題,分別比較了NB、SVM、DT、LR、MLP、RF分類器的性能差別。實(shí)驗(yàn)表明,采用RF分類算法,能有效減弱噪聲干擾及數(shù)據(jù)不平衡性所帶來的影響。通過在CCF2015中國好創(chuàng)意競賽題目“垃圾短信基于文本內(nèi)容識(shí)別”所提供的數(shù)據(jù)集上進(jìn)行驗(yàn)證,取得了很好的效果。
注:因版權(quán)方要求,不能公開全文,如需全文,請(qǐng)咨詢雜志社