亚洲成色777777女色窝,777亚洲妇女,色吧亚洲日本,亚洲少妇视频

基于主題型頁面的正文信息抽取技術(shù)研究

摘要:Web頁面信息通常包含大量無關結(jié)構(gòu)和HTML標記,而頁面主題信息通常淹沒其中,如何快速獲取Web頁面主題信息。本文提出了一種抽取策略,首先判定是否為主題型頁面,然后提取網(wǎng)頁正文信息,最后利用正則表達式濾除內(nèi)容塊中HTML標記和無關文字。實驗結(jié)果表明:該方法能準確地完成主題型網(wǎng)頁的正文抽取任務。

關鍵詞:
  • 主題型頁面  
  • 網(wǎng)頁標題  
  • 正文抽取  
作者:
萬文兵
單位:
儀征技師學院 江蘇儀征211400
刊名:
計算機光盤軟件與應用

注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社

計算機光盤軟件與應用雜志緊跟學術(shù)前沿,緊貼讀者,致力于創(chuàng)辦以創(chuàng)新、準確、實用為特色,突出綜述性、科學性、實用性,及時報道國內(nèi)外計算機技術(shù)在科研、教學、應用方面的研究成果和發(fā)展動態(tài),為國內(nèi)計算機同行提供學術(shù)交流的平臺。堅持指導性與實用性相結(jié)合的原則,創(chuàng)辦于1998年,雜志在全國同類期刊中有很重的學術(shù)價值。