摘要:Web頁面信息通常包含大量無關(guān)結(jié)構(gòu)和HTML標(biāo)記,而頁面主題信息通常淹沒其中,如何快速獲取Web頁面主題信息。本文提出了一種抽取策略,首先判定是否為主題型頁面,然后提取網(wǎng)頁正文信息,最后利用正則表達(dá)式濾除內(nèi)容塊中HTML標(biāo)記和無關(guān)文字。實(shí)驗(yàn)結(jié)果表明:該方法能準(zhǔn)確地完成主題型網(wǎng)頁的正文抽取任務(wù)。
注:因版權(quán)方要求,不能公開全文,如需全文,請(qǐng)咨詢雜志社
計(jì)算機(jī)光盤軟件與應(yīng)用雜志緊跟學(xué)術(shù)前沿,緊貼讀者,致力于創(chuàng)辦以創(chuàng)新、準(zhǔn)確、實(shí)用為特色,突出綜述性、科學(xué)性、實(shí)用性,及時(shí)報(bào)道國內(nèi)外計(jì)算機(jī)技術(shù)在科研、教學(xué)、應(yīng)用方面的研究成果和發(fā)展動(dòng)態(tài),為國內(nèi)計(jì)算機(jī)同行提供學(xué)術(shù)交流的平臺(tái)。堅(jiān)持指導(dǎo)性與實(shí)用性相結(jié)合的原則,創(chuàng)辦于1998年,雜志在全國同類期刊中有很重的學(xué)術(shù)價(jià)值。