摘要:萬維網(wǎng)的大量數(shù)據(jù)以自然語言文本形式存在,如何挖掘和利用萬維網(wǎng)的自然語言文本已成為計(jì)算機(jī)科學(xué)和語言學(xué)的交叉研究熱點(diǎn),這改變了傳統(tǒng)的語言學(xué)知識(shí)獲取方式,沖擊了語料庫語言學(xué)的現(xiàn)有范式,挑戰(zhàn)著傳統(tǒng)語料庫在語言研究中的地位--既然語言學(xué)知識(shí)可從萬維網(wǎng)獲得,那么萬維網(wǎng)能否代替?zhèn)鹘y(tǒng)語料庫?這一問題的關(guān)鍵在于萬維網(wǎng)能否如傳統(tǒng)語料庫一般為語言研究提供可靠的語言學(xué)知識(shí)。文章探討了從萬維網(wǎng)獲取語言學(xué)知識(shí)的三種途徑及其可靠性:通用搜索引擎;語言學(xué)搜索引擎;網(wǎng)絡(luò)驅(qū)動(dòng)語料庫。研究發(fā)現(xiàn),通用搜索引擎和語言學(xué)搜索引擎的局限性較大,而網(wǎng)絡(luò)驅(qū)動(dòng)語料庫是三者中最可靠的一種語言學(xué)知識(shí)獲取途徑;盡管網(wǎng)絡(luò)驅(qū)動(dòng)語料庫憑借自動(dòng)化建庫和超大規(guī)模的優(yōu)勢,在詞典編纂、短語自動(dòng)識(shí)別、自然語言處理等領(lǐng)域顯示出了一定潛力。但由于存在諸多缺陷,萬維網(wǎng)尚不能取代傳統(tǒng)語料庫,但它與語言研究的結(jié)合有望成為語料庫語言學(xué)在未來的重要研究方向。
注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社