時(shí)間:2023-06-12 16:20:42
導(dǎo)語:在超高效學(xué)習(xí)方法的撰寫旅程中,學(xué)習(xí)并吸收他人佳作的精髓是一條寶貴的路徑,好期刊匯集了九篇優(yōu)秀范文,愿這些內(nèi)容能夠啟發(fā)您的創(chuàng)作靈感,引領(lǐng)您探索更多的創(chuàng)作可能。
關(guān)鍵詞:英語詞匯教學(xué),農(nóng)村高中
所謂病從淺中醫(yī),東西也要從最簡單的學(xué)起,在英語教學(xué)中,詞匯既是基礎(chǔ)又是難關(guān)??赡苡腥藭?huì)問,“為什么這樣說呢?”其實(shí)很簡單,因?yàn)閷W(xué)習(xí)一門語言,首先從詞---句---篇的順序,但是根據(jù)對現(xiàn)狀的調(diào)查,現(xiàn)在的學(xué)生對英語的最難過的也是詞匯。所以說,英語詞匯教學(xué)從開始到結(jié)束都是占有很大的比重。2001年,自從中國加入世貿(mào),中國與外國的聯(lián)系越來越多,不但是政治、經(jīng)濟(jì)上,就連文化上也有很大的交融,特別的,英語在全球是最廣泛的語言,但是從對農(nóng)村高中英語調(diào)查來看,大部分的學(xué)生都是反映英語教學(xué)詞匯始終是沖不破的難關(guān),雖然農(nóng)村學(xué)生比較勤奮,但是仍然對英語詞匯摸不著頭腦,這到底是為什么?難道還不夠勤奮,非也!應(yīng)該是沒有一個(gè)系統(tǒng)的學(xué)習(xí)方法,學(xué)習(xí)一樣?xùn)|西除了要付出相應(yīng)的努力外,還要有計(jì)劃有方法,那樣學(xué)東西才能事半功倍。對于英語詞匯教學(xué),很多商家洞察先機(jī),生產(chǎn)了很多英語學(xué)習(xí)機(jī)(例如:一本通、諾亞舟、文曲星等等),有些家庭為了能讓自己的孩子在英語詞匯方面有了一定的突破,都為他們買了學(xué)習(xí)機(jī),希望能提高他們的詞匯量,還有些家庭聘請了家教,讓他們傳授學(xué)習(xí)方法給自己的孩子……。這些做法都反映了人們注重英語詞匯的教學(xué),同時(shí)一些農(nóng)村高中委派老師到一些地方培訓(xùn),學(xué)習(xí)先進(jìn)的經(jīng)驗(yàn)和方法。
先探討農(nóng)村高中教學(xué)的英語詞匯教學(xué):
現(xiàn)在的農(nóng)村高中英語詞匯教學(xué)中,許多教師習(xí)慣于照著課本,脫離具體的語境來教詞匯,使得詞匯學(xué)習(xí)變得枯燥乏味,繼而造成學(xué)生對學(xué)習(xí)英語詞匯的興趣和信心漸漸喪失。這對廣大教師有效的提高詞匯教學(xué)帶來了更高的挑戰(zhàn)。詞匯學(xué)習(xí)效率低下,給學(xué)生在聽說讀寫諸方面的學(xué)習(xí)帶來了很大的困難。他們的學(xué)習(xí)應(yīng)該是較高階段的學(xué)習(xí),死記硬背不僅僅是枯燥乏味的,而且往往會(huì)徒勞無功,學(xué)習(xí)效率不高。特別的一些地區(qū)似乎只有學(xué)生掌握了語法,說出來的英語才“正宗”,殊不知,沒有一定量的詞匯輸入,學(xué)生語法學(xué)得再好,句型框架學(xué)得再多,學(xué)生們還是“巧婦難為無米之炊”,長此以往,學(xué)生們學(xué)成的英語便演變成“啞巴英語”;語法學(xué)得好的同學(xué)也只是暫時(shí)地能應(yīng)付考試,卻無法領(lǐng)會(huì)英語作為語言工具可以交流的快樂。尤其是近年來推廣使用的高中牛津英語詞匯量大,掌握要求高,不少學(xué)生感到難以適應(yīng)新一輪英語課改的要求。一方面,缺少訓(xùn)練的平臺(tái);農(nóng)村高中的教學(xué)設(shè)備不足,很多時(shí)候?qū)W生只能在課堂的45分鐘接受英語知識,沒有其他方面的交流,但是對牛津英語詞匯只能靠短短的45分鐘是遠(yuǎn)遠(yuǎn)不夠的;另一方面,由于高考的影響,很多地區(qū)都是應(yīng)試教學(xué)(在農(nóng)村最為出),所以一些老師總是重語法輕詞匯,由于農(nóng)村的條件差,學(xué)生回到家后還要干活,不能把時(shí)間全部投進(jìn)學(xué)習(xí),而老師又是教學(xué)生自己記單詞,學(xué)生一、沒有時(shí)間,二、缺乏科學(xué)的記詞匯方法??偟膩碚f這樣下去,學(xué)生的詞匯效果還是不能提升。還有,英語是一門語言,少不了交流,但是對農(nóng)村學(xué)生來說,英語交流很貧乏,所以學(xué)生記詞匯時(shí)只是機(jī)械式的記憶,只是注重知識的傳授,單純地講解詞匯的詞義、拼寫及各種用法,把英語單詞和漢語意思籠統(tǒng)對應(yīng),或簡單舉例,缺乏對構(gòu)詞法知識和詞的文化內(nèi)涵的講解,更不善于把詞放在一定語境中講解。殊不知,這又陷入了詞匯教學(xué)的另一個(gè)誤區(qū)。教學(xué)反饋——詞匯量不足,對詞匯學(xué)習(xí)漸失信心;據(jù)調(diào)查,農(nóng)村的學(xué)生大部門都認(rèn)為讀書是他們唯一的出路,所以他們把高考看成人生中的一件大事,因此心理上就有很大的負(fù)擔(dān),因?yàn)樗麄冎溃麄儾豢梢暂?。慢慢的自卑的心理也出現(xiàn)了,當(dāng)他們看見別人比自己好,心理就過不去,加上如果還有考試失敗的話,可能會(huì)導(dǎo)致心理上的打擊,所以學(xué)生都是忙著背單詞,有同學(xué)甚至背詞典,但收效甚微。這令他們苦惱萬分,有的對詞匯學(xué)習(xí)漸失信心,有的甚至采取放棄的態(tài)度。這不能不令人擔(dān)憂。所以教師在教學(xué)過程中要有意識地發(fā)現(xiàn)語言成分之間的共同形式特征,讓學(xué)生感受到語言的魅力,激發(fā)他們英語學(xué)習(xí)的興趣;學(xué)東西關(guān)鍵的是有興趣,如果興趣失去了,很多學(xué)生的主動(dòng)性便會(huì)變得很低,學(xué)生的動(dòng)力就會(huì)下降。單是在壓力的驅(qū)動(dòng)下使學(xué)生記好單詞,不但取不到好的效果,而且還有給學(xué)生造成心理的負(fù)擔(dān)。比如說,可以通過搞什么比賽活動(dòng)或師生的互動(dòng),盡量的提及有關(guān)活動(dòng)式的教學(xué),那么學(xué)生的興趣就會(huì)提高。
鑒于種種情況,筆者擬就本文談?wù)勗~匯教學(xué)的幾點(diǎn)具體做法。
1.在新授課中,通過情景教學(xué),利用具體的語境來傳授新的詞匯。在新教學(xué)中,英語注重的更多是語境,記得上大一的時(shí)候,老師不是一味的給我們解析單詞的意義,而是從語境出發(fā),著重講解文章的語境,讓我們從英語的語境中掌握詞匯,那樣一來不但減少工作量又能增加樂趣,同學(xué)在明白英語語境時(shí)又能從深層的領(lǐng)會(huì)到英語精髓,可以說是一舉幾得;因?yàn)橛⒄Z是一門語言,學(xué)好一門語言首先要融入語境來理解,就好像學(xué)習(xí)古文一樣,要知道作者當(dāng)時(shí)的背景,那樣才能明白作者當(dāng)時(shí)的心情和作者的寫作目的。英語教學(xué)也是一樣,詞匯教學(xué)方法要求學(xué)生通過語境猜測詞義,通過意境領(lǐng)悟語感這對學(xué)生掌握詞匯也具有重要的意義。因?yàn)樾畔⑻幚硭綄τ洃浘哂泻艽蟮挠绊?。對信息的加工水平越深,信息就越能更長時(shí)間地深存在記憶中。
2.運(yùn)用階段,可以采用讀和寫,說等,或者是通過翻譯寫作來操練所學(xué)的詞匯。英語學(xué)科離不開交流,所以學(xué)生在學(xué)習(xí)時(shí)要多朗讀,多聽,還有就是多寫,對于《牛津英語》教材題材豐富,詞匯量大,知識涉及面廣,信息量大,圖文并茂,內(nèi)容新穎,實(shí)用性強(qiáng)等特點(diǎn),學(xué)生如果還是一味的記單詞可能收獲不大,但是如果學(xué)生能通過多讀,讀寫。多聽,那么學(xué)生的閱歷就會(huì)更廣,而且語感也會(huì)慢慢的變好,還有的就是學(xué)生能通過寫作來提升詞匯,比如說,同意思的單詞不知一個(gè),學(xué)生在寫作時(shí)默寫一個(gè)單詞時(shí)要想到另外一個(gè)單詞,那樣學(xué)生的記憶就會(huì)提高,同時(shí)在無意中學(xué)生把一些同義詞匯歸類了,記得上高中時(shí)老師曾經(jīng)對我說,“當(dāng)你們閱讀或翻譯時(shí),遇上不懂的單詞就把它抄出來,然后查出它的意思和用它造句,周期性的回顧”當(dāng)時(shí)我是半信半疑的,可是但我像老師說的那樣做時(shí),慢慢的發(fā)現(xiàn)詞匯量增加了。
3.鞏固階段,可采用復(fù)述課文的大意等鞏固所學(xué)的詞匯。這就要整篇文章的結(jié)構(gòu)都要理解,就像當(dāng)我們做閱讀時(shí),遇到不懂的單詞,不是叫我們停下來想單詞的意思,而是通讀文章,明白文章的內(nèi)容后再回來弄懂該單詞的意思,有時(shí)候可以從上下文來明白單詞的意思。高中那個(gè)時(shí),我班有個(gè)同學(xué),她的閱讀能力超高,而且速度很快;當(dāng)時(shí)我就很不解的問她,“為什么你的閱讀那么快,而且準(zhǔn)確率那么高”,她只是笑笑的說,“沒有你們好,我的詞匯沒有你們多,我想我可能是從通篇內(nèi)容來弄懂單詞的意思的吧”,想想,也是,不想我們那樣,一遇上不懂的單詞就慢慢的停下來想,所以閱讀能力自然低,在這里筆者認(rèn)為,通過文章內(nèi)容或上下句明白詞匯是一種很好的辦法。
4.創(chuàng)新式,所謂創(chuàng)新就不想以前那樣看到單詞就死機(jī),而且是機(jī)械式的那種,而是采取適合現(xiàn)代學(xué)生的要求來記憶。這幾年各式各樣的詞匯記憶方法都有,例如,詞匯整體教學(xué)法、歸類法、記憶幫助法等,然而迄今為止結(jié)合牛津教材特點(diǎn)實(shí)施的有效詞匯教學(xué)的研究成果還不多,尤其是適合學(xué)力中下的農(nóng)村學(xué)校的學(xué)生的詞匯教學(xué)方法更為匱乏。雖然上面所說的方法理論上有用,但是對于新版的牛津詞匯教學(xué)就不太適用了。筆者想在這里提出語音串記,字根巧計(jì),語音串記就是利用新語言信息和已掌握語言信息之間語音上的某種共同特征來建立兩者之間的聯(lián)系,以此來促進(jìn)單詞的記憶。如大家熟知的英語諺語:(1)Anappleadaykeepsthedoctoraway.一天一蘋果,不用請醫(yī)生。一方面加強(qiáng)了句子內(nèi)部以及句子間的組織程度,另一方面更方便了批量單詞的記憶。還有字根式的—ject推出project,reject等等。通過結(jié)合語音或字根可以使詞匯更加牢固。
5.興趣式,根據(jù)調(diào)查,農(nóng)村高中英語教學(xué)大部分都是很孤躁,同學(xué)的興致都沒有,整個(gè)教室呈現(xiàn)出沉悶的氣氛。其實(shí)無論做什么最重要的還是興趣,就像填志愿時(shí),學(xué)生都是根據(jù)興趣去填自己喜歡的專業(yè),如果做一樣事自己是沒有興趣,即使是做了,還是按部就班,根本沒有動(dòng)力,由于缺乏了自動(dòng)力,那么想學(xué)好它就是難事,所以在新版的英語教學(xué)中,由于牛津教學(xué)更切實(shí)生活,當(dāng)時(shí)詞匯量大大提高了,學(xué)生要從生活上的樂趣學(xué)習(xí),老師上課時(shí)也可以提出師生互動(dòng)或讓學(xué)生成為課堂的主人,讓他們自由發(fā)揮,可以的話,通過問答形式,那樣聽的同學(xué)有精神,答的同學(xué)有記憶。其實(shí)條件允許的話可以通過通過舉行公開課,因?yàn)楣_課一來可以使學(xué)生認(rèn)真聽課,二來上課的效率又高,學(xué)生的積極性相對的也提高。學(xué)生興趣被激發(fā)起來后,學(xué)單詞的一大難事就不再可怕了。在課件中插入許多相關(guān)圖片,準(zhǔn)備在課上教給學(xué)生。用生動(dòng)形象的圖片作為載體,讓學(xué)生在快樂中學(xué)會(huì)單詞。特別的對于牛津詞匯教學(xué)本來就是很孤躁的學(xué)科,如果再不能提升學(xué)生的興趣,英語詞匯根本就跟不上。
6.網(wǎng)絡(luò)式,因?yàn)楝F(xiàn)在網(wǎng)絡(luò)技術(shù)非常發(fā)達(dá),學(xué)生用所有可使用的資源,如網(wǎng)絡(luò),圖片,漫畫,動(dòng)畫,VCD,flash,電腦光盤等,各類文件播放載體如豪杰超級解霸,realplayer,flash等。課件的目的很簡單,不求花哨,只求實(shí)用,做教學(xué)有效的輔助手段。通過網(wǎng)絡(luò)可以下載一些詞匯軟件,也可以通過看一下西方的電影,話劇,在平時(shí)的生活中了解英語,把以前的被動(dòng)變成主動(dòng),讓“生活會(huì)說話”,通過網(wǎng)絡(luò)上的英語聊天,英語上網(wǎng),詞匯默寫等等方式來記憶英語詞匯。例如現(xiàn)在的視聽說(網(wǎng)絡(luò)版),那就需要同學(xué)們在網(wǎng)絡(luò)上完成人機(jī)口語,同學(xué)在上機(jī)做英語,一方面學(xué)習(xí)的效率高;另一方面,學(xué)生不會(huì)感覺到尷尬,因?yàn)樯险n時(shí),學(xué)生會(huì)考慮到自己的詞匯不懂,從而自己的信心下跌。所以通過網(wǎng)絡(luò),學(xué)生敢大聲朗讀。
7.師生配合;因?yàn)橛⒄Z詞匯教學(xué)不單單是老師或?qū)W生的問題,要老師與學(xué)生相結(jié)合才能發(fā)揮最大的作用,老師在上課有什么問題是沒有說到的?哪個(gè)方面做得不好的?有沒有認(rèn)真?zhèn)湔n?學(xué)生有沒有預(yù)習(xí)?有沒有按照老師的要求學(xué)習(xí)?等等都會(huì)影響英語詞匯教學(xué)。所以學(xué)生可以通過師生的交流,培養(yǎng)老師與學(xué)生之間的關(guān)系,可以的話,做一些評價(jià),就是評價(jià)老師的上課能力和學(xué)生的學(xué)習(xí)能力,學(xué)生在學(xué)習(xí)中領(lǐng)會(huì)到老師的上課方法。老師在授課中明白學(xué)生的難處,那樣針對性的學(xué)習(xí)可以縮短時(shí)間提高效率。
8.作為學(xué)校方面應(yīng)該采取獎(jiǎng)勵(lì)制度;就是對好的學(xué)生好的老師進(jìn)行期末評比,然后進(jìn)行表揚(yáng)。那樣老師就會(huì)更加用功的講課,學(xué)生也會(huì)更加努力的學(xué)習(xí)。還有的就是老師和同學(xué)都會(huì)變得更加主動(dòng)。好的老師,學(xué)生繼續(xù)努力。沒有得到獎(jiǎng)勵(lì)的老師和學(xué)生也會(huì)抓緊,這樣共同進(jìn)步,共同發(fā)展,形成了良好的學(xué)習(xí)風(fēng)氣。
結(jié)論:詞匯教學(xué)是高中英語教學(xué)中非常重要的環(huán)節(jié)。英語詞匯是英語學(xué)習(xí)的基礎(chǔ),是語言的三大要素之一。高中學(xué)生在英語學(xué)習(xí)中遇到的主要問題之一是詞匯,詞匯在英語學(xué)習(xí)和教學(xué)中的重要性已經(jīng)引起國內(nèi)外專家的認(rèn)識與肯定。英語教學(xué)和其他學(xué)科的教學(xué)一樣,就是要結(jié)合詞匯,事實(shí)證明,很多學(xué)生花很多時(shí)間和精力學(xué)習(xí)詞匯,卻沒有得到預(yù)期的效果,主要原因就是他們?nèi)狈τ行У脑~匯學(xué)習(xí)策略,不懂得如何有效地學(xué)習(xí)和鞏固詞匯。學(xué)生是教學(xué)活動(dòng)的主體,如果能夠在語言學(xué)習(xí)過程中,教師在高效率開展教學(xué)活動(dòng)的同時(shí),有效地指導(dǎo)學(xué)生的外語學(xué)習(xí),特別是有效地指導(dǎo)學(xué)生的詞匯學(xué)習(xí),讓學(xué)生掌握一些行之有效的詞匯學(xué)習(xí)理論與方法,無疑將促進(jìn)他們對語言學(xué)習(xí)的興趣和提高學(xué)習(xí)自主性,使其真正成為學(xué)習(xí)過程的主體。在詞匯教學(xué)中,采用多種教學(xué)方法相結(jié)合的方式才能擴(kuò)大學(xué)生詞匯量,多方面提高學(xué)生學(xué)習(xí)新詞匯的能力和水平,才能使學(xué)生合理、準(zhǔn)確地使用所學(xué)詞匯,進(jìn)行聽、說、讀、寫、譯等各項(xiàng)活動(dòng),語言交流才能得以更好地實(shí)現(xiàn)。
參考文獻(xiàn):
〔關(guān)鍵詞〕在線評論;意見挖掘;特征抽取;文本分析
DOI:10.3969/j.issn.1008-0821.2016.08.031
〔中圖分類號〕TP3911〔文獻(xiàn)標(biāo)識碼〕A〔文章編號〕1008-0821(2016)08-0168-06
〔Abstract〕With the rapid development of Web20 technology and electronic commerce,more and more customers participate in the Internet,share product experience and express likes or dislikes about product.It is a challenge to extract product feature from customer reviews effectively in the product opinion mining field.Firstly,this paper introduced the research progress of extracting product feature from frequency,co-occurrence,modeling and implicit feature mapping both at home and abroad.Secondly,it presented their strength and limitation respectively.Finally,it enumerated some research interest about this task.
〔Key words〕online review;opinion mining;feature extraction;text analysis
近年來,隨著Web20技術(shù)的發(fā)展,大量的在線產(chǎn)品評論文本不斷涌現(xiàn),對于有購買意向的潛在消費(fèi)者來說,手工從產(chǎn)品評論中總結(jié)歸納出消費(fèi)者對已購產(chǎn)品所持的褒貶態(tài)度是不現(xiàn)實(shí)的,尤其是意見相左的產(chǎn)品評論更讓他們感到無所適從;對于生產(chǎn)廠家來說,從產(chǎn)品評論中了解消費(fèi)者對產(chǎn)品整體或某一特征的意見,對企業(yè)競爭情報(bào)分析和后期產(chǎn)品質(zhì)量的改進(jìn)都大有裨益,因而對于評論中用戶表達(dá)意見的研究具有重要意義。
隨著物質(zhì)文化生活水平的提高,人們對消費(fèi)品需求日趨多元化、個(gè)性化,他們不再滿足于產(chǎn)品的整體性能優(yōu)劣,而是根據(jù)個(gè)人的消費(fèi)喜好來關(guān)注產(chǎn)品的某一部件或?qū)傩缘男阅?,較多關(guān)注產(chǎn)品局部的評論內(nèi)容,因此如何準(zhǔn)確全面抽取評論文本中所蘊(yùn)含的產(chǎn)品特征信息是研究者所面臨的重要問題。本文站在技術(shù)實(shí)現(xiàn)的角度從四個(gè)方面綜述文本評論中產(chǎn)品特征抽取技術(shù)在國內(nèi)外的研究進(jìn)展及各自的優(yōu)勢和不足,最后指出產(chǎn)品特征抽取技術(shù)所面臨的挑戰(zhàn)和今后的發(fā)展方向。
1基于頻繁項(xiàng)的特征抽取
該方法通常對評論語料中出現(xiàn)頻率較高的名詞或名詞短語應(yīng)用約束條件而抽取出來作為產(chǎn)品特征。產(chǎn)品特征詞通常由名詞、形容詞、副詞或動(dòng)詞組成。Liu[1]認(rèn)為60%~70%的產(chǎn)品特征詞是顯式名詞,由于人們習(xí)慣在評論中經(jīng)常使用,因此產(chǎn)品的部件或?qū)傩猿S山?jīng)常出現(xiàn)的這類名詞表示,同時(shí)還需要對頻繁出現(xiàn)的名詞中的非產(chǎn)品特征詞進(jìn)行過濾。
Hu[2]最先提出的基于特征摘要(Feature-based Summarization)算法。他首先將產(chǎn)品評論中頻繁出現(xiàn)的名詞短語作為候選種子詞,然后通過密實(shí)度修剪(Compactness Pruning)去掉那些未按照指定順序在一起出現(xiàn)的無意義詞以及冗余修剪(Redundancy Pruning)去掉未能表示產(chǎn)品特征的單個(gè)詞,比如手機(jī)產(chǎn)品評論中的“時(shí)間”一詞,只有在“待機(jī)時(shí)間”或“通話時(shí)間”的名詞短語中才表示手機(jī)產(chǎn)品屬性,單獨(dú)出現(xiàn)則毫無意義,所以就把它從候選種子詞中去掉。隨后Popescu[3]基于如下假設(shè):共現(xiàn)的次數(shù)越多的兩個(gè)詞,則它們之間的關(guān)聯(lián)度越高,因此Popescu提出點(diǎn)互信息(Point-wise Mutual Information,PMI)方法比Hu的算法提高了22%的準(zhǔn)確率,但是召回率降低了3%。Ku[4]利用TF*IDF從文檔和段落級別來判斷某詞對產(chǎn)品特征的重要程度,Scaffidi[5]也用此方法將頻繁出現(xiàn)的名詞短語候選項(xiàng)在評論語料中的出現(xiàn)頻率與在一般性英文中的出現(xiàn)頻率進(jìn)行比較。Raju[6]等人同樣在實(shí)驗(yàn)中丟棄所有那些相比在產(chǎn)品描述中更為頻繁出現(xiàn)在一般性英文中的名詞短語,然后將剩下的描述產(chǎn)品同一特征的名詞短語進(jìn)行聚類,該模型通過雙連詞重疊(Bigram Overlap)值來衡量名詞短語間的相似性,最后只保留至少含3個(gè)名詞短語的聚類簇。Long[7]等人基于出現(xiàn)頻率和信息距離(Information Distance)的考慮來抽取名詞短語,他們首先通過統(tǒng)計(jì)頻率方式找到產(chǎn)品特征核心詞,然后利用信息距離來查找與產(chǎn)品特征相關(guān)的其他詞或短語,如“”和“Dollars”均是產(chǎn)品價(jià)格屬性的核心詞。Hao[8]提出的基于語言依存分析和語料庫統(tǒng)計(jì)相結(jié)合的未登錄產(chǎn)品特征項(xiàng)抽取算法,實(shí)驗(yàn)證明抽取的前200個(gè)產(chǎn)品屬性中準(zhǔn)確率達(dá)到875%。
基于頻繁項(xiàng)的產(chǎn)品特征抽取方式簡單高效,許多商業(yè)機(jī)構(gòu)通過這種方式分析客戶對產(chǎn)品的反饋意見。但也導(dǎo)致了抽取過程中出現(xiàn)過多與產(chǎn)品特征無關(guān)的詞匯同時(shí)漏掉那些不常出現(xiàn)的產(chǎn)品特征詞。另外需要對各種閾值參數(shù)進(jìn)行手工調(diào)整,因此移植性差。
2基于產(chǎn)品特征和意見的共現(xiàn)關(guān)系
基于共現(xiàn)關(guān)系的產(chǎn)品特征項(xiàng)抽取前提是產(chǎn)品意見挖掘的主觀陳述中,意見的表達(dá)總是針對具體的評論對象,而意見詞在文本評論中是容易發(fā)現(xiàn)的[9]。
Liu[10]實(shí)現(xiàn)的Opinion Observer系統(tǒng)針僅對句子級的用戶評論內(nèi)容使用監(jiān)督模式發(fā)現(xiàn)算法進(jìn)行意見挖掘后并可視化顯示不同產(chǎn)品(3種品牌)中各個(gè)特征(顯示屏、電池、揚(yáng)聲器等)的比較結(jié)果。首先通過詞性標(biāo)注器(NLProcessor Linguistic Parser)對訓(xùn)練集進(jìn)行詞性標(biāo)注,然后手工識別產(chǎn)品特征項(xiàng)并用指定的詞([Feature])取代,如:“超高的性價(jià)比”被標(biāo)注為“超高的ADJ性價(jià)比NN”,其中ADJ和NN分別表示形容詞和名詞。接著用“[Feature]”替換掉“性價(jià)比”,結(jié)果變成“超高的ADJ[Feature]NN”形式,上述操作的依據(jù)是他認(rèn)為用戶在評論中的描述方式通常是以類似的語法形式出現(xiàn),只是所用的特征項(xiàng)不同,所以需要詞性標(biāo)注和[Feature]替換作為尋找語法規(guī)則的橋梁。最后利用關(guān)聯(lián)規(guī)則挖掘?qū)ι鲜龅脑~性標(biāo)注模式進(jìn)行產(chǎn)品特征項(xiàng)抽取。實(shí)驗(yàn)結(jié)果表明該方法可使召回率和準(zhǔn)確率分別達(dá)到902%和889%的效果。
Baccianella[11]提出的層次性評級(Multi-facet Rating)方式抽取產(chǎn)品特征。首先通過預(yù)定義的3種POS模式抽取出意見短語(如:“nice room”、“horrible location”)作為候選項(xiàng),然后充分利用General Inquirer[12]詞典中情感詞的極性、強(qiáng)度、詞性等標(biāo)簽知識對候選項(xiàng)進(jìn)行細(xì)粒度的標(biāo)注,比如將“nice room”標(biāo)注為“[Virtue][Positive]room”,將“horrible location”標(biāo)注為“[Strong][Negative]location”。最后按照這些已標(biāo)注過的候選項(xiàng)的區(qū)分度使用最小方差(Minimum Variance)進(jìn)行計(jì)算打分完成產(chǎn)品特征的抽取,在對TripAdvisor網(wǎng)站爬取來的26 000條酒店評論實(shí)驗(yàn)中發(fā)現(xiàn)微觀平均絕對誤差(Micro Mean Absolute Error)降低了359%,宏觀平均絕對誤差降低了302%。
利用產(chǎn)品特征項(xiàng)的句法結(jié)構(gòu)來抽取匹配項(xiàng)的方式,對于意見評論句中出現(xiàn)的相似句法結(jié)構(gòu)處理起來顯得有些無能為力。針對該情況,Jiang[13]基于樹核(Tree Kernel)函數(shù)提出在線產(chǎn)品評論的產(chǎn)品特征抽取和情感極性分類方法可以隱式利用句法結(jié)構(gòu)的子結(jié)構(gòu)(substructure)特點(diǎn)并計(jì)算出子結(jié)構(gòu)間的相似性。
Zhuang[14]通過應(yīng)用依賴解析器來識別產(chǎn)品項(xiàng)之間的依賴關(guān)系和Du[15]利用產(chǎn)品特征項(xiàng)與情感詞之間的關(guān)系達(dá)到抽取的目的。二人均首先考慮將所有的名詞短語和形容詞分別作為產(chǎn)品特征項(xiàng)和情感詞,然后基于二者的共現(xiàn)關(guān)系建立對應(yīng)的知識圖,最后使用信息增強(qiáng)(Information Reinforcement)的圖聚類算法來抽取與情感密切相關(guān)的產(chǎn)品特征項(xiàng)。隨后Hai[16]也利用產(chǎn)品特征項(xiàng)和情感(aspect-sentiment)之間的共現(xiàn)矩陣挖掘出用來形成抽取新的產(chǎn)品-觀點(diǎn)對的規(guī)則集。Qiu[17]也將依賴關(guān)系的思想應(yīng)用到雙傳播方法中同時(shí)完成產(chǎn)品項(xiàng)和情感詞的抽取任務(wù)。Shi[18]通過人工建立基于產(chǎn)品特征的概念模型再利用中文語義詞典擴(kuò)展的方式完成特征-意見對的抽取。
基于產(chǎn)品特征和意見之間共現(xiàn)關(guān)系抽取產(chǎn)品特征項(xiàng)的優(yōu)勢在于能發(fā)現(xiàn)低頻的產(chǎn)品特征項(xiàng),不足之處是抽取出的匹配共現(xiàn)關(guān)系模式的短語項(xiàng)中部分不能表示產(chǎn)品特征。簡言之,這類方法的召回率高,準(zhǔn)確率低。
也可將基于頻繁項(xiàng)和基于共現(xiàn)關(guān)系的兩種抽取方法結(jié)合使用,主要思想就是產(chǎn)品特征通常由頻繁出現(xiàn)的名詞表示并被情感詞所修飾。因此常利用特征-情感關(guān)系對過濾掉非特征詞。Li[19]等人首先從關(guān)于手機(jī)評論的中文文本中抽取出頻繁出現(xiàn)的名詞短語作為候選特征詞,然后通過如下兩步處理掉候選項(xiàng)中的噪音詞,第一步使用形容詞限制模式,如:ADJNN,其中ADJ表示形容詞,NN表示名詞短語;第二步利用信息檢索(Information Retrieve)的詞頻(Term Frequency)計(jì)算,將那些在Web文本中出現(xiàn)頻率高的常用詞從候選項(xiàng)集中去掉,因?yàn)長i認(rèn)為頻繁出現(xiàn)的常用詞表示產(chǎn)品特征的概率低。實(shí)驗(yàn)結(jié)果證明該算法優(yōu)于僅使用自然語言處理產(chǎn)品特征的抽取技術(shù)并且具有領(lǐng)域適應(yīng)性。Yu[20]利用領(lǐng)域知識(如產(chǎn)品說明書)將產(chǎn)品的所有特征以樹狀結(jié)構(gòu)組織。該思路首先是從評論中抽取高頻名詞短語,然后對單分類支持向量機(jī)(One-class SVM)進(jìn)行訓(xùn)練以識別候選特征項(xiàng),接著利用特征項(xiàng)間的語義距離(Inter-aspect Semantic Distance)對候選特征項(xiàng)進(jìn)行篩選。特征項(xiàng)間的語義距離一般由共現(xiàn)頻率、上下文相似性和句法模式相似性等因素決定。最后通過遞增式迭代將符合條件的特征項(xiàng)陸續(xù)加入到初始的樹狀結(jié)構(gòu)中形成完整的層狀產(chǎn)品特征樹,對來自4個(gè)領(lǐng)域的11種產(chǎn)品的特征抽取實(shí)驗(yàn)證明了該算法的有效性。
與前兩種方法相比,組合方式的優(yōu)勢在于由于使用了更多的約束條件(如:頻率閾值和關(guān)系模式)使得非產(chǎn)品特征詞的數(shù)量大大減少,不足的地方是仍會(huì)抽取出低頻的非產(chǎn)品特征詞,同樣也需要對各種訓(xùn)練參數(shù)進(jìn)行手工調(diào)整。
3基于訓(xùn)練模型的特征抽取
上述3種方法的局限性在于需要人工干涉抽取算法中的各種參數(shù),并且定制好的抽取規(guī)則難以移植到其他數(shù)據(jù)集中去,而自動(dòng)從數(shù)據(jù)中學(xué)習(xí)訓(xùn)練參數(shù)的訓(xùn)練模型則能克服該局限性。
31監(jiān)督學(xué)習(xí)技術(shù)方式
特征抽取通常看作是一般信息抽取的特例,那么信息抽取中所使用的監(jiān)督學(xué)習(xí)算法仍適用于意見挖掘中對產(chǎn)品特征、觀點(diǎn)詞和觀點(diǎn)極性的識別。已有基于監(jiān)督學(xué)習(xí)技術(shù)的模型如隱馬爾科夫模型[21](Hidden Markov Model)和條件隨機(jī)域[22](Conditional Random Field),它們采用序列學(xué)習(xí)(Sequential Learning)方法,主要從標(biāo)注的訓(xùn)練數(shù)據(jù)中推斷出函數(shù)以應(yīng)用到未標(biāo)注的數(shù)據(jù)中去,是目前研究較多的兩種模型。其中隱馬爾科夫模型屬于生成概率模型,它使用聯(lián)合概率分布為觀察序列從狀態(tài)集合中選擇具有最大可能性的狀態(tài)序列過程。條件隨機(jī)域?qū)儆谂袆e式概率模型(Discriminative Probabilistic Model)它是在給定觀察序列的條件下,計(jì)算整個(gè)觀察序列狀態(tài)標(biāo)記的概率無向圖學(xué)習(xí)模型。
Wong[23]結(jié)合隱馬爾科夫模型提出的概率圖模型對來自多個(gè)站點(diǎn)的數(shù)碼相機(jī)、MP3播放器和液晶電視的產(chǎn)品特征進(jìn)行聯(lián)合抽取和分組。Jin[24]基于隱馬爾科夫模型實(shí)現(xiàn)的OpinionMiner機(jī)器學(xué)習(xí)系統(tǒng)主要將詞性標(biāo)注信息與馬爾科夫假設(shè)相結(jié)合,產(chǎn)生的每個(gè)詞不僅由它前面的詞決定并且也依賴于自身的詞性標(biāo)簽。實(shí)驗(yàn)首先建立由產(chǎn)品特征項(xiàng)、正負(fù)觀點(diǎn)詞(包含顯式和隱式)和背景詞組成的標(biāo)簽集,然后利用該標(biāo)簽集手工標(biāo)注訓(xùn)練文檔,接著將該標(biāo)注的文檔通過自學(xué)習(xí)的方式抽取高置信度的特征項(xiàng),最后應(yīng)用基于HMM的模型用來抽取出所有產(chǎn)品特征和觀點(diǎn)詞。Li[25]采用Skip-CRF和Tree-CRF兩種CRF變體結(jié)合方式完成產(chǎn)品特征項(xiàng)的抽取任務(wù),該方式可利用文本評論中的句子結(jié)構(gòu)并解決了傳統(tǒng)CRF在學(xué)習(xí)過程中只能使用詞序列的缺陷。其中Liu[10]和Choi[26]在實(shí)驗(yàn)中也用到條件隨機(jī)域(CRF)模型,其中Choi通過標(biāo)簽、依賴關(guān)系、詞距(Word Distance)和觀點(diǎn)句使用序列模式挖掘技術(shù)形成一套序列模式規(guī)則來發(fā)現(xiàn)產(chǎn)品特征項(xiàng)和觀點(diǎn)詞。對于中文評論文本中產(chǎn)品特征項(xiàng)的抽取工作,Song[27]首先人工定義文本模式構(gòu)成種子集合,再采用Bootstrapping算法從評論語句中抽取評價(jià)對象,然后將評價(jià)對象聚類為產(chǎn)品名稱和產(chǎn)品特征兩類,該方法取得較高召回率和準(zhǔn)確率,但忽視了產(chǎn)品名稱容易從產(chǎn)品評論網(wǎng)站的產(chǎn)品目錄結(jié)構(gòu)中獲取的特點(diǎn)。Yao[28]利用本體知識建立汽車領(lǐng)域的產(chǎn)品特征集。Liu[29]提出意見實(shí)例抽?。╫pinion instance extraction)建立相關(guān)領(lǐng)域知識完成特征項(xiàng)和情感詞同步抽取。
監(jiān)督學(xué)習(xí)方法可以自動(dòng)從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)模型參數(shù),解決了前兩種方法中需人工參與的問題,但是仍需要手工標(biāo)注訓(xùn)練數(shù)據(jù),不同的產(chǎn)品意見挖掘模型需要標(biāo)注不同的訓(xùn)練集,耗時(shí)費(fèi)力并難以適用所有產(chǎn)品的特征抽取任務(wù),并且手機(jī)這類電子產(chǎn)品更新?lián)Q代快,短時(shí)間內(nèi)就會(huì)有新的功能和特征參數(shù)面世。
32基于主題模型的特征抽取
主題建模是對文檔中隱含主題進(jìn)行無監(jiān)督的學(xué)習(xí)方法,它假定每篇文檔由多個(gè)主題組成,每個(gè)主題就是詞匯表中詞語的條件概率分布,主要由若干出現(xiàn)頻率較高的詞語組成,只有這些詞語才與主題有很強(qiáng)的相關(guān)性。
主題模型主要有兩類:概率潛在語義分析[30](Probabilistic Latent Semantic Analysis)和隱含狄利克雷分布[31](Latent Dirichlet Allocation)。從技術(shù)上講,主題模型是基于貝葉斯網(wǎng)絡(luò)的圖模型,pLSA和LDA均能直接應(yīng)用于意見挖掘中的產(chǎn)品主題和意見主題抽取,為了避免抽取主題的混亂,部分研究者用聯(lián)合模型(Joint Model)分別完成產(chǎn)品特征項(xiàng)和意見詞的抽取工作。
擴(kuò)展的主題模型在產(chǎn)品特征項(xiàng)抽取中應(yīng)用較多,Mei[32]在pLSA主題模型基礎(chǔ)上實(shí)現(xiàn)的主題情感混合(Topic-Sentiment Mixture)模型。該模型針對iPod等主題的即席(Ad hoc)查詢顯示各項(xiàng)特征(如:電池壽命、外觀、尺寸)詳細(xì)的情感極性及強(qiáng)度,并顯示各主題隨時(shí)間的情感變化曲線。主要實(shí)現(xiàn)思路是將單詞依照概率分布分為與主題無關(guān)的普通詞(如the,a,of)、正向主題相關(guān)詞、負(fù)向主題相關(guān)詞、中性主題相關(guān)詞4類,用最大期望(Expectation-Maximization)算法估計(jì)每個(gè)類中的詞項(xiàng)概率分布。實(shí)驗(yàn)結(jié)果證明其模型比Opinmind[33]系統(tǒng)中情感分析的粒度更細(xì)。
Titov[34]提出的多粒度LDA模型(Multi-Grain LDA)避免了LDA模型中出現(xiàn)的主題含義無法顯式確定的問題,并將其應(yīng)用于主題的情感摘要生成系統(tǒng)中。他認(rèn)為評論文檔是由滑動(dòng)窗口(Sliding Window)的集合構(gòu)成,而滑動(dòng)窗口又由文檔中連續(xù)的句子組成。每個(gè)滑動(dòng)窗口中存在局部主題的概率分布,而整篇文檔對應(yīng)一個(gè)全局主題的概率分布。特征詞項(xiàng)不僅可以從局部主題的概率分布中生成,還可從全局主題的概率分布中產(chǎn)生。在對網(wǎng)站獲取的關(guān)于hotel評論文本實(shí)驗(yàn)中,將hotel領(lǐng)域?qū)嶓w(如:London hotels、seaside resorts)作為全局主題,將屬于實(shí)體的特征項(xiàng)(如:service、location、rooms)作為局部主題,并將每個(gè)特征的評分(1~5的整數(shù)值)作為觀測值加入到模型中,同時(shí)假定對特征評論的文本是對該特征評分的預(yù)測信息,這樣完成了主題與特征項(xiàng)的關(guān)聯(lián)。
Zhao[35]等人結(jié)合最大熵(Maximum Entropy)和主題模型提出的ME-LDA模型(MaxEnt-LDA)利用句法結(jié)構(gòu)規(guī)則完成特征詞和與特征相關(guān)的意見詞抽取。該實(shí)驗(yàn)中首先在標(biāo)注的訓(xùn)練集中用ME算法學(xué)習(xí)一系列變量參數(shù),然后從這些參數(shù)的多項(xiàng)概率分布中產(chǎn)生指示變量(Indicator Variable),最后通過指示變量來確定句子中的詞項(xiàng)是產(chǎn)品特征項(xiàng)還是意見詞。Sauper[36]將隱馬爾科夫(HMM)和主題模型結(jié)合提出的聯(lián)合模型(HMM-LDA)僅適應(yīng)于短文本片段的產(chǎn)品特征項(xiàng)抽取,如:“我最看中的是這款手機(jī)的外觀”中的“外觀”特征項(xiàng)抽取。該思路在Griffith[37]、Liu[38]、Lu[39]等人的文獻(xiàn)中也有所體現(xiàn)。Brody[40]提出的針對句子而非篇章級的局部隱含狄利克雷分布(Local LDA)模型完成餐館和上網(wǎng)本領(lǐng)域的產(chǎn)品特征抽取。Lin[41]等人對詞采集情感標(biāo)簽和主題標(biāo)簽實(shí)現(xiàn)的Joint Sentiment/Topic(JST)模型,而Jo[42]對句子采集情感標(biāo)簽和主題標(biāo)簽提出的Aspect Sentiment Unification Model(ASUM)模型均可看作是對LDA模型的擴(kuò)展。Mukherjee[43]等人認(rèn)為用戶對產(chǎn)品特征詞的歸類受個(gè)人主觀影響,因此采用半監(jiān)督方式實(shí)現(xiàn)ME-SAS模型(Maximum Entropy Seeded Aspect Sentiment)完成特征詞的抽取和聚類工作,主要由用戶提供少量特征種子詞再利用ME-SAS模型指導(dǎo)生產(chǎn)滿足用戶需要的其他特征詞。
與監(jiān)督學(xué)習(xí)技術(shù)相比,主題模型的優(yōu)勢在于無需人工標(biāo)注數(shù)據(jù),并且在無人監(jiān)督情況下同時(shí)完成產(chǎn)品特征項(xiàng)的抽取和歸類任務(wù)。但是為了達(dá)到較高的準(zhǔn)確率,主題模型通常需要大量未標(biāo)注的數(shù)據(jù)進(jìn)行長時(shí)間訓(xùn)練。
4隱式與顯式產(chǎn)品特征間的關(guān)聯(lián)
上述方法主要對名詞或名詞短語這類顯式產(chǎn)品特征進(jìn)行抽取,對于那些沒有在語句中直接進(jìn)行描述,需要對句子進(jìn)行語義理解才能得到的隱式特征也不容忽視,它們通常由形容詞或動(dòng)詞表示產(chǎn)品的某一屬性。如:“哇,iPhone 5s屏幕上的內(nèi)容,我要瞇著眼才能看清楚?!敝械膭?dòng)詞短語“瞇著眼看”表示手機(jī)的屏幕小。
近年來產(chǎn)品隱式特征抽取方面,各學(xué)者也介紹了自己的實(shí)現(xiàn)思路。Su[44]提出的聚類方法來建立那些假定為情感詞的隱式特征表達(dá)與對應(yīng)顯式特征之間的映射。該方法利用顯式特征和情感詞之間相互強(qiáng)化的關(guān)系,同時(shí)對兩者的內(nèi)容信息和情感鏈接信息不斷聚類形成產(chǎn)品特征簇和情感詞簇。Yan[45]等人基于PageRank算法提出的NodeRank來依據(jù)特征-情感對的重要程度對隱式特征進(jìn)行抽取。Tuarob[46]等人利用產(chǎn)品設(shè)計(jì)上下文知識,采用共詞網(wǎng)絡(luò)(Co-word Network)的概率模型,對Twitter中有關(guān)智能手機(jī)評論內(nèi)容完成隱式產(chǎn)品特征的抽取工作。Hai[16]提出的兩相共生(Two-phase Co-occurrence)關(guān)聯(lián)規(guī)則挖掘方法完成隱式特征(假定為情感詞)與顯式特征的匹配。該方法在第一階段對句中經(jīng)常共同出現(xiàn)的情感詞和顯式特征來說,將情感詞作為條件,顯式特征代表結(jié)果,由此生成對應(yīng)的關(guān)聯(lián)規(guī)則;第二階段將規(guī)則的結(jié)果(顯式特征)聚類以生成對情感詞更健壯的規(guī)則(Robust Rule)。如果情感詞沒有相應(yīng)的顯式產(chǎn)品特征,則將最佳規(guī)則簇內(nèi)的代表性詞作為識別出的產(chǎn)品特征。
5結(jié)語
本文結(jié)合國內(nèi)外的研究現(xiàn)狀從4個(gè)方面對意見挖掘模型中的產(chǎn)品特征抽取工作進(jìn)行了綜述,并指出了各自的優(yōu)勢和不足。隨著電子商務(wù)的日漸普及,產(chǎn)品意見挖掘作為情感分析的一個(gè)重要應(yīng)用方向,其產(chǎn)品特征抽取研究更具有舉足輕重的地位,未來需要深入研究的問題還有:
(1)由于受文化和表達(dá)習(xí)慣的影響,人們用不同的術(shù)語來表述同指特征(如:MMC卡,microSD卡、TF卡和擴(kuò)展卡均指手機(jī)的外部存儲(chǔ)卡),通過WorldNet或HowNet詞典進(jìn)行同義詞分組歸類的處理方式是遠(yuǎn)遠(yuǎn)不夠的,一方面詞典收錄的局限性導(dǎo)致縮略語、專門術(shù)語(Jargon)等無法識別;另一方面許多同義詞具有領(lǐng)域依賴性,因此對同指特征的抽取可通過查找網(wǎng)頁計(jì)算其與已知特征的互信息(Mutual Information)來決定。
(2)目前大部分研究集中在結(jié)構(gòu)化或半結(jié)構(gòu)化文檔集合的特征抽取上,但是近年來微博成為用戶進(jìn)行產(chǎn)品評論的重要信息源,由于其言簡意賅的特點(diǎn)和表達(dá)用語的不規(guī)范性,因此針對微博中短文本的產(chǎn)品特征抽取研究更具有挑戰(zhàn)性。
(3)隱式產(chǎn)品特征的抽取雖有進(jìn)展,但目前研究較少,筆者認(rèn)為借鑒前人研究的由少量顯式特征種子詞結(jié)合詞間相似度計(jì)量方法來抽取產(chǎn)品特征詞思路,利用Mikolov[47]在2013年實(shí)現(xiàn)的深度學(xué)習(xí)(deep learning)工具word2vec會(huì)提高產(chǎn)品特征詞的召回率和準(zhǔn)確率。
參考文獻(xiàn)
[1]Liu B.Web data mining:exploring hyperlinks,contents,and usage data[M].Springer Verlag,2007.
[2]Hu M,Liu B.Mining and summarizing customer reviews[C].Proceedings of the Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining,ACM,2004:168-177.
[3]Popescu A-M,Etzioni O.Extracting product features and opinions from reviews[M].Natural language processing and text mining.Springer.2007:9-28.
[4]Ku L-W,Liang Y-T,Chen H-H.Opinion Extraction,Summarization and Tracking in News and Blog Corpora[C].Proceedings of the AAAI Spring Symposium:Computational Approaches to Analyzing Weblogs,2006:100-107.
[5]Scaffidi C,Bierhoff K,Chang E,et al.Red Opal:product-feature scoring from reviews[C].Proceedings of the Proceedings of the 8th ACM conference on Electronic commerce,ACM,2007:182-191.
[6]Raju S,Pingali P,Varma V.An unsupervised approach to product attribute extraction[M].Advances in Information Retrieval.Springer,2009:796-800.
[7]Long C,Zhang J,Zhut X.A review selection approach for accurate feature rating estimation[C].Proceedings of the Proceedings of the 23rd International Conference on Computational Linguistics:Posters,Association for Computational Linguistics,2010:766-774.
[8]郝博一,夏云慶,鄭方.OPINAX:一個(gè)有效的產(chǎn)品屬性挖掘系統(tǒng)[C].Proceedings of the 第四屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上卷),2008.
[9]Liu B.Sentiment analysis and opinion mining[J].Synthesis Lectures on Human Language Technologies,2012,5(1):1-167.
[10]Liu B,Hu M,Cheng J.Opinion observer:analyzing and comparing opinions on the web[C].Proceedings of the Proceedings of the 14th international conference on World Wide Web,ACM,2005:342-351.
[11]Baccianella S,Esuli A,Sebastiani F.Multi-facet rating of product reviews[M].Advances in Information Retrieval.Springer,2009:461-472.
[12]Stone P J,Dunphy D C,Smith M S.The General Inquirer:A Computer Approach to Content Analysis[J].1966.
[13]Jiang P,Zhang C,F(xiàn)u H,et al.An approach based on tree kernels for opinion mining of online product reviews[C].Proceedings of the Data Mining(ICDM),2010 IEEE 10th International Conference on,IEEE,2010:256-265.
[14]Zhuang L,Jing F,Zhu X-Y.Movie review mining and summarization[C].Proceedings of the Proceedings of the 15th ACM international conference on Information and knowledge management,ACM,2006:43-50.
[15]Du W,Tan S.An iterative reinforcement approach for fine-grained opinion mining[C].Proceedings of the Proceedings of Human Language Technologies:The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics,Association for Computational Linguistics,2009:486-493.
[16]Hai Z,Chang K,Kim J-j.Implicit feature identification via co-occurrence association rule mining[M].Computational Linguistics and Intelligent Text Processing.Springer,2011:393-404.
[17]Qiu G,Liu B,Bu J,et al.Opinion word expansion and target extraction through double propagation[J].Computational Linguistics,2011,37(1):9-27.
[18]Shi B,Chang K.Mining chinese reviews[C].Proceedings of the Data Mining Workshops,2006 ICDM Workshops 2006 Sixth IEEE International Conference on,IEEE,2006:585-589.
[19]Li Z,Zhang M,Ma S,et al.Automatic extraction for product feature words from comments on the web[M].Information Retrieval Technology.Springer,2009:112-123.
[20]Yu J,Zha Z-J,Wang M,et al.Domain-assisted product aspect hierarchy generation:towards hierarchical organization of unstructured consumer reviews[C].Proceedings of the Proceedings of the Conference on Empirical Methods in Natural Language Processing,Association for Computational Linguistics,2011:140-150.
[21]Eddy S R.Hidden markov models[J].Current opinion in structural biology,1996,6(3):361-365.
[22]Lafferty J,McCallum A,Pereira F C.Conditional random fields:Probabilistic models for segmenting and labeling sequence data[J].2001.
[23]Wong T-L,Bing L,Lam W.Normalizing web product attributes and discovering domain ontology with minimal effort[C].Proceedings of the Proceedings of the fourth ACM international conference on Web search and data mining,ACM,2011:805-814.
[24]Jin W,Ho H H,Srihari R K.OpinionMiner:a novel machine learning system for web opinion mining and extraction[C].Proceedings of the Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining,ACM,2009:1195-1204.
[25]Li F,Han C,Huang M,et al.Structure-aware review mining and summarization[C].Proceedings of the Proceedings of the 23rd International Conference on Computational Linguistics,Association for Computational Linguistics,2010:653-661.
[26]Choi Y,Cardie C.Hierarchical sequential learning for extracting opinions and their attributes[C].Proceedings of the Proceedings of the ACL 2010 Conference Short Papers,Association for Computational Linguistics,2010:269-274.
[27]宋曉雷,王素格,李紅霞.面向特定領(lǐng)域的產(chǎn)品評價(jià)對象自動(dòng)識別研究[J].中文信息學(xué)報(bào),2010,24(1):89-93.
[28]姚天,聶青陽,李建超,等.一個(gè)用于漢語汽車評論的意見挖掘系統(tǒng)[C].Proceedings of the 中文信息處理前沿進(jìn)展-中國中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集,北京:清華大學(xué)出版社,2006:260-281.
[29]Liu J,Wu G,Yao J.Opinion searching in multi-product reviews[C].Proceedings of the Computer and Information Technology,2006 CIT06 The Sixth IEEE International Conference on,IEEE,2006:25-25.
[30]Hofmann T.Probabilistic latent semantic indexing[C].Proceedings of the Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval,ACM,1999:50-57.
[31]Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation[J].the Journal of machine Learning research,2003,(3):993-1022.
[32]Mei Q,Ling X,Wondra M,et al.Topic sentiment mixture:modeling facets and opinions in weblogs[C].Proceedings of the Proceedings of the 16th international conference on World Wide Web,ACM,2007:171-180.
[33]Mei I-H,Mi H,Quiaot J.Sentiment Mining and Indexing in Opinmind[C].Proceedings of the ICWSM,Citeseer,2007.
[34]Titov I,McDonald R.A joint model of text and aspect ratings for sentiment summarization[J].Urbana,2008,51(61801.
[35]Zhao W X,Jiang J,Yan H,et al.Jointly modeling aspects and opinions with a MaxEnt-LDA hybrid[C].Proceedings of the Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing,Association for Computational Linguistics,2010:56-65.
[36]Sauper C,Haghighi A,Barzilay R.Content models with attitude[C].Proceedings of the,Association for Computational Linguistics,2011.
[37]Griffiths T L,Steyvers M,Blei D M,et al.Integrating topics and syntax[C].Proceedings of the Advances in neural information processing systems,2004:537-544.
[38]Liu J,Cao Y,Lin C-Y,et al.Low-Quality Product Review Detection in Opinion Summarization[C].Proceedings of the EMNLP-CoNLL,2007:334-342.
[39]Lu Y,Zhai C.Opinion integration through semi-supervised topic modeling[C].Proceedings of the Proceedings of the 17th international conference on World Wide Web,ACM,2008:121-130.
[40]Brody S,Elhadad N.An unsupervised aspect-sentiment model for online reviews[C].Proceedings of the Human Language Technologies:The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics,Association for Computational Linguistics,2010:804-812.
[41]Lin C,He Y.Joint sentiment/topic model for sentiment analysis[C].Proceedings of the Proceedings of the 18th ACM conference on Information and knowledge management,ACM,2009:375-384.
[42]Jo Y,Oh A H.Aspect and sentiment unification model for online review analysis[C].Proceedings of the Proceedings of the fourth ACM international conference on Web search and data mining,ACM,2011:815-824.
[43]Mukherjee A,Liu B.Aspect extraction through semi-supervised modeling[C].Proceedings of the Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics:Long Papers-Volume 1,Association for Computational Linguistics,2012:339-348.
[44]Su Q,Xu X,Guo H,et al.Hidden sentiment association in chinese web opinion mining[C].Proceedings of the Proceedings of the 17th international conference on World Wide Web,ACM,2008:959-968.
[45]Yan Z,Xing M,Zhang D,et al.EXPRS:An extended pagerank method for product feature extraction from online consumer reviews[J].Information & Management,2015,52(7):850-858.