亚洲成色777777女色窝,777亚洲妇女,色吧亚洲日本,亚洲少妇视频

神經(jīng)網(wǎng)絡(luò)文本分類

時(shí)間:2023-06-01 11:32:58

導(dǎo)語:在神經(jīng)網(wǎng)絡(luò)文本分類的撰寫旅程中,學(xué)習(xí)并吸收他人佳作的精髓是一條寶貴的路徑,好期刊匯集了九篇優(yōu)秀范文,愿這些內(nèi)容能夠啟發(fā)您的創(chuàng)作靈感,引領(lǐng)您探索更多的創(chuàng)作可能。

神經(jīng)網(wǎng)絡(luò)文本分類

第1篇

[ 關(guān)鍵詞 ] 招聘 人力資源管理 數(shù)據(jù)挖掘 決策樹 神經(jīng)網(wǎng)絡(luò)

一、引言

隨著計(jì)算機(jī)和網(wǎng)絡(luò)的迅速發(fā)展和普及,網(wǎng)絡(luò)招聘正日益成為用人單位招聘人才的一種重要方式,招聘者們越來越

希望通過計(jì)算機(jī)技術(shù)協(xié)助人力資源管理來處理電子簡歷的評價(jià)及篩選,提升整個(gè)人力資源管理的效率。數(shù)據(jù)挖掘技術(shù),是解決這一問題的較好方法。

本文將數(shù)據(jù)挖掘技術(shù)運(yùn)用于網(wǎng)絡(luò)電子簡歷的篩選,并比較了決策樹與神經(jīng)網(wǎng)絡(luò)兩種算法的優(yōu)劣。

二、網(wǎng)絡(luò)簡歷樣本的獲取與預(yù)處理

1.簡歷樣本的獲取

本文從某人才招聘網(wǎng)站數(shù)據(jù)庫獲得簡歷數(shù)據(jù),選取十個(gè)熱門的崗位(會(huì)計(jì)、銷售工程師、衛(wèi)生醫(yī)療、紡織服裝設(shè)計(jì)、司機(jī)、建筑/結(jié)構(gòu)工程師管理人員、美術(shù)/圖形設(shè)計(jì)、市場經(jīng)理、行政/人事人員),每個(gè)崗位中抽取50個(gè)招聘職位,每個(gè)職位抽取20份簡歷信息,每一份簡歷及其相應(yīng)的招聘職位要求構(gòu)成一個(gè)樣本。其中10份為企業(yè)通過招聘網(wǎng)站發(fā)出面試通知的簡歷(簡稱A類樣本),另外10份為沒有被企業(yè)通知面試的簡歷(簡稱B類樣本)。

2.簡歷樣本的預(yù)處理

考慮到本研究的挖掘目的,本文選取了以下幾個(gè)應(yīng)聘者的屬性與招聘公司的需求進(jìn)行匹配,在對數(shù)據(jù)進(jìn)行處理后,再應(yīng)用到數(shù)據(jù)挖掘工作中。所選擇的屬性都需要將招聘企業(yè)的要求和應(yīng)聘者的信息相匹配,再進(jìn)行數(shù)據(jù)的處理。選擇的輸入屬性是:性別、年齡、籍貫、學(xué)歷、婚姻狀況、工作年限、政治面貌、畢業(yè)院校、計(jì)算機(jī)水平、專業(yè)、工作經(jīng)驗(yàn),輸出屬性是:是否被接受面試。

由于原始數(shù)據(jù)庫中的數(shù)據(jù)存在著各種各樣現(xiàn)實(shí)中不可避免的缺陷,下面將根據(jù)所選擇的屬性分別詳述對簡歷數(shù)據(jù)所進(jìn)行的預(yù)處理。

(1)性別(R_Sex):不需要復(fù)雜的處理。

(2)年齡(R_Age):本文將應(yīng)聘者劃分為三個(gè)年齡段:a.小于或等于三十歲;b.三十到五十歲;c.五十歲以上,修改后的數(shù)據(jù)變?yōu)椤?50”。

(3)婚姻狀況(R_Married):婚姻狀況僅僅分為已婚和單身,因此將數(shù)據(jù)修改前的FALSE改為單身,TRUE改為已婚。

(4)籍貫(R_Place):本文在預(yù)處理中,將籍貫與招聘單位所在省份一致的應(yīng)聘者籍貫取1,其余的為0。

(5)工作年限(R_WorkYear):本文將應(yīng)聘者按照工作年限的長短來劃分,修改后數(shù)據(jù)分別變?yōu)椤?10”。

(6)學(xué)歷(R_Education):大致分為博士后、博士、碩士、本科、大專、高中/中專六類,通過觀察發(fā)現(xiàn)這一屬性中存在一些空缺值,因此對這一屬性的處理僅僅是把空缺值清除。

(7)政治面貌(R_Political):本文將是黨員的不做修改,將其他表述一概改為其他。

(8)畢業(yè)院校(R_School):本文將應(yīng)聘者的學(xué)校分為五類,并收集了大學(xué)的排名和院校名稱,211重點(diǎn)大學(xué)取為1,一般重點(diǎn)大學(xué)為2,一般本科院校為3,其他??坪兔褶k院校為4,海外大學(xué)為0。

(9)專業(yè)(R_Specialty):本文將企業(yè)對專業(yè)的要求提取出來與應(yīng)聘者簡歷中的信息做對比,若兩者專業(yè)相符合則改為符合,否則改為不符合。

(10)計(jì)算機(jī)水平(R_ComputerGrade):本研究將初級程序員用等級1代替,中級用2,高級用3,其余的為0。

(11)工作經(jīng)驗(yàn)(R_Experience):本文提取了招聘者要求中的一些關(guān)鍵字眼與應(yīng)聘者簡歷中的描述來做對比,將應(yīng)聘者的經(jīng)驗(yàn)劃分為三類:有相關(guān)經(jīng)驗(yàn)、有實(shí)習(xí)經(jīng)驗(yàn)、無相關(guān)經(jīng)驗(yàn)。

(12)接受(Accept):接受與否屬性是數(shù)據(jù)挖掘中唯一的輸出屬性,A類樣本取作為接受,B類樣本取為拒絕。

三、簡歷篩選的分類算法

本文主要選取了C5.0決策樹算法和神經(jīng)網(wǎng)絡(luò)算法在數(shù)據(jù)挖掘軟件Clementine中對預(yù)處理后的簡歷樣本數(shù)據(jù)進(jìn)行分類挖掘。

1. C5.0決策樹算法

構(gòu)造決策樹的目的是找出屬性和類別間的關(guān)系,用它來預(yù)測將來未知記錄的類別。本文分別抽取了幾個(gè)崗位中的部分預(yù)處理后的數(shù)據(jù)作為數(shù)據(jù)挖掘的數(shù)據(jù)測試集,為決策樹算法在招聘簡歷中的數(shù)據(jù)挖掘應(yīng)用做進(jìn)一步的驗(yàn)證和解釋。

首先在Clementine中建立Excel來源節(jié)點(diǎn),導(dǎo)入數(shù)據(jù),對其進(jìn)行讀取和處理,使其符合Clementine中的挖掘要求,將數(shù)值類型改為讀取,在方向定輸入輸出屬性。

C5.0算法能產(chǎn)生決策樹或規(guī)則集,并且在決策樹的產(chǎn)生過程中它能自動(dòng)根據(jù)最大信息增益進(jìn)行樣本拆分,一直到樣本子集不能再拆分為止。因此本文選擇C5.0算法來產(chǎn)生規(guī)則集,C5.0能支持基于準(zhǔn)確性的規(guī)則和基于普遍性的規(guī)則,基于普遍性的規(guī)則會(huì)考慮盡可能大的樣本量,而基于準(zhǔn)確性的規(guī)則則更傾向于規(guī)則的準(zhǔn)確率。如對財(cái)務(wù)管理職位進(jìn)行挖掘,可得到如下分類規(guī)則:

(1) 基于準(zhǔn)確性的十二個(gè)拒絕規(guī)則:

規(guī)則一:如果Sex=女;并且Education=本科;且School=3;且ComputerGrade

規(guī)則二:若Sex=男;且WorkYear2;且Experience=無相關(guān)經(jīng)驗(yàn);則拒絕。樣本數(shù):16,準(zhǔn)確性:88.9%。

規(guī)則三:如果Education=高中/中專;并且CompurerGrade

規(guī)則四:如果Sex=男;且WorkYear2;并且ComputerGrade

規(guī)則五:如果Education=高中/中專;并且Specialty=不符合;則拒絕。樣本數(shù):27,準(zhǔn)確性:86.2%。

規(guī)則六:如果School

規(guī)則七:如果Education=大專;并且Specialty=不符合;并且ComputerGrade>1;則拒絕。樣本數(shù):45,準(zhǔn)確性:83%。

規(guī)則八:如果Education=高中/中專;并且Experience=無相關(guān)經(jīng)驗(yàn);則拒絕。樣本數(shù):63,準(zhǔn)確性:80%。

規(guī)則九:若Sex=女;并且Age

規(guī)則十:如果Education=初中;則拒絕。樣本數(shù):12,準(zhǔn)確性:75%。

規(guī)則十一:如果Education=大專;并且School>2;并且Experience=無相關(guān)經(jīng)驗(yàn);則拒絕。樣本數(shù):35,準(zhǔn)確性:75.7%。樣本數(shù):212,準(zhǔn)確性:70.6%。

規(guī)則十二:如果Place=符合;并且Education=大專;并且School>3;并且ComputerGrader>1;則拒絕。樣本數(shù):68,準(zhǔn)確性:68.6%。

(2) 基于準(zhǔn)確性的四個(gè)接受規(guī)則

規(guī)則一:如果Married=單身;并且WorkYear=5-10;并且Education=本科;則接受。樣本數(shù):8,準(zhǔn)確性:90%。

規(guī)則二:如果School

規(guī)則三:如果Education=大專;并且School>3;并且Computergrade=1;并且Experience=有相關(guān)經(jīng)驗(yàn);則接受。樣本數(shù):56,準(zhǔn)確性:72.4%。

規(guī)則四:如果Specialty=符合;則接受。樣本數(shù):566,準(zhǔn)確性:50.2%。

(3) 基于普遍性的兩個(gè)接受規(guī)則

規(guī)則一:如果R_School

規(guī)則二:如果Experience=有相關(guān)經(jīng)驗(yàn);則接受。樣本數(shù):270,準(zhǔn)確性:62.5%。

(4) 基于普遍性的四個(gè)拒絕規(guī)則

規(guī)則一:如果R_School

規(guī)則二:如果Education=高中/中專;則拒絕。樣本數(shù):103,準(zhǔn)確性:74.3%。

規(guī)則三:如果R_School>2;并且Experience=無相關(guān)經(jīng)驗(yàn);則拒絕。樣本數(shù):372,準(zhǔn)確性:69.5%。

規(guī)則四:如果R_Political=其他;并且R_School>3;并且ComputerGrade>1;則拒絕。樣本數(shù):201,準(zhǔn)確性:64.7%。

2. 神經(jīng)網(wǎng)絡(luò)算法

相對于決策樹來說,神經(jīng)網(wǎng)絡(luò)算法需要更多的時(shí)間,而且對結(jié)果的解釋也相對較困難,而且神經(jīng)網(wǎng)絡(luò)模型只包含一組權(quán)值,了解其中的關(guān)系和為什么有效也比較困難。

將數(shù)據(jù)導(dǎo)入Clementine中并與神經(jīng)網(wǎng)絡(luò)模型相連接,其方法與決策樹算法中一樣??紤]到時(shí)間和準(zhǔn)確性的關(guān)系,本文選擇了修剪方法。另外,為了預(yù)防訓(xùn)練過度,本文選擇了樣本的50%至60%進(jìn)行訓(xùn)練。

本文希望數(shù)據(jù)訓(xùn)練的準(zhǔn)確性盡量高一些,因此,在模型選擇中選擇使用最佳網(wǎng)絡(luò)。節(jié)點(diǎn)訓(xùn)練結(jié)束后將會(huì)產(chǎn)生一個(gè)神經(jīng)網(wǎng)絡(luò)模型。神經(jīng)網(wǎng)絡(luò)算法挖掘的準(zhǔn)確性在84%左右。

3. 兩種分類算法的比較

分類算法的分類質(zhì)量一般可以用查全率和查準(zhǔn)率來評價(jià)。

決策樹算法和神經(jīng)網(wǎng)絡(luò)算法分別對A、B類樣本中部分?jǐn)?shù)據(jù)集1、2的挖掘情況比較如下所示:

(1)決策樹和神經(jīng)網(wǎng)絡(luò)算法對數(shù)據(jù)集1的挖掘結(jié)果比較:

決策樹算法

測試樣本數(shù):356,訓(xùn)練樣本數(shù):713,查準(zhǔn)率:79.8%,查全率:75.1%,F1測試值:0.77,用時(shí):1秒。

神經(jīng)網(wǎng)絡(luò)算法

測試樣本數(shù):428,訓(xùn)練樣本數(shù):713,查準(zhǔn)率:83.95%,查全率:80.59%,F1測試值:0.82,用時(shí):5分9秒。

(2)決策樹和神經(jīng)網(wǎng)絡(luò)算法對數(shù)據(jù)集2的挖掘結(jié)果比較:

決策樹算法

測試樣本數(shù):500,訓(xùn)練樣本數(shù):1000,查準(zhǔn)率:81.02%,查全率:79.2%,F1測試值:0.80,用時(shí):1秒。

神經(jīng)網(wǎng)絡(luò)算法

測試樣本數(shù):600,訓(xùn)練樣本數(shù):1000,查準(zhǔn)率:84.56%,查全率:82.34%,F1測試值:0.83,用時(shí):1分33秒。

從上文中我們可以知道,決策樹算法的原理相對容易為人力資源管理者所理解,也能夠得到比神經(jīng)網(wǎng)絡(luò)算法更加直觀易懂的分類規(guī)則。決策樹算法計(jì)算速度較快,用時(shí)較少,神經(jīng)網(wǎng)絡(luò)算法花費(fèi)時(shí)間較長。但神經(jīng)網(wǎng)絡(luò)算法比決策樹算法有更高的整體查準(zhǔn)率和查全率,同時(shí)F1測試值反映出來的分類質(zhì)量的二者比較中可見,神經(jīng)網(wǎng)絡(luò)算法比決策樹算法分類質(zhì)量要高一些。

四、結(jié)束語

本文主要研究了數(shù)據(jù)挖掘技術(shù)在電子簡歷數(shù)據(jù)篩選中的應(yīng)用,得到了一些有用的結(jié)論,但還存在一些不足。

(1)在挖掘過程中,由于時(shí)間精力有限,所以本文只選擇了決策樹和神經(jīng)網(wǎng)絡(luò)兩種算法進(jìn)行挖掘比對,沒有考慮其他算法。

(2)本文在對原始數(shù)據(jù)進(jìn)行預(yù)處理時(shí),其中涉及到對文本數(shù)據(jù)的預(yù)處理,如工作經(jīng)驗(yàn)以及專業(yè),本文只是簡單的進(jìn)行替換處理。

參考文獻(xiàn):

[1]趙蘇星:數(shù)據(jù)挖掘技術(shù)在人力資源管理中的應(yīng)用[J].管理科學(xué),2007,91.

[2]陳小穎:人力資源管理系統(tǒng)中數(shù)據(jù)挖掘技術(shù)的應(yīng)用[D].武漢:武漢理工大學(xué),2006.

第2篇

關(guān)鍵詞:垃圾郵件; 中文分詞; BP神經(jīng)網(wǎng); 遺傳算法

中圖分類號:TP18 文獻(xiàn)標(biāo)識碼:A文章編號:1009-3044(2011)08-1875-03

Research on the System of Chinese Spam Filtering Based on Neural Net

YE Yan1, LI Pei-guo2

(1.Zengcheng College of South China Normal University, Guangzhou, 511363, China; 2.Department of mathematics, Jinan University, Guangzhou 510632, China)

Abstract: The flooding spams take up huge Internet resource and user time. Especially some virus-spams, they can disable some normal Internet service, or attack user’s computers. It introduces BP neural network as the filtering algorithm, optimized by the Genetic Algorithm. With Chinese word segmentation, it designs and implements a Chinese email filter. At last, it performs training and testing using sample emails, and analyses the testing result. The result indicates that the filtering algorithm has good recall and precision ratio.

Key words: Spam; Chinese word segmentation; BP Neural Networks; Genetic Algorithm

電子郵件是互聯(lián)網(wǎng)最重要、最普及的應(yīng)用,大大方便了人們的生活、工作和學(xué)習(xí)。然而,近些年來,垃圾郵件成泛濫的趨勢。據(jù)中國互聯(lián)網(wǎng)協(xié)會(huì)反垃圾郵件中心統(tǒng)計(jì)[1],截止2010年7月,中國互聯(lián)網(wǎng)用戶收到的垃圾郵件比例約為40%,這些垃圾郵件花費(fèi)用戶大量的時(shí)間和精力來處理,給正常的使用帶來了諸多的麻煩;對于企業(yè)來說,垃圾郵件會(huì)造成巨大的經(jīng)濟(jì)損失,尤其是帶有病毒的郵件,更是帶來了巨大的危害。

當(dāng)前的垃圾郵件過濾技術(shù),主要包括以下幾類:關(guān)鍵詞過濾,黑/白名單[2],逆向域名驗(yàn)證,基于規(guī)則過濾[3],特征詞統(tǒng)計(jì),等等。以上方法,分別在各種特定的情況下,能夠達(dá)到一定的過濾效果。但是,隨著垃圾郵件制造者的技術(shù)提高,以上的各種方法都存在各自的缺陷,不能達(dá)到很好的過濾效果。

本文采用基于郵件內(nèi)容的過濾算法,無論任何偽裝的情況下,郵件的內(nèi)容是無法改變的,否則就無法達(dá)到發(fā)送者的目的,因此,基于內(nèi)容的過濾算法能夠在各種情況下,達(dá)到過濾效果。同時(shí),引入BP神經(jīng)網(wǎng)絡(luò)作為過濾算法,利用BP神經(jīng)網(wǎng)的自組織、自學(xué)習(xí)和聯(lián)想存儲等特點(diǎn),設(shè)計(jì)并實(shí)現(xiàn)垃圾郵件過濾系統(tǒng)。同時(shí),針對BP神經(jīng)網(wǎng)在訓(xùn)練過程中,容易陷入局部最優(yōu)解的問題[4],引入遺傳算法來對BP神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化,利用遺傳算法的全局搜索能力,進(jìn)一步提高BP神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力[5]。針對中文自身的特點(diǎn),在過濾系統(tǒng)中,加入針對中文的自動(dòng)分詞模塊,實(shí)現(xiàn)針對中文垃圾郵件的過濾。

1 過濾系統(tǒng)的設(shè)計(jì)

過濾系統(tǒng)的主要思想:通過分析郵件的正文內(nèi)容,提取其中的特征詞匯,通過過濾模塊進(jìn)行垃圾郵件的識別;同時(shí),加入了針對中文郵件的自動(dòng)分詞模塊,達(dá)到對中文垃圾郵件的過濾;系統(tǒng)架構(gòu)如圖1所示。

1.1 系統(tǒng)的流程

系統(tǒng)的流程主要包括兩個(gè)過程:過濾系統(tǒng)的訓(xùn)練過程和未知郵件的過濾過程,分別如下:

1.1.1 過濾系統(tǒng)訓(xùn)練

首先對郵件樣本集進(jìn)行預(yù)處理,得到待處理的樣本郵件;然后通過中文自動(dòng)分詞,得到整個(gè)樣本集的詞匯統(tǒng)計(jì)表;根據(jù)詞匯出現(xiàn)的頻率,以及相應(yīng)的代表性,選取出特征詞匯;根據(jù)特征詞匯表,將樣本郵件轉(zhuǎn)化為BP神經(jīng)網(wǎng)絡(luò)過濾模塊的輸入向量,從而對網(wǎng)絡(luò)進(jìn)行訓(xùn)練,生成最終具備識別能力的過濾模塊。流程圖如圖2。

1.1.2 未知郵件過濾

收到新郵件后,通過中文自動(dòng)分詞,得到郵件中的所有詞匯;根據(jù)特征詞匯表,生成該郵件對應(yīng)的特征向量,輸入到神經(jīng)網(wǎng)絡(luò)過濾模塊中;根據(jù)過濾系統(tǒng)的輸出結(jié)果,判定當(dāng)前郵件是否為垃圾郵件;用戶可以對過濾模塊的判定結(jié)果進(jìn)行反饋,系統(tǒng)會(huì)記錄錯(cuò)判和誤判的郵件數(shù)量,并根據(jù)對應(yīng)的比例決定是否需要重新訓(xùn)練過濾模塊。同時(shí),根據(jù)當(dāng)前郵件是否為垃圾郵件,將該郵件中出現(xiàn)的詞匯更新到所有詞匯的表中,并統(tǒng)計(jì)相應(yīng)的“垃圾概率”,這樣做的目的是為了定期的更新特征詞匯,達(dá)到過濾系統(tǒng)能夠不斷學(xué)習(xí)的效果。

1.2 系統(tǒng)結(jié)構(gòu)

整個(gè)過濾系統(tǒng)采用模塊化設(shè)計(jì),共分為四個(gè)主要的模塊:自動(dòng)分詞模塊,特征詞提取模塊,BP神經(jīng)網(wǎng)過濾模塊,以及用戶反饋模塊,整體的結(jié)構(gòu)如圖3所示。

1.2.1 自動(dòng)分詞模塊

該模塊主要實(shí)現(xiàn)的功能是將郵件的內(nèi)容通過自動(dòng)分詞技術(shù),得到對應(yīng)的詞的集合。需要完成操作包括:

1) 郵件的編碼識別,對于不同的郵件可能使用不同的編碼,所以要針對各種編碼,采用對應(yīng)的解碼方法對郵件進(jìn)行解碼,才能保證正確的讀取郵件內(nèi)容;

2) 郵件內(nèi)容的預(yù)處理,例如,去掉郵件的頭信息;根據(jù)已知的一些拆/分詞的特征,去除拆/分的標(biāo)志,比如一些垃圾郵件發(fā)送者,會(huì)故意的在字與字之間加上空格,目的就是讓自動(dòng)分次技術(shù)不能夠正確的進(jìn)行分詞,因此需要在預(yù)處理階段去掉這些分隔符;

3) 對郵件內(nèi)容進(jìn)行自動(dòng)分詞,得到郵件中的詞語集合;

該模塊的輸入為郵件訓(xùn)練集,或者用戶收到的郵件,輸出為經(jīng)過分詞得到的詞語集合。

1.2.2 特征詞提取模塊

特征詞提取模塊的主要功能是在經(jīng)過分詞模塊得到的詞匯集合中,選出最有代表性的特征詞,這些詞匯最能夠表明一封郵件是垃圾郵件,或者是正常郵件。該模塊需要完成的操作包括以下幾個(gè):

1) 詞頻的統(tǒng)計(jì):在樣本集郵件的分詞結(jié)果中,統(tǒng)計(jì)出每個(gè)詞在垃圾郵件中出現(xiàn)的次數(shù),以及在正常郵件中出現(xiàn)的次數(shù),從而計(jì)算出這個(gè)詞匯的“垃圾概率”,即為:

2) 提取特征詞匯,即根據(jù)詞匯的“垃圾概率”,取出最具代表性的詞語;選擇時(shí)需要考慮以下幾個(gè)方面,詞匯的“垃圾概率”,這個(gè)是在選取特征詞時(shí),比較重要的一個(gè)指標(biāo);但是,同時(shí)也要考慮詞匯出現(xiàn)的次數(shù),比如某個(gè)詞只在一封垃圾郵件中出現(xiàn),那么它的“垃圾概率”為1,但是它并不是最有代表性的詞,因此,在選取特征詞匯時(shí),需要綜合考慮這兩個(gè)方面;

3) 特征向量轉(zhuǎn)換,將郵件按照特征詞表,轉(zhuǎn)換為代表該郵件的特征向量;

另外,在提取特征詞時(shí),可以結(jié)合使用禁用詞表方法,該方法是通過對漢語的研究,總結(jié)出一些對于郵件內(nèi)容沒有很大的影響的詞匯,比如“是”,“的”,各種數(shù)字,等等,這些詞匯并沒有實(shí)際的意義,因此,提取特征詞時(shí),應(yīng)排除這些詞匯。

1.2.3 過濾模塊設(shè)計(jì)

該模塊是整個(gè)過濾系統(tǒng)的核心部分,通過樣本郵件對過濾模塊訓(xùn)練后,完成對未知郵件的過濾功能。整個(gè)過濾模塊使用BP神經(jīng)網(wǎng)絡(luò)作為文本分類的算法,同時(shí)使用遺傳算法對BP神經(jīng)網(wǎng)絡(luò)的各個(gè)參數(shù)進(jìn)行優(yōu)化,模型的設(shè)計(jì)圖如圖4。

其中,引入GA(遺傳算法)優(yōu)化器的目的是為了克服BP神經(jīng)網(wǎng)容易陷入局部最優(yōu)解的缺點(diǎn),提高其全局搜索的能力。首先,將BP神經(jīng)網(wǎng)的各個(gè)權(quán)值進(jìn)行編碼,通過GA優(yōu)化器隨機(jī)的產(chǎn)生初始的種群;對種群中的每個(gè)個(gè)體,經(jīng)過解碼后,構(gòu)造對應(yīng)的BP神經(jīng)網(wǎng);將樣本訓(xùn)練集輸入BP神經(jīng)網(wǎng),計(jì)算所有輸出的均方誤差;GA優(yōu)化器根據(jù)均方誤差,得到對應(yīng)的適應(yīng)度值,然后進(jìn)行遺傳優(yōu)化,最終得到最優(yōu)化的BP網(wǎng)絡(luò)權(quán)值。

2 過濾系統(tǒng)的實(shí)現(xiàn)

過濾系統(tǒng)的實(shí)現(xiàn)主要采用Java語言,使用SQL Server數(shù)據(jù)庫來存放分詞的結(jié)果,以及最終的關(guān)鍵詞列表。過濾系統(tǒng)的實(shí)現(xiàn)包括兩個(gè)關(guān)鍵的部分,自動(dòng)分詞模塊和遺傳優(yōu)化的神經(jīng)網(wǎng)絡(luò)過濾模塊。

2.1 自動(dòng)分詞模塊

本文采用ICTCLAS[6]中文分詞系統(tǒng)來實(shí)現(xiàn)對郵件內(nèi)容的自動(dòng)分詞,從而得到郵件的關(guān)鍵詞列表,為下一步的特征詞提取提供詞庫。具體的實(shí)現(xiàn)方法是:在代碼中,調(diào)用ICTCLAS系統(tǒng)提供的API,對輸入的郵件內(nèi)容進(jìn)行分詞,并返回分詞結(jié)果。

2.2 過濾模塊的實(shí)現(xiàn)

2.2.1 BP神經(jīng)網(wǎng)的實(shí)現(xiàn)

本文采用實(shí)用性很強(qiáng)的三層的BP神經(jīng)網(wǎng)結(jié)構(gòu),即包含一個(gè)隱含層的BP網(wǎng)絡(luò)。根據(jù)一般郵件的長度大概為100-200字,輸入層節(jié)點(diǎn)數(shù)目確定為50個(gè),即對應(yīng)50個(gè)特征詞匯,應(yīng)該足以反映大部分郵件的特征;輸出層采用一個(gè)輸出節(jié)點(diǎn),輸出節(jié)點(diǎn)的意義為當(dāng)前郵件為垃圾郵件的概率:越大則越可能為垃圾郵件;隱層節(jié)點(diǎn)數(shù)目,按照參考文獻(xiàn)[7]提供的方法,確定數(shù)目為10。

BP神經(jīng)網(wǎng)的實(shí)現(xiàn),采用開源工程JOONE (Java Object Oriented Neural Engine),作為BP神經(jīng)網(wǎng)的實(shí)現(xiàn)框架,按照如上的網(wǎng)絡(luò)結(jié)構(gòu),實(shí)現(xiàn)相應(yīng)的BP網(wǎng)絡(luò)結(jié)構(gòu)。

2.2.2 遺傳優(yōu)化BP網(wǎng)絡(luò)

利用遺傳算法可以優(yōu)化BP網(wǎng)絡(luò)的結(jié)構(gòu)和各個(gè)權(quán)值,為了簡化問題,本文只使用遺傳算法來優(yōu)化BP網(wǎng)絡(luò)的權(quán)值部分。

首先需要解決的是編碼問題,根據(jù)權(quán)值的連續(xù)性、高精度等特點(diǎn),選取實(shí)數(shù)編碼方案,提高編碼精度,增加搜索空間。對BP網(wǎng)絡(luò)各個(gè)權(quán)值的編碼方法是將權(quán)值分為四個(gè)部分:

1) 輸入層到隱含層的權(quán)值:即由輸入層到隱含層的連接的權(quán)值;2) 隱含層的各節(jié)點(diǎn)的閾值;3) 隱含層到輸出層的權(quán)值:即由隱含層到輸出層的連接的權(quán)值;4) 輸出層的各節(jié)點(diǎn)的閾值。編碼得到的個(gè)體如下:

通過編碼,就將BP網(wǎng)絡(luò)的權(quán)值轉(zhuǎn)化為遺傳算法可以處理的染色體了,從而可以進(jìn)行遺傳優(yōu)化,找到最優(yōu)的權(quán)值編碼。最后,再根據(jù)編碼的規(guī)則,逆向解碼得到最終的BP網(wǎng)絡(luò)結(jié)構(gòu)。

3 系統(tǒng)測試與分析

本文采用中國教育和科研計(jì)算機(jī)網(wǎng)緊急響應(yīng)組(CCERT),2005年搜集的郵件樣本集,作為測試數(shù)據(jù)。在樣本集中,選取一部分郵件作為訓(xùn)練數(shù)據(jù),對BP網(wǎng)絡(luò)過濾系統(tǒng)進(jìn)行訓(xùn)練;另外一部分作為測試數(shù)據(jù),對過濾系統(tǒng)的結(jié)果測試。具體測試數(shù)據(jù)如下:

練樣本集大?。?113 ;垃圾郵件數(shù):3110;正常郵件數(shù):3003

測試樣本集大?。?00;垃圾郵件數(shù):100;正常郵件數(shù):100;判定閾值為:0.9

在以上的測試數(shù)據(jù)情況下,過濾系統(tǒng)在自動(dòng)分詞、特征詞提取部分,表現(xiàn)出很好的性能;在采用遺傳算法優(yōu)化的BP網(wǎng)絡(luò)訓(xùn)練過程中,能夠快速的收斂,大大提高了訓(xùn)練能力。具體的測試結(jié)果如表1。

測試的結(jié)果表明,過濾系統(tǒng)具有較好的運(yùn)行能力,在處理大量郵件時(shí),運(yùn)行速度相對較快,能夠達(dá)到一般的性能要求。郵件過濾結(jié)果表明,過濾系統(tǒng)具有很高的準(zhǔn)確率和查全率,在樣本集相對完整和充足的情況下,能夠起到很好的過濾效果。

4 結(jié)論

針對中文垃圾郵件的過濾問題,本文采用了基于遺傳算法優(yōu)化的BP網(wǎng)絡(luò)作為過濾算法,并結(jié)合中文自動(dòng)分詞技術(shù),設(shè)計(jì)并實(shí)現(xiàn)了針對中文垃圾郵件的過濾系統(tǒng)。引入ICTCLAS系統(tǒng)作為中文自動(dòng)分詞模塊,基于JOONE框架,來實(shí)現(xiàn)遺傳算法優(yōu)化的BP網(wǎng)絡(luò)過濾模塊。最后,通過系統(tǒng)的測試,分析了系統(tǒng)的性能和垃圾郵件過濾的查全率和準(zhǔn)確率。測試結(jié)果表明,該過濾系統(tǒng)具有一定的實(shí)際價(jià)值,可以為垃圾郵件處理領(lǐng)域提供一個(gè)新的參考。

參考文獻(xiàn):

[1] 中國互聯(lián)網(wǎng)協(xié)會(huì)反垃圾郵件中心.2010年第二季度中國反垃圾郵件狀況調(diào)查報(bào)告[R],2010.

[2] 鄭可馨,姜守旭,羅志云.垃圾郵件過濾系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].哈爾濱:哈爾濱工業(yè)大學(xué),2004.

[3] 潘文鋒,王斌. 基于內(nèi)容的垃圾郵件過濾研究[D].北京:中國科學(xué)院計(jì)算技術(shù)研究所,2004.

[4] 余本國.BP神經(jīng)網(wǎng)絡(luò)局限性問題的討論[J].微計(jì)算機(jī)信息,2007(8).

[5] Sexton R S,Dorsey R E.Reliable classification using neural networks: a genetic algorithm and backpropagation comparison[J].Decision Support Systems,2000(30):11-22.

第3篇

關(guān)鍵詞:機(jī)器學(xué)習(xí);圖像處理;手寫數(shù)字識別;SVM分類算法

圖像是人們?nèi)粘I詈凸ぷ髦须S時(shí)都會(huì)碰到的一種客觀的靜態(tài)描述,對數(shù)字圖像的深入透徹研究大大方便了我們的生活。目前的對于數(shù)字識別的算法主要有K鄰近分類算法[1-3]、BP神經(jīng)網(wǎng)絡(luò)算法[4]。K近鄰分類算法本身簡單有效,不需要分類器進(jìn)行訓(xùn)練,但其計(jì)算量較大,可理解性差;傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)收斂速度慢,網(wǎng)絡(luò)和學(xué)習(xí)記憶不穩(wěn)定。本文使用SVM分類算法結(jié)合MNIST數(shù)據(jù)集進(jìn)行數(shù)字的識別,SVM(support vector machine)即支持向量機(jī)是一種分類算法[5],其優(yōu)點(diǎn)是在統(tǒng)計(jì)量樣本數(shù)比較小的情況下也能獲得較為準(zhǔn)確的統(tǒng)計(jì)規(guī)律。本文著手于研究機(jī)器識別手寫數(shù)字,此手寫數(shù)字識別實(shí)驗(yàn)主要分為三個(gè)部分:圖像采集、圖像預(yù)處理、數(shù)字識別。

1 圖像預(yù)處理

對于攝取到的圖片進(jìn)行數(shù)字預(yù)處理是實(shí)驗(yàn)中重要的步驟之一是實(shí)驗(yàn)得出準(zhǔn)確結(jié)果的前提。采集信號時(shí),周圍環(huán)境以及攝取設(shè)備對采集后的圖片影響很大,若不進(jìn)行圖片預(yù)處理,往往很難得出正確結(jié)果。步驟如下:

1.1 中值濾波

一幅圖像中,噪聲的出現(xiàn)會(huì)使噪聲點(diǎn)處的像素值比其周圍的像素值相差非常多??砂褕D像中某一塊的數(shù)據(jù)中所有像素值按大小順序排列,如此和其他像素值相差很大的噪聲點(diǎn)處的像素就會(huì)被排到最前或者最末端,再將排在中間的像素值代替模塊中的中間的目標(biāo)像素值,便可有效去除噪聲。

1.2 直方圖均衡化

直方圖均衡化著重于圖像灰度級的變換,目的是將圖像灰度增強(qiáng),它在實(shí)際工程中使用比較廣泛。利用直方圖均衡化可以將處理后的圖像實(shí)際亮度集中的分布在亮度范圍的中間區(qū)域。

1.3 圖像分割

對提取到的圖片進(jìn)行圖片分割,可將想要得到的數(shù)字更清晰的呈現(xiàn)出來。對于最佳閾值的選取,可以采用遍歷像素值[1~254]。

(1)首先人工設(shè)置初始閾值Th=Th0將原圖分為兩類;分別計(jì)算兩類的類內(nèi)方差:

(4)

(5)

(6)

(7)

(2)計(jì)算兩個(gè)區(qū)域各自的分布概率

(8)

(9)

(3)像素遍歷選擇選擇最佳閾值,根據(jù)以下公式判定

(10)

1.4 形態(tài)學(xué)濾波

最基本的形態(tài)學(xué)濾波是腐蝕和膨脹,考慮到手寫數(shù)字筆畫可能會(huì)很粗不易于后期識別,所以采用膨脹的算法思路。一般膨脹是對二值圖像進(jìn)行處理,將此放在預(yù)處理最后一步。

2 數(shù)字識別

得到攝像頭采集并經(jīng)過處理后的數(shù)字圖片后,下一步便是識別。識別數(shù)字的方式有很多,本文我們使用支持向量機(jī)SVM分類算法來實(shí)現(xiàn)手寫數(shù)字識別。深度學(xué)習(xí)一般的解決思路便是將大量實(shí)例用于訓(xùn)練學(xué)習(xí),學(xué)習(xí)后的機(jī)器會(huì)產(chǎn)生自己的一套識別體系,利用訓(xùn)練好的系統(tǒng)去識別未知的數(shù)字。其中SVM分類算法就是這樣一個(gè)基礎(chǔ)的機(jī)器學(xué)習(xí)的思想,在獲得大量樣本進(jìn)行大量學(xué)習(xí)形成學(xué)習(xí)系統(tǒng)之后,機(jī)器形成一套自己用來識別手寫數(shù)字的規(guī)則。隨著樣本數(shù)量的增加,算法會(huì)學(xué)的更加精確,不斷提升自身的準(zhǔn)確性。通常對于分類問題,可以將數(shù)據(jù)集分成三部分:訓(xùn)練集、測試集、交叉驗(yàn)證集。用訓(xùn)練集訓(xùn)練系統(tǒng)從而生成對數(shù)字的學(xué)習(xí)模型,用后者進(jìn)行準(zhǔn)確性驗(yàn)證(優(yōu)化參數(shù))。在ubuntu上,大約運(yùn)行十分鐘便可以完成訓(xùn)練和預(yù)測測試集的結(jié)果。

采用MNIST數(shù)據(jù)集下載訓(xùn)練數(shù)據(jù)和測試文件。要注意,攝像機(jī)采集之后,為了增強(qiáng)識別效果,對采集到的數(shù)字圖片進(jìn)行預(yù)處理以達(dá)到手寫數(shù)字圖片庫的數(shù)字模式使識別可以更加準(zhǔn)確。MNIST數(shù)據(jù)庫是一個(gè)手寫數(shù)據(jù)庫,它有60000個(gè)訓(xùn)練樣本集,10000個(gè)測試樣本集。它是NIST數(shù)據(jù)庫的一個(gè)子集。下載后的文件并不是標(biāo)準(zhǔn)的圖像格式,圖像都保存在二進(jìn)制文件中,每個(gè)樣本圖像的寬高為28*28。在進(jìn)行編寫匹配程序之前要把其轉(zhuǎn)換為普通jpg格式的文件。

3 結(jié)論

本文從識別手寫數(shù)字字符識別入手,通過查閱大量資料得出一套完整的手寫數(shù)字識別的方法體系,并且在Windows平臺下,利用計(jì)算機(jī)視覺庫OpenCv和CodeBlocks環(huán)境相結(jié)合進(jìn)行實(shí)驗(yàn),得出結(jié)果準(zhǔn)確度高。采用的SVM分類算法與和典型的K鄰近分類算法、BP神經(jīng)網(wǎng)絡(luò)算法相比,識別精度高。但是,在攝取圖片背景復(fù)雜、圖片曝光過度或不足、分辨率低的情況下,各算法還需要進(jìn)一步完善。

參考文獻(xiàn)

[1] 陳振洲,李磊,姚正安. 基于SVM的特征加權(quán)KNN算法[J]. 中山大W學(xué)報(bào)(自然科學(xué)版). 2005(01)

[2] 錢曉東,王正歐. 基于改進(jìn)KNN的文本分類方法[J]. 情報(bào)科學(xué). 2005(04)

[3] Yufei Tao,Dimitris Papadias,Nikos Mamoulis,Jun Zhang.An efficient cost model for K-NN search technical report. HKUST . 2001

[4] 王建梅,覃文忠. 基于L-M算法的BP神經(jīng)網(wǎng)絡(luò)分類器[J]. 武漢大學(xué)學(xué)報(bào)(信息科學(xué)版). 2005(10)

[5] 奉國和,朱思銘. 基于聚類的大樣本支持向量機(jī)研究[J]. 計(jì)算機(jī)科學(xué). 2006(04)

第4篇

基于OLED器件的封裝材料研究進(jìn)展

低氧環(huán)境下血氧序列的多尺度熵分析

基于多核超限學(xué)習(xí)機(jī)的實(shí)時(shí)心電信號分析

基于慣性傳感的穿戴式跌倒預(yù)警防護(hù)系統(tǒng)

痙攣對雙癱型腦癱兒童下肢肌肉相關(guān)性的影響

合成免疫策略治療慢性乙肝病毒感染綜述

EMT的表觀遺傳調(diào)控在癌癥進(jìn)程中的研究進(jìn)展

類風(fēng)濕性關(guān)節(jié)炎免疫發(fā)病機(jī)制的研究進(jìn)展

三維點(diǎn)云中的二維標(biāo)記檢測

基于詞項(xiàng)關(guān)聯(lián)的短文本分類研究

一種離心式微流控生化分析芯片

電子封裝基板材料研究進(jìn)展及發(fā)展趨勢

基于鎳尖錐陣列的柔性超薄超級電容器

溶膠-凝膠法制備二氧化硅微球研究進(jìn)展概述

一種求解汽車外流場問題的可擴(kuò)展數(shù)值算法

國內(nèi)汽車機(jī)械式自動(dòng)變速器技術(shù)研究綜述

一種基于圓的幾何特性改進(jìn)的圓檢測隨機(jī)算法

智能無線傳感網(wǎng)絡(luò)在溫室環(huán)境監(jiān)控中的應(yīng)用研究

適用于R290聚醚酯型冷凍機(jī)油的合成及性能研究

基于神經(jīng)網(wǎng)絡(luò)模型的雙混沌Hash函數(shù)構(gòu)造

微流控芯片技術(shù)在心肌標(biāo)志物檢測中的應(yīng)用綜述

大數(shù)據(jù)層面的microRNA功能相似性分析

三維快速自旋回波(SPACE)——序列原理及其應(yīng)用

多模態(tài)集成阿爾茨海默病和輕度認(rèn)知障礙分類

一種基于頂帽變換和Otsu閾值的軌道邊緣提取方法

ATP熒光檢測法檢測醫(yī)院電梯按鈕表面細(xì)菌總數(shù)

社會(huì)網(wǎng)絡(luò)中信息傳播與安全研究的現(xiàn)狀和發(fā)展趨勢

用于光遺傳技術(shù)的體外細(xì)胞光刺激系統(tǒng)

基于曲線投影模型的電子斷層三維重構(gòu)并行算法

配準(zhǔn)算法對PCA單幅投影肺部重建的影響

加速量熱儀在鋰離子電池?zé)釡y試中的應(yīng)用

定向生長碳納米管陣列熱界面材料技術(shù)研究

低劑量口腔CT成像系統(tǒng)關(guān)鍵技術(shù)與成像方法研究

深圳市液化天然氣與混合動(dòng)力巴士排放試驗(yàn)研究

基于超聲平面波的功率多普勒成像方法研究

基于分層Dirichlet過程的頻譜利用聚類和預(yù)測

基于AFE4400的無創(chuàng)血氧飽和度測量系統(tǒng)設(shè)計(jì)

基于Markov隨機(jī)場的腦部三維磁共振血管造影數(shù)據(jù)的分割

基于模式預(yù)測的低復(fù)雜度高清視頻幀內(nèi)編碼方法

基于Android智能手機(jī)內(nèi)置傳感器的人體運(yùn)動(dòng)識別

基于MEKF的直流無刷電機(jī)磁極位置與轉(zhuǎn)速檢測技術(shù)

一種基于模糊PID的3TPS/TP型并聯(lián)機(jī)器人的控制算法

基于詞頻統(tǒng)計(jì)特征和GVP的大規(guī)模圖像檢索算法研究

數(shù)據(jù)中心保障應(yīng)用服務(wù)質(zhì)量面臨的挑戰(zhàn)與機(jī)遇

基于人工蜂群算法的膠囊內(nèi)窺鏡位姿磁定位研究

幾種自適應(yīng)線性判別分析方法在肌電假肢控制中的應(yīng)用研究

基于相圖的CZTSe光伏材料的形成路徑設(shè)計(jì)和實(shí)驗(yàn)探索

第5篇

關(guān)鍵詞:大數(shù)據(jù);金融監(jiān)管;外匯管理

一、大數(shù)據(jù)定義及常用分析方法

(一)定義。對于什么是大數(shù)據(jù),迄今為止并沒有公認(rèn)的定義。麥肯錫全球研究所給出的定義是:一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價(jià)值密度低四大特征。(二)數(shù)據(jù)挖掘常用分析方法。數(shù)據(jù)挖掘就是對觀測的數(shù)據(jù)集(經(jīng)常是很龐大的)進(jìn)行分析,目的是發(fā)現(xiàn)未知的關(guān)系和以數(shù)據(jù)擁有者可以理解并對數(shù)據(jù)擁有者而言有價(jià)值的新穎方式來總結(jié)數(shù)據(jù)。常用方法類型介紹如下:一是關(guān)聯(lián)分析。是在未有既定目標(biāo)情況下,探索數(shù)據(jù)內(nèi)部結(jié)構(gòu)的一種分析技術(shù),目的是在一個(gè)數(shù)據(jù)集中發(fā)現(xiàn)、檢索出數(shù)據(jù)集中所有可能的關(guān)聯(lián)模式或相關(guān)性,但這種關(guān)系在數(shù)據(jù)中沒有直接表示或不能肯定。常用的關(guān)聯(lián)分析算法有:Apriori算法、FP-growth算法。該技術(shù)目前廣泛應(yīng)用于各個(gè)領(lǐng)域,如我們在電商平臺瀏覽商品時(shí)都會(huì)顯示“購買此商品的顧客也同時(shí)購買”等提示語,這正是我們?nèi)粘I钪薪佑|最多的關(guān)聯(lián)分析應(yīng)用實(shí)例。二是聚類分析。是在沒有給定劃分類別的情況下,根據(jù)數(shù)據(jù)相似度按照某種標(biāo)準(zhǔn)進(jìn)行樣本分組的一種方法。它的輸入是一組未被標(biāo)記的樣本,聚類根據(jù)數(shù)據(jù)自身的距離或相似度將其劃分為若干組,使組內(nèi)距離最小而組間距離最大。常用的聚類算法有K-Means、K-Medoids、DBSCAN、HC、EM等。當(dāng)前,聚類分析在客戶分類、文本分類、基因識別、空間數(shù)據(jù)處理、衛(wèi)星圖片分析、醫(yī)療圖像自動(dòng)檢測等領(lǐng)域有著廣泛的應(yīng)用。三是回歸分析。是指通過建立模型來研究變量之間相互關(guān)系的密切程度、結(jié)構(gòu)狀態(tài)、模型預(yù)測的有效工具。常用的回歸模型有:線性回歸、非線性回歸、Logistic回歸等。四是決策樹。是一個(gè)預(yù)測模型,在已知各種情況發(fā)生概率的基礎(chǔ)上,通過構(gòu)成決策樹來求取期望值大于等于零的概率、判斷可行性的決策分析方法,是直觀運(yùn)用概率分析的一種圖解法。常用算法有CART、C4.5等。五是人工神經(jīng)網(wǎng)絡(luò)。是人腦的抽象計(jì)算模型,是一個(gè)大型并行分布式處理器,由簡單的處理單元組成。它可以通過調(diào)整單元連接的強(qiáng)度來學(xué)習(xí)經(jīng)驗(yàn)知識,并運(yùn)用這些知識推導(dǎo)出新的結(jié)果,屬于機(jī)器學(xué)習(xí)的一種。

二、大數(shù)據(jù)分析在金融監(jiān)管領(lǐng)域主要運(yùn)用場景

當(dāng)前大數(shù)據(jù)在前瞻性研究、風(fēng)險(xiǎn)防控、客戶分析、輿情監(jiān)測等方面都取得了巨大的成效,在金融領(lǐng)域?qū)崿F(xiàn)了廣泛應(yīng)用,有效地提升了金融監(jiān)管的針對性,為金融管理、風(fēng)險(xiǎn)識別帶來了無限的可能性,成為當(dāng)前不可或缺的分析手段之一。一是運(yùn)用大數(shù)據(jù)開辟“線上溯源,線下打擊”的治假新模式。2015年5月,某省“雙打辦”聯(lián)合某電子商務(wù)企業(yè)發(fā)起行動(dòng)。某電子商務(wù)企業(yè)首先運(yùn)用大數(shù)據(jù)手段識別售假線索、鎖定犯罪嫌疑人、分析串并背后團(tuán)伙,根據(jù)警方需求批量輸出線索用于偵查破案。行動(dòng)期間,該省侵犯知識產(chǎn)權(quán)立案數(shù)同比上漲120%,破案數(shù)同比上漲77.3%。與傳統(tǒng)打假模式相比,“大數(shù)據(jù)治假”模式實(shí)現(xiàn)了對犯罪嫌疑人線索信息的實(shí)時(shí)收集,為執(zhí)法部門線下查處和打擊提供了更精細(xì)、精準(zhǔn)的線索和證據(jù)。二是運(yùn)用大數(shù)據(jù)提升監(jiān)管有效性。2016年,某交易所通過監(jiān)控發(fā)現(xiàn)滬股通標(biāo)的股票成交、股價(jià)漲勢存在明顯異常。運(yùn)用大數(shù)據(jù)方法對歷史資料進(jìn)行關(guān)聯(lián)匹配映射分析后發(fā)現(xiàn),來自香港的證券賬戶與開立在內(nèi)地的某些證券賬戶有操縱市場的重大嫌疑,根據(jù)上述線索,監(jiān)管部門查獲唐某等人跨境操縱市場的違法事實(shí),成為滬港通開通以來查處的首例跨境操縱市場案例。大數(shù)據(jù)方法為資本市場的進(jìn)一步對外開放提供了新的監(jiān)管思路。三是運(yùn)用大數(shù)據(jù)實(shí)現(xiàn)風(fēng)險(xiǎn)分析、風(fēng)險(xiǎn)評級,打擊電信詐騙。通過收集和整理各行業(yè)、機(jī)構(gòu)的黑名單,利用多樣化的機(jī)器學(xué)習(xí)模型及大數(shù)據(jù)關(guān)聯(lián)分析等技術(shù),為銀行、個(gè)人等提供風(fēng)險(xiǎn)管控和反欺詐的服務(wù);運(yùn)用數(shù)據(jù)挖掘技術(shù),發(fā)掘與相關(guān)賬戶信用相關(guān)的預(yù)警信息,形成預(yù)警信號并向相關(guān)風(fēng)險(xiǎn)管理系統(tǒng)主動(dòng)推送,進(jìn)而跟蹤預(yù)警信號處置流程,直至得出最終結(jié)論或風(fēng)險(xiǎn)管控方案,形成一個(gè)風(fēng)險(xiǎn)預(yù)警、通知、處置和關(guān)閉的閉環(huán)處理流程。四是運(yùn)用大數(shù)據(jù)助力風(fēng)控。例如,某電子商務(wù)企業(yè)旗下小貸平臺建立了決策系統(tǒng),借助大數(shù)據(jù)分析結(jié)果選擇風(fēng)險(xiǎn)可控的企業(yè)開放信貸服務(wù),實(shí)現(xiàn)貸前小額貸款風(fēng)險(xiǎn)管理控制,提升集約化管理的效率。該平臺信用貸款部分客戶的貸款年化利率可低至12%,對比原先降低6個(gè)百分點(diǎn)。依靠平臺和數(shù)據(jù)優(yōu)勢,該平臺在風(fēng)險(xiǎn)控制方面已形成了多層次、全方位的微貸風(fēng)險(xiǎn)預(yù)警和管理體系,實(shí)際運(yùn)行中該平臺的不良貸款率一直保持在1%以下,風(fēng)險(xiǎn)控制成效良好。

三、對大數(shù)據(jù)分析在外匯管理領(lǐng)域運(yùn)用的思考

(一)引入大數(shù)據(jù)分析方法的必要性。近年來,外匯管理部門通過不斷完善國際收支申報(bào)體系和加強(qiáng)外匯管理信息化建設(shè),掌握了海量的數(shù)據(jù)信息,為外匯管理從側(cè)重事前審批逐步轉(zhuǎn)向側(cè)重事后監(jiān)測分析奠定了扎實(shí)的基礎(chǔ)。在當(dāng)前主流的事后監(jiān)測分析框架中,通常按照業(yè)務(wù)條線,采用“宏觀—中觀—微觀”自上而下遞進(jìn)式分析方法。這種分析方法有一定的優(yōu)點(diǎn),可以實(shí)現(xiàn)對各業(yè)務(wù)系統(tǒng)的充分利用,與宏觀形勢和業(yè)務(wù)管理信息結(jié)合較為緊密。但同時(shí)也存在一些缺陷:一是數(shù)據(jù)之間關(guān)聯(lián)度不高,監(jiān)測分析主要以各業(yè)務(wù)條線事后核查為主,數(shù)據(jù)相對分散,數(shù)據(jù)之間的關(guān)聯(lián)分析較弱,監(jiān)測結(jié)果相對滯后;二是難以發(fā)現(xiàn)潛在風(fēng)險(xiǎn)苗頭,特別是在數(shù)據(jù)量巨大或關(guān)聯(lián)關(guān)系復(fù)雜等特定場景下,有時(shí)無法取得滿意的監(jiān)測分析結(jié)果。在此背景下,可以考慮適時(shí)引入大數(shù)據(jù)分析方法。該分析方法是考慮在整合內(nèi)部系統(tǒng)、互聯(lián)網(wǎng)等各類信息數(shù)據(jù)的基礎(chǔ)之上,利用數(shù)據(jù)挖掘、建模等工具方法,對企業(yè)、集團(tuán)等主體、各類交易數(shù)據(jù)及互聯(lián)網(wǎng)信息進(jìn)行多層次、多角度、多項(xiàng)目的情況分析,并通過反饋的結(jié)果,修改完善模型,不斷提高分析預(yù)測結(jié)果的準(zhǔn)確性,既能解放大量人力資源,又有助于提高事中事后監(jiān)管的針對性和效率,同時(shí)提高外匯管理的信息化程度。(二)大數(shù)據(jù)分析方法在外匯管理領(lǐng)域運(yùn)用的具體思路。1.打造大數(shù)據(jù)監(jiān)管中心,探索構(gòu)建各類監(jiān)管模型設(shè)立大數(shù)據(jù)監(jiān)管中心,整合各業(yè)務(wù)系統(tǒng)數(shù)據(jù)及互聯(lián)網(wǎng)外部數(shù)據(jù),構(gòu)建各類監(jiān)管模型,多層次、多角度、全方位對各類主體交易數(shù)據(jù)實(shí)施監(jiān)管及風(fēng)險(xiǎn)防控,探索實(shí)現(xiàn)主體監(jiān)管、本外幣一體化監(jiān)管等,提升監(jiān)管效率。一是交易數(shù)據(jù)監(jiān)管。將當(dāng)前各項(xiàng)法規(guī)、政策、制度數(shù)字化,建立合規(guī)性核查模型,通過對交易信息進(jìn)行模擬仿真測試,獲取交易數(shù)據(jù)的邊界條件,判斷交易的合規(guī)性,自動(dòng)報(bào)告不合規(guī)交易。二是交易風(fēng)險(xiǎn)預(yù)警。通過對以往違規(guī)的交易進(jìn)行分析建模,結(jié)合當(dāng)前的經(jīng)濟(jì)金融形勢,對每筆交易進(jìn)行風(fēng)險(xiǎn)分級,自動(dòng)報(bào)告高風(fēng)險(xiǎn)的業(yè)務(wù)數(shù)據(jù)。監(jiān)管部門判斷核查后,系統(tǒng)根據(jù)反饋結(jié)果通過機(jī)器學(xué)習(xí)等完善預(yù)警模型,不斷提升預(yù)警準(zhǔn)確度。三是主體監(jiān)管。以企業(yè)或集團(tuán)公司為主體,整合利用全方位數(shù)據(jù),運(yùn)用神經(jīng)網(wǎng)絡(luò)等技術(shù)對主體的投融資、結(jié)售匯、資金管理與調(diào)配等內(nèi)部交易行為進(jìn)行分析,了解不同類別主體異同點(diǎn),對主體進(jìn)行適當(dāng)性分析評測,及時(shí)識別潛在違規(guī)行為。2.預(yù)測匯率、跨境收支走勢,了解并引導(dǎo)市場預(yù)期通過收集影響匯率變動(dòng)、跨境收支相關(guān)因素信息,建立模型預(yù)測匯率、跨境收支走勢,并通過機(jī)器學(xué)習(xí)等方法,自動(dòng)或人工調(diào)整模型,不斷提升預(yù)測結(jié)果的準(zhǔn)確性,同時(shí)掌握902017.09市場預(yù)期,及時(shí)進(jìn)行引導(dǎo)。一是匯率走勢預(yù)測。整理收集通貨膨脹、利率、政府債務(wù)、市場心理等影響匯率變化的信息,通過回歸等各類模型方法,分析某一項(xiàng)或多項(xiàng)與匯率之間關(guān)系,預(yù)測特定時(shí)間段匯率走勢。二是全國或地區(qū)跨境收支形勢預(yù)測。整理收集行業(yè)價(jià)格、匯率、經(jīng)濟(jì)金融形勢等外部信息,觀測、分析經(jīng)濟(jì)金融形勢、匯率、人民幣即期交易差價(jià)等對地區(qū)跨境收支或進(jìn)出口的影響,預(yù)測跨境收支或進(jìn)出口走勢變化。三是掌握人民幣匯率市場預(yù)期。收集網(wǎng)絡(luò)上關(guān)于人民幣匯率相關(guān)信息、搜索頻率等,通過文本分析等方法了解人民幣匯率走勢的市場預(yù)期,便于適時(shí)采取引導(dǎo)措施。3.輿情實(shí)時(shí)監(jiān)測,快速預(yù)警反饋整理收集互聯(lián)網(wǎng)各大網(wǎng)站評論、博客等信息資源,嘗試以數(shù)據(jù)情感分析角度,實(shí)現(xiàn)對文本評論數(shù)據(jù)的傾向性判斷以及所隱藏的信息的挖掘并分析。一是獲取政策反響。收集各大網(wǎng)站某項(xiàng)政策的相關(guān)評論、帖子、博客等信息,通過深度學(xué)習(xí)、語義網(wǎng)絡(luò)等多種數(shù)據(jù)挖掘模型,分析判斷數(shù)據(jù)傾向性,以數(shù)據(jù)角度反映政策執(zhí)行效果及反響,為政策的進(jìn)一步完善提供參考。二是設(shè)立輿情監(jiān)測平臺。運(yùn)用數(shù)據(jù)倉庫、文本分析、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等技術(shù)手段對金融敏感信息、輿論情況、政策解讀反響等進(jìn)行實(shí)時(shí)監(jiān)測、分析,全面覆蓋公共新聞網(wǎng)站、行業(yè)網(wǎng)站、微博、博客、論壇、貼吧等信息平臺,在第一時(shí)間捕獲相關(guān)輿情,并及時(shí)發(fā)送分析報(bào)告,合理引導(dǎo)市場預(yù)期。(三)初步實(shí)踐與嘗試。我們以某地區(qū)2015年1月至2016年10月涉外支出數(shù)據(jù)為例,對其與CNH、CNY進(jìn)行了回歸分析。1.涉外支出與CNY回歸分析回歸預(yù)估方程為:涉外支出(億美元)=-52.15CNY+530.17。但P值為0.4912(一般認(rèn)為P<0.05時(shí)通過顯著性檢驗(yàn)),表明CNY與涉外支出無明顯關(guān)系。2.涉外支出與CNH回歸分析回歸預(yù)估方程為:涉外支出(億美元)=-24.05CNH+349.82。但P值為0.7526,表明CNH與涉外支出無明顯相關(guān)關(guān)系。3.涉外支出與CNY、CNH回歸分析回歸預(yù)估方程為:涉外支出(億美元)=2466.1CNH-2498.2CNY+364.6。其中CNH、CNY、截距項(xiàng)P值分別為2.3×10-5、1.9×10-5和0.246,表明CNH、CNY與涉外支出有顯著的相關(guān)性,截距項(xiàng)與涉外支出沒有明顯的相關(guān)性,擬合優(yōu)度為0.5897。4.涉外支出與即期交易價(jià)差(CNH-CNY)回歸分析回歸預(yù)估方程為:涉外支出(億美元)=2489.06(CNH-CNY)+157.3,其中P值分別為3.73×10-12和1.38×10-5,表明兩項(xiàng)預(yù)估值的顯著水平均較為理想,擬合優(yōu)度為0.6006。從上述情況可以看出涉外支出與即期交易價(jià)差存在較強(qiáng)的線性關(guān)系,即某地區(qū)涉外支出隨著人民幣價(jià)差(CNH—CNY)的收窄而減小,隨價(jià)差的擴(kuò)大而增加。在知悉若干變量對另一變量存在影響的情況下,可使用該方法分析各自變量與因變量的具體相關(guān)性,逐步求取最優(yōu)模型,獲取變量之間的線性關(guān)系,如:分析匯率與購匯金額之間的關(guān)系;分析產(chǎn)品進(jìn)出口金額、進(jìn)出口量與產(chǎn)品價(jià)格之間的關(guān)系。

四、政策建議

第6篇

關(guān)鍵詞: 深度置信網(wǎng)絡(luò); 深度學(xué)習(xí); 受限波爾茲曼機(jī); 短信

中圖分類號: TN911?34; TP391 文獻(xiàn)標(biāo)識碼: A 文章編號: 1004?373X(2016)09?0037?04

Abstract: To improve the filtering effect of spam SMS, a feature extraction algorithm is proposed to convert SMS content into fixed length vector with word2vec tool by the analysis of Chinese SMS content and structure characteristics. The deep belief nets (DBN) were designed to learn and classify. The experimental results show that the generalization performance is increased by about 5% in comparison with the reported results.

Keywords: deep belief net; deep learning; restricted Boltzmann machine; SMS

0 引 言

每年移動(dòng)運(yùn)營商和國家都花費(fèi)了大量的人力和物力進(jìn)行垃圾短信治理,但公眾還是不滿意治理效果。目前移動(dòng)運(yùn)營商主要采用軟件過濾加人工干預(yù)的治理方式[1?3]。軟件過濾的算法原理主要有3類:有監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)。單純的有監(jiān)督學(xué)習(xí)[4?10]和無監(jiān)督學(xué)習(xí)[11?12]在垃圾短信過濾過程中的效果還是值得肯定的[4?10],但這些學(xué)習(xí)和過濾算法目前已經(jīng)不能適應(yīng)于市場和機(jī)器學(xué)習(xí)環(huán)境,特別是深度學(xué)習(xí)算法理論的完善和應(yīng)用發(fā)展為機(jī)器學(xué)習(xí)提供了廣闊空間[13]。

由于沒有公開的短信素材可以得到,利用以前所做項(xiàng)目收集的大約有300萬條短信作為實(shí)驗(yàn)樣本,該樣本沒有主、被叫號碼、短信時(shí)間等涉及個(gè)人隱私的信息。本文首先提出充分利用word2vec工具,將短信內(nèi)容轉(zhuǎn)化為固定長度向量的特征提取算法;然后設(shè)計(jì)了適合短信過濾的深度置信網(wǎng)絡(luò)對樣本進(jìn)行學(xué)習(xí)和分類。實(shí)驗(yàn)效果表明本文的方法是可行的,這為漢字內(nèi)容分類提供了一種途徑。

1 短信內(nèi)容向量化

按照有關(guān)規(guī)定,需要把短信內(nèi)容分為: 敏感政治信息、黃色信息、商業(yè)廣告信息、違法犯罪信息、詐騙信息、正常信息等6大類(本文分別用zp,ss,sy,sh,sp,qt字母組合表示類名)。分類結(jié)果除了正常信息外,其余信息需要過濾和提交不同部門處理。將短信表示成為向量的過程主要需要三個(gè)步驟:短信預(yù)處理,短信分詞,向量化。

1.1 預(yù)處理

預(yù)處理主要包括非正規(guī)字詞替換(不妨稱為短信內(nèi)容的正規(guī)化過程)。比如:“公$$司*_l@PIAO,酒折優(yōu)惠,歡迎撥打:I39XXXXXXXX”。短信需要根據(jù)系統(tǒng)的諧音庫、拼音庫、繁體庫等標(biāo)準(zhǔn)進(jìn)行內(nèi)容轉(zhuǎn)換。同時(shí)剔除內(nèi)容里面不相關(guān)的符號。結(jié)果這條短信就是“公司開發(fā)票,9折優(yōu)惠,歡迎撥打:139XXXXXXXX”。

假設(shè)所有的短信集合記為[S,]記正規(guī)化過程對應(yīng)的函數(shù)為[f1,]經(jīng)過正規(guī)化處理的短信集合記為[G,]上面的過程可表達(dá)為:[?s∈S,f1(s)∈G。]

1.2 分詞

本文采用中國科學(xué)院計(jì)算技術(shù)研究所ICTCLAS系統(tǒng)(網(wǎng)址:)分詞。在分詞后,如果內(nèi)容包含有數(shù)字,需要按照下面要求處理:

價(jià)格數(shù)字、電話或聯(lián)系號碼數(shù)字、商品數(shù)字、日期時(shí)間數(shù)字、其他數(shù)字等數(shù)字內(nèi)容分別用AA,BB,CC,DD,NN替換。比如:“公司開發(fā)票,9折優(yōu)惠,歡迎撥打:139XXXXXXXX”,分詞的結(jié)果應(yīng)該是:“公司 開 發(fā)票 AA折 優(yōu)惠 歡迎 撥打 BB”。

1.3 向量化

谷歌推出了將詞語轉(zhuǎn)換成詞向量的工具word2vec (https:///p/word2vec/)。工具的主要原理是Bengio模型[14]的一個(gè)改進(jìn)和應(yīng)用,Bengio模型主要理論是:設(shè)句子[S]依次由一系列關(guān)鍵詞[w1,w2,…,wt]組成, [wi]向量化的過程如圖1所示。

短信內(nèi)容向量化算法過程描述如下:

(1) 每類按照一定比例取出大約21 280個(gè)訓(xùn)練樣本。然后將每個(gè)短信正規(guī)化。

(2) 按照1.2節(jié)中的方法把正規(guī)化的短信進(jìn)行分詞(每個(gè)詞語之間空格分隔),并形成如下的7個(gè)文本文件:rubbish.txt,所有樣本的分詞文件;zp.txt,ss.txt,sy.txt,sh.txt,sp.txt,qt.txt分別是敏感政治信息、黃色信息、商業(yè)廣告信息、違法犯罪信息、詐騙信息、正常信息等6大類訓(xùn)練樣本對應(yīng)的分詞文件。

(3) 對rubbish.txt,zp.txt,ss.txt,sy.txt,sh.txt,sp.txt,qt.txt,分別執(zhí)行word2vec指令(格式:word2vec ?train 分詞文件名 ?output 向量化結(jié)果文件名 ?cbow 0 ?size 5 ?window 10 ?negative 0 ?hs 1 ?sample 1e?3 ?threads 2 ?binary 0),分別得到向量化結(jié)果文件rubbish.out,zp.out,ss.out,sy.out,sh.out,sp.out,qt.out。

向量化結(jié)果文件每行是一個(gè)詞語向量。比如: 擔(dān)保0.097 318 0.062 329 -0.068 594 0.087 311 -0.023 715。

(4) 在zp.out,ss.out,sy.out,sh.out,sp.out,qt.out中只保留頻率前20的主關(guān)鍵詞(不包括“AA”,“BB”,“CC”,“DD”,“NN”)的詞語向量,其余刪除。

3 實(shí) 驗(yàn)

考慮到計(jì)算復(fù)雜度和參考文獻(xiàn)的經(jīng)驗(yàn)[19?20],本實(shí)驗(yàn)最終采用有2個(gè)隱層的BP神經(jīng)網(wǎng)絡(luò),首先對BP網(wǎng)絡(luò)的權(quán)值采用DBN算法進(jìn)行訓(xùn)練得到,再采用BP算法對網(wǎng)絡(luò)權(quán)值進(jìn)行微調(diào)。所有結(jié)果用Matlab進(jìn)行仿真實(shí)驗(yàn)。DBN訓(xùn)練部分代碼采用DeepLearnToolbox?master工具包(https:///rasmusbergpalm/DeepLearnToolbox)。

在沒有考慮拒識的情況下,實(shí)驗(yàn)結(jié)果如表1所示,DBN模型的實(shí)驗(yàn)見圖4。其中:qt,sp,sh,ss,zp,sy訓(xùn)練樣本數(shù)目分別是7 416,1 770,3 728,2 590,1 220,4 556;測試樣本數(shù)目分別是14 308,3 672,4 579,6 102,2 553,9 080。需要說明表格中比較對方的方法中只是針對文章用的模型本身和可還原的實(shí)驗(yàn)場景(不能代表文章的全部真實(shí)場景)。

4 結(jié) 論

針對短信分類問題,有下面的結(jié)論:

(1) 兩個(gè)以上的隱層神經(jīng)網(wǎng)絡(luò)的參數(shù)很難選擇,訓(xùn)練時(shí)間比單隱層BP長,即使訓(xùn)練效果好,推廣性能也不一定好,可能使多層BP收斂到局部極值。也就是在考慮BP網(wǎng)絡(luò)中,還是選擇單隱層BP比較好。

(2) DBN+BP網(wǎng)絡(luò)具有更好的訓(xùn)練和推廣性能,因此在選擇多隱層BP網(wǎng)絡(luò)時(shí),最好選擇DBN+BP方式(見圖4)。

(3) 本文中的效果好于表1中其他模型,主要有兩方面原因:首先在選擇特征上,采用了word2vec工具將詞向量化,考慮到了短信中詞的語義特征和統(tǒng)計(jì)特征;其次選擇DBN+BP模型,將監(jiān)督和非監(jiān)督學(xué)習(xí)有機(jī)結(jié)合起來,提高了學(xué)習(xí)效率和精度。

(4) 為了提高效果,接下來的工作需要在DBN最后層的設(shè)計(jì)上不局限于BP網(wǎng)絡(luò);研究以單個(gè)漢字為單元的向量化對分類結(jié)果的影響;其他深度學(xué)習(xí)模型對效果的影響等理論上探討。

(5) 在實(shí)際應(yīng)用過程中,特征可以把黑白手機(jī)名單、主叫、被叫、發(fā)送時(shí)間因素考慮上,同時(shí)分類器增加拒識率因素,還可以提高正確識別率。

參考文獻(xiàn)

[1] 何蔓微,袁銳,劉建勝,等.垃圾短信的智能識別和實(shí)時(shí)處理[J].電信科學(xué),2008(8):61?64.

[2] 李海波,許建明.垃圾短信的現(xiàn)狀及過濾技術(shù)研究[J].硅谷,2011(24):110.

[3] 周冰.垃圾短信過濾技術(shù)與應(yīng)用[J].中國新通信,2014(6):78.

[4] 秦建,孫秀鋒,吳春明.“垃圾短信”監(jiān)控的中文多模式模糊匹配算法[J].西南大學(xué)學(xué)報(bào)(自然科學(xué)版),2013,35(3):168?172.

[5] 李輝,張琦,盧湖川.基于內(nèi)容的垃圾短信過濾[J].計(jì)算機(jī)工程,2008,34(12):154?156.

[6] 張永軍,劉金嶺.基于特征詞的垃圾短信分類器模型[J].計(jì)算機(jī)應(yīng)用,2013,33(5):1334?1337.

[7] 李慧,葉鴻,潘學(xué)瑞,等.基于SVM 的垃圾短信過濾系統(tǒng)[J].計(jì)算機(jī)安全,2012,13(6):34?38.

[8] 馮鷗鵬.垃圾短信過濾中字特征與詞特征對過濾效果的比較研究[D].北京:北京郵電大學(xué), 2011.

[9] 徐易.基于短文本的分類算法研究[D].上海:上海交通大學(xué),2010.

[10] 萬曉楓,惠孛.基于貝葉斯分類法的智能垃圾短信過濾系統(tǒng)[J].實(shí)驗(yàn)科學(xué)與技術(shù),2013,11(5):44?47.

[11] 鄭文超,徐鵬.利用word2vec對中文詞進(jìn)行聚類的研究[J].軟件,2013,34(12):160?162.

[12] LE Q V. Building high?level features using large scale unsupervised learning [C]// Proceedings of 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. Vancouver: IEEE, 2013: 8595?8598.

[13] SCHMIDHUBER J. Deep learning in neural networks: an overview [J]. Neural networks the official journal of the international neural network society, 2014, 61: 85?117.

[14] BENGIO Y, SCHWENK H, SEHECAO J S, et a1. A neural probabilistic language model [J]. Journal of machine learning research, 2003, 3(6): 1137?1155.

[15] MIKOLOV T, CHEN K, CORRADO G, et a1. Efficient estimation of word representations in vector space [C]// Procee?dings of 2013 ICLR Workshop. [S.l.: s.n.], 2013: 1?12.

[16] HINTON G, OSINDERO S, TEH Y. A fast learning algorithm for deep belief nets [J]. Neural computation, 2006, 18(7): 1527?1554.

[17] TIELEMAN T. Training restricted Boltzmann machines using approximations to the likelihood gradient [C]// Proceedings of 2008 the 25th International Conference on Machine Learning. [S.l.]: ACM, 2008: 1064?1071.

[18] 劉建偉,劉媛,羅雄麟.玻爾茲曼機(jī)研究進(jìn)展[J].計(jì)算機(jī)研究與發(fā)展,2014,51(1):1?16.

[19] HUANG S C, HUANG Y F. Bounds on the number of hidden neurons in multilayer perceptrons [J]. IEEE transactions on neural networks, 1991, 21(1): 47?55.

第7篇

關(guān)鍵詞:農(nóng)業(yè)病蟲害;數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;Apriori算法;決策規(guī)則

中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:0439-8114(2014)01-0203-03

Agriculture Disease Diagnosis Based on Improved Apriori Algorithm

MA Dong-lai1,ZHANG Wen-jing2a,QU Yun2b

(1. Hebei Software Institute, Baoding 071000,Hebei, China; 2a. College of Information Science & Technology;

2b. Academic Affairs Office, Agricultural University of Hebei, Baoding 071001, Hebei, China)

Abstract: The basic method of Apriori algorithm was introduced and modified in the three aspects including data item establishment, frequent item sets connection and the rule generation. Decision rule was set up for diagnosing drop diseases by the improved algorithm.

Key words: crop diseases and pests; data mining; association rule; Apriori algorithm; decision rule

收稿日期:2013-05-10

基金項(xiàng)目:河北省教育廳資助科研項(xiàng)目(Q2012139);2011年度河北農(nóng)業(yè)大學(xué)青年科學(xué)基金項(xiàng)目(qj201238)

作者簡介:馬冬來(1981-),男(回族),河北保定人,講師,碩士,主要從事人工智能方面的研究,(電話)13513220212(電子信箱)。

農(nóng)業(yè)病蟲害是影響農(nóng)作物產(chǎn)量的一個(gè)重要因素。中國是農(nóng)業(yè)大國,據(jù)統(tǒng)計(jì),農(nóng)作物受病蟲害的影響每年可造成15%~25%的經(jīng)濟(jì)損失[1]。因此,農(nóng)業(yè)病蟲害的診斷與防治對農(nóng)業(yè)和經(jīng)濟(jì)的發(fā)展具有重要意義[2]。一直以來,對農(nóng)作物病害的診斷往往是依靠農(nóng)民或?qū)<业慕?jīng)驗(yàn)并結(jié)合多種檢測手段進(jìn)行。由于一些病蟲害的差異細(xì)微,很容易造成誤診。不同種類的致病病原物會(huì)使農(nóng)作物的葉部呈現(xiàn)不同的病斑形狀。因此,在病害診斷中可將葉部病斑作為農(nóng)作物病害的一個(gè)重要特征,對農(nóng)作物的病害進(jìn)行診斷[3]。

數(shù)據(jù)挖掘又稱為數(shù)據(jù)庫中知識發(fā)現(xiàn)(Knowledge Discovery from Database,簡稱KDD),是一種決策支持過程[4,5]。利用數(shù)據(jù)挖掘技術(shù),可以在大量的農(nóng)業(yè)數(shù)據(jù)中進(jìn)行深層次的數(shù)據(jù)信息的分析,從而獲得農(nóng)作物病蟲害產(chǎn)生的原因及環(huán)境等因素之間隱藏的內(nèi)在聯(lián)系,對于有效識別及預(yù)防農(nóng)作物病蟲害具有重要意義[6]。

1 Apriori算法

關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘的一個(gè)重要領(lǐng)域,其目的是發(fā)現(xiàn)隱藏在數(shù)據(jù)庫中的各數(shù)據(jù)項(xiàng)集間深層次的關(guān)聯(lián)關(guān)系,分析出潛在的行為模式[7]。例如利用Apriori算法對大量的商品銷售記錄進(jìn)行挖掘,可以發(fā)現(xiàn)不同商品之間存在的有價(jià)值的關(guān)聯(lián)關(guān)系。商家結(jié)合這些關(guān)系對商品目錄及擺放位置進(jìn)行設(shè)計(jì)可以提高銷售額,還可以進(jìn)行相關(guān)的商業(yè)決策[8]。Agrawal等[9]提出了挖掘關(guān)聯(lián)規(guī)則的Apriori算法,其核心是基于兩階段頻集思想的遞推算法。在Apriori算法中,關(guān)聯(lián)規(guī)則的挖掘分為兩步:利用候選項(xiàng)集生成頻繁項(xiàng)集,頻繁項(xiàng)集滿足“支持度大于最小支持度閾值”。利用最終的頻繁大項(xiàng)集生成關(guān)聯(lián)規(guī)則,規(guī)則滿足“置信度大于最小置信度”。其中的最小支持度閾值和最小置信度閾值都由用戶事先設(shè)定。

2 Apriori算法的改進(jìn)

經(jīng)典Apriori算法挖掘出的關(guān)聯(lián)規(guī)則一般滿足“A∧B∧C->D∧E”的模式。這些關(guān)聯(lián)規(guī)則側(cè)重于描述數(shù)據(jù)庫中的一組對象之間相互的關(guān)聯(lián)關(guān)系。而在農(nóng)業(yè)病蟲害診斷的實(shí)際應(yīng)用中,需要的是形如“A∧B∧C∧D->E”的規(guī)則。即根據(jù)A、B、C、D等的病害特征,可以推導(dǎo)出所患病害的種類。這就需要對經(jīng)典的Apriori算法進(jìn)行一些改動(dòng)。

表1是由歷史經(jīng)驗(yàn)取得的一組關(guān)于某種農(nóng)作物病害的數(shù)據(jù)。以這組數(shù)據(jù)為例,介紹利用改進(jìn)后的Apriori算法對農(nóng)業(yè)病害進(jìn)行診斷的方法。

2.1 建立挖掘數(shù)據(jù)項(xiàng)

表1中每種病害的屬性下都有幾個(gè)不同的屬性值。如屬性“病斑顏色”共有“黑褐色病斑”、“粉紅色病斑”和“褐色病斑”3個(gè)屬性值。根據(jù)具體的病害數(shù)據(jù)的特點(diǎn),將算法挖掘的數(shù)據(jù)項(xiàng)設(shè)置成“屬性.屬性值”的形式。各數(shù)據(jù)項(xiàng)的屬性對照表如表2。

結(jié)合屬性對照表,可將表1中原始的農(nóng)業(yè)病害數(shù)據(jù)轉(zhuǎn)換為適合挖掘的數(shù)據(jù)表(表3)。

2.2 挖掘頻繁項(xiàng)集

Apriori算法利用兩個(gè)頻繁(k-1)項(xiàng)集連接生成新的頻繁k項(xiàng)集,前提是,這兩個(gè)頻繁(k-1)項(xiàng)集的前(k-2)項(xiàng)相同。如對于頻繁3項(xiàng)集“1.3,2.2,3.2”和“1.3,2.2,3.3”,按照連接規(guī)則,應(yīng)該生成新的候選4-項(xiàng)集“1.3,2.2,3.2,3.3”。根據(jù)表2,可知3.2和3.3是屬性“病斑形狀”的兩種不同取值(“半圓形”和“不規(guī)則”)。即項(xiàng)集3.2和3.3是互斥的關(guān)系,不可能共存。因此,對這種情況不進(jìn)行連接。按照這種新的連接規(guī)則,對于表3的農(nóng)業(yè)病害數(shù)據(jù)庫進(jìn)行挖掘,再經(jīng)過最小支持度10%的篩選,最終得到的為頻繁5-項(xiàng)集(表4)。

2.3 生成診斷規(guī)則

找出最大頻繁項(xiàng)集之后,Apriori便開始生成關(guān)聯(lián)規(guī)則。具體方法是:生成頻繁項(xiàng)集L的所有非空子集,并依次計(jì)算每個(gè)非空子集S的置信度。若置信度不小于用戶事先設(shè)定的最小置信度閾值,則生成一個(gè)關(guān)聯(lián)規(guī)則“S->(L-S)”。如對頻繁項(xiàng)集“1.1,2.1,3.1,4.1,5.1”可以生成規(guī)則“1.1∧2.1∧3.1->4.1∧5.1”,這樣,規(guī)則的右端也是多個(gè)屬性的集合。這種關(guān)聯(lián)規(guī)則側(cè)重于描述多個(gè)屬性項(xiàng)之間的關(guān)聯(lián)關(guān)系,而非一個(gè)可以推導(dǎo)出結(jié)論的決策規(guī)則。

在農(nóng)業(yè)病害診斷中,單單幾個(gè)病害屬性間的關(guān)聯(lián)關(guān)系是沒有實(shí)際意義的,需要挖掘出一個(gè)可以幫助專家進(jìn)行病害診斷的決策規(guī)則。即形似“A∧B∧C->D”的規(guī)則。按照這種需求,首先對于類別屬性“病害名稱”(即5.1,5.2,5.3)只能出現(xiàn)在規(guī)則的右端;其次在規(guī)則的右端,除了“病害名稱”屬性之外,不能再出現(xiàn)其他的屬性。只有同時(shí)滿足這兩個(gè)條件的規(guī)則才是有意義的。

按照這一要求,在產(chǎn)生規(guī)則時(shí),只需計(jì)算除“病害名稱”屬性之外的子集的置信度(保證規(guī)則的右端L-S為“病害名稱”)。如,對挖掘出的頻繁5-項(xiàng)集“1.1,2.1,3.1,4.1,5.1”,只計(jì)算除去“病害名稱”屬性5.1的所有子集的置信度,再按照“置信度不小于最小置信度閾值”的條件進(jìn)行篩選,最后生成的決策規(guī)則如表5。

將表5和屬性對照表(表2)對照后,可轉(zhuǎn)換成直觀的規(guī)則,如表6所示。這樣專家就可以結(jié)合表6對農(nóng)作物的具體病害做出一個(gè)更為準(zhǔn)確的判斷。

3 小結(jié)

農(nóng)作物病害的診斷具有重要的經(jīng)濟(jì)意義。利用數(shù)據(jù)挖掘技術(shù),按病害部位、病害特征等屬性對大量的數(shù)據(jù)進(jìn)行分析,可以驗(yàn)證已知的經(jīng)驗(yàn)規(guī)律,揭示出未知的隱藏信息。進(jìn)一步將其模型化,可以挖掘出隱藏的農(nóng)作物病蟲害的發(fā)病特征、變異等信息,帶來巨大的社會(huì)效益和經(jīng)濟(jì)效益。

另外,利用改進(jìn)的Apriori算法還可以挖掘出醫(yī)學(xué)等其他領(lǐng)域的決策規(guī)則,并可以建立各種知識庫,建立專家系統(tǒng),拓展關(guān)聯(lián)規(guī)則Apriori算法的應(yīng)用范圍。

參考文獻(xiàn):

[1] 劉乃森,劉福霞.人工神經(jīng)網(wǎng)絡(luò)及其在植物保護(hù)中的應(yīng)用[J].安徽農(nóng)業(yè)科學(xué),2006,34(23):6237-6238.

[2] 黃光明.Apriori算法在農(nóng)業(yè)病蟲害分析中的應(yīng)用[J].安徽農(nóng)業(yè)科學(xué),2009,37(13):6028-6029.

[3] 金海月,宋 凱.決策樹算法在農(nóng)業(yè)病害診斷中的應(yīng)用[J].當(dāng)代農(nóng)機(jī),2007(5):76-77.

[4] 張永賓.DM在分析客戶忠誠度的應(yīng)用[J].商場現(xiàn)代化,2008(34):38-39.

[5] 李 斗,李弼程.一種神經(jīng)網(wǎng)絡(luò)文本分類器的設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)工程與應(yīng)用,2005(17):107-109.

[6] 謝艷新.數(shù)據(jù)挖掘技術(shù)在水稻病蟲害系統(tǒng)中的設(shè)計(jì)與實(shí)現(xiàn)[J]. 湖北農(nóng)業(yè)科學(xué),2011,50(11):2340-2342.

[7] 謝宗毅.關(guān)聯(lián)規(guī)則挖掘Apriori算法的研究與改進(jìn)[J].杭州電子科技大學(xué)學(xué)報(bào),2006,26(3):78-82.

第8篇

關(guān)鍵詞:電力設(shè)備檢修;文本數(shù)據(jù);文本挖掘;大數(shù)據(jù)挖掘

隨著信息化的快速發(fā)展,國家電網(wǎng)公司各專業(yè)積累的數(shù)據(jù)量越來越龐大。龐大數(shù)據(jù)的背后,由于數(shù)據(jù)結(jié)構(gòu)和存儲方式的多樣化以及電力系統(tǒng)內(nèi)部不同專業(yè)從業(yè)者的知識面層次不齊等,其中被利用的數(shù)據(jù)只占少量的部分,造成大量的有價(jià)值數(shù)據(jù)被浪費(fèi)。在被浪費(fèi)的數(shù)據(jù)中,以文本形式存在的數(shù)據(jù)占很大比重,如何從比較復(fù)雜的文本數(shù)據(jù)中獲得需要的數(shù)據(jù)受到國家電網(wǎng)公司的普遍關(guān)注。國家電網(wǎng)公司經(jīng)過SG186、三集五大等大型信息化工程的建設(shè),積累了海量的業(yè)務(wù)數(shù)據(jù),其中包括大量的文本數(shù)據(jù)。目前,國家電網(wǎng)公司對業(yè)務(wù)數(shù)據(jù)的利用主要集中在結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)計(jì)和分析,這些方法無法直接應(yīng)用在非結(jié)構(gòu)化文本數(shù)據(jù)中,更無法對其中隱含的價(jià)值規(guī)律進(jìn)行深度分析挖掘。針對非結(jié)構(gòu)化文本數(shù)據(jù)量不斷增大、業(yè)務(wù)應(yīng)用范圍不斷擴(kuò)大這一現(xiàn)狀,為了提升國家電網(wǎng)公司企業(yè)運(yùn)營管理精益化水平,需要進(jìn)一步挖掘非結(jié)構(gòu)化數(shù)據(jù)中潛在的數(shù)據(jù)價(jià)值。因此,開展電力大數(shù)據(jù)文本數(shù)據(jù)挖掘技術(shù)應(yīng)用場景和一般流程的研究顯得尤為重要[1]。

1非結(jié)構(gòu)化數(shù)據(jù)概述

與結(jié)構(gòu)化數(shù)據(jù)(能夠用二維表結(jié)構(gòu)遵循一定的邏輯語法進(jìn)行體現(xiàn)的數(shù)據(jù))相比,非結(jié)構(gòu)化數(shù)據(jù)不能在數(shù)據(jù)庫中采用二維結(jié)構(gòu)邏輯形式來表示,這些形式主要有Word文檔、文本、圖片、標(biāo)準(zhǔn)通用標(biāo)記語言下的子集XML、HTML、Excel報(bào)表、PPT、Audio、Video、JPG、BMP等。半結(jié)構(gòu)化數(shù)據(jù)處于完全結(jié)構(gòu)化數(shù)據(jù)(邏輯型、關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù))和完全無結(jié)構(gòu)化數(shù)據(jù)(BMP、JPG、Video文件)中間,它一般的功能是對系統(tǒng)文件的描述,如系統(tǒng)應(yīng)用幫助模塊,有一定的邏輯結(jié)構(gòu),同時(shí)也包含數(shù)據(jù)格式,兩者相融在一起,比較均衡,沒有明顯的界限[2]。進(jìn)入21世紀(jì)后,網(wǎng)絡(luò)技術(shù)飛速發(fā)展,特別是內(nèi)聯(lián)網(wǎng)和因特網(wǎng)技術(shù)取得突飛猛進(jìn)的發(fā)展,各類非結(jié)構(gòu)數(shù)據(jù)類型格式日益增多,以往的數(shù)據(jù)庫主要用于管理結(jié)構(gòu)化數(shù)據(jù),對于非結(jié)構(gòu)化數(shù)據(jù)的管理稍顯乏力,為了適應(yīng)非結(jié)構(gòu)數(shù)據(jù)的迅猛發(fā)展,數(shù)據(jù)庫的革新勢在必行,在內(nèi)聯(lián)網(wǎng)和因特網(wǎng)技術(shù)的基礎(chǔ)上,對數(shù)據(jù)庫的內(nèi)在結(jié)構(gòu)進(jìn)行改進(jìn)和創(chuàng)新,使其能夠兼容和處電力信息與通信技術(shù)2016年第14卷第1期8電力大數(shù)據(jù)技術(shù)理非結(jié)構(gòu)數(shù)據(jù)形式。北京國信貝斯是我國非結(jié)構(gòu)化數(shù)據(jù)庫開發(fā)和設(shè)計(jì)的領(lǐng)軍者,其旗下開發(fā)的IBase數(shù)據(jù)庫能夠兼容和處理目前市面上存在的各種文件名、格式、多媒體信息,能夠基于內(nèi)聯(lián)網(wǎng)和互聯(lián)網(wǎng)對海量信息進(jìn)行搜索、管理,技術(shù)已經(jīng)達(dá)到全球領(lǐng)先水平。

2文本挖掘技術(shù)

2.1文本挖掘

文本挖掘的對象是用自然語言描述的語句、論文、Web頁面等非結(jié)構(gòu)化文本信息,這類信息無法使用結(jié)構(gòu)化數(shù)據(jù)的挖掘方法進(jìn)行處理;文本挖掘指通過對單個(gè)詞語和語法的精準(zhǔn)分析,通過分析結(jié)構(gòu)在海量的非結(jié)構(gòu)化數(shù)據(jù)中檢索意思相近的詞語、句子或者信息[3]。

2.2文本挖掘流程

挖掘流程如圖1所示。圖1挖掘流程Fig.1Miningprocedure1)文本預(yù)處理:把與任務(wù)直接關(guān)聯(lián)的信息文本轉(zhuǎn)化成可以讓文本挖掘工具處理的形式,這個(gè)過程分3步:分段;預(yù)讀文本,把文本特征展現(xiàn)出來;特征抽取。2)文本挖掘:完成文本特征抽取后,通過智能機(jī)器檢索工具識別符合主題目標(biāo)的文段信息,在海量信息或者用戶指定的數(shù)據(jù)域中搜索與文本預(yù)處理后得出的文本特征相符或相近的數(shù)據(jù)信息,然后通過進(jìn)一步識別和判斷,達(dá)到精確檢索的目的,這是一個(gè)非常復(fù)雜的過程,縱跨了多個(gè)學(xué)科,包括智能技術(shù)、信息技術(shù)、智能識別技術(shù)、非結(jié)構(gòu)數(shù)據(jù)庫技術(shù)、可視化技術(shù)、預(yù)處理技術(shù)、讀碼技術(shù)等。3)模式評估:模式評估是用戶根據(jù)自己的需求主題設(shè)置符合自己需求主題或目標(biāo)的模式,把挖掘到的文本或信息與自己設(shè)置的模式進(jìn)行匹配,如果發(fā)現(xiàn)符合主題要求,則存儲該數(shù)據(jù)和模式以方便用戶調(diào)用,如果不符合,則跳轉(zhuǎn)回原來的環(huán)節(jié)進(jìn)行重新檢索,然后進(jìn)行下一個(gè)匹配過程的模式評估。

2.3文本挖掘技術(shù)分析

解決非結(jié)構(gòu)化文本挖掘問題,現(xiàn)階段主要有2種方法:一是探索新型的數(shù)據(jù)挖掘算法以準(zhǔn)確挖掘出相應(yīng)的非結(jié)構(gòu)化數(shù)據(jù)信息,基于數(shù)據(jù)本身所體現(xiàn)的復(fù)雜特性,使得算法的實(shí)施愈加困難;二是把非結(jié)構(gòu)化問題直接轉(zhuǎn)換成結(jié)構(gòu)化,通過實(shí)施相應(yīng)的數(shù)據(jù)挖掘技術(shù)達(dá)到挖掘目的。而在語義關(guān)系方面,就要應(yīng)用到特定的語言處理成果完成分析過程。下文是根據(jù)文本挖掘的大致流程來介紹其所用到的相關(guān)技術(shù)。

2.3.1數(shù)據(jù)預(yù)處理技術(shù)

文本數(shù)據(jù)預(yù)處理技術(shù)大致可分為分詞技術(shù)、特征表示以及特征提取法。1)分詞技術(shù)主要有兩大類:一種為針對詞庫的分詞算法;另一種為針對無詞典的分詞技術(shù)。前者主要包含正向最大/小匹配和反向匹配等。而后者的基礎(chǔ)思路為:在統(tǒng)計(jì)詞頻的基礎(chǔ)上,把原文中緊密相連的2個(gè)字當(dāng)作一個(gè)詞來統(tǒng)計(jì)其出現(xiàn)的次數(shù),若頻率較高,就有可能是一個(gè)詞,當(dāng)該頻率達(dá)到了預(yù)設(shè)閾值,就可把其當(dāng)作一個(gè)詞來進(jìn)行索引。2)特征表示通常是把對應(yīng)的特征項(xiàng)作為本文的標(biāo)示,在進(jìn)行文本挖掘時(shí)只需要處理相對應(yīng)的特征項(xiàng),就能完成非結(jié)構(gòu)化的文本處理,直接實(shí)現(xiàn)結(jié)構(gòu)化轉(zhuǎn)換目的。特征表示的建立過程實(shí)際上就是挖掘模型的建立過程,其模型可分為多種類型,如向量空間模型與概率型等[5]。3)特征提取法通常是建立起特定的評價(jià)函數(shù),以此評價(jià)完所有特征,然后把這些特征依照評價(jià)值的高低順序進(jìn)行排列,將評價(jià)值最高項(xiàng)作為優(yōu)選項(xiàng)。在實(shí)際文本處理過程中所應(yīng)用的評價(jià)函數(shù)主要包括信息增益、互信息以及詞頻等。

2.3.2挖掘常用技術(shù)

從文本挖掘技術(shù)的研究和應(yīng)用情況來看,在現(xiàn)有的文本挖掘技術(shù)類別中應(yīng)用較為廣泛的主要包括文本分類、自動(dòng)文摘以及文本聚類[4-5]。1)文本分類。文本分類是給機(jī)器添加相應(yīng)的分類模型,當(dāng)用戶閱讀文本時(shí)能夠更為便捷,在搜索文本信息時(shí),能夠在所設(shè)定的搜索范圍內(nèi)快速和準(zhǔn)確的獲取。用于文本分類的算法較多,主要有決策樹、貝葉斯分類、支持向量機(jī)(SVM)、向量空間模型(VectorSpaceModel,VSM)、邏輯回歸(LogisticRegression,LR)以及神經(jīng)網(wǎng)絡(luò)等。2)自動(dòng)文摘。自動(dòng)文摘是通過計(jì)算機(jī)技術(shù)智能的把原文的中心內(nèi)容濃縮成簡短、連續(xù)的文字段落,以此來盡可能地降低用戶閱讀的文本信息量。3)文本聚類。文本聚類與文本分類的作用大抵相同,所實(shí)施的過程有所區(qū)別。文本聚類是將內(nèi)容相近的文本歸到同個(gè)類別,盡可能地區(qū)分內(nèi)容不同的文本。其標(biāo)準(zhǔn)通常可以依照文本屬性或者文本內(nèi)容來進(jìn)行聚類。聚類方法大致可分為平面劃分法與層次聚類法。另外,除了上述常用的文本挖掘技術(shù),許多研究還涉及關(guān)聯(lián)分析、分布預(yù)測分析和結(jié)構(gòu)分析等。

2.3.3文本挖掘系統(tǒng)模式評估方法

數(shù)據(jù)挖掘系統(tǒng)的評估是至關(guān)重要的,現(xiàn)在已有大量的研究來衡量這一標(biāo)準(zhǔn),以下是公認(rèn)的評估方法。1)查全率和查準(zhǔn)率。查全率代表實(shí)際被檢出的文本的百分比;查準(zhǔn)率是所檢索到的實(shí)際文本與查詢相關(guān)文本的百分比。2)冗余度和放射性。冗余度表示信息抽取中冗余的程度;放射性表示一個(gè)系統(tǒng)在抽取事實(shí)不斷增多時(shí)產(chǎn)生錯(cuò)誤的趨勢。最低的冗余度和放射性是系統(tǒng)追求的最終目標(biāo)。3)雙盲測試。先用機(jī)器生成一組輸出結(jié)果,再由相關(guān)專家產(chǎn)生一組輸出結(jié)果,然后混合2組輸出結(jié)果,這種混合后的輸出集再交給另一些相關(guān)專家進(jìn)行驗(yàn)證,讓他們給予準(zhǔn)確性方面的評估。

3電力行業(yè)文本挖掘可研究實(shí)例

文本挖掘技術(shù)在國內(nèi)電力行業(yè)屬于新興的前沿領(lǐng)域,對從業(yè)人員的素質(zhì)要求相對比較高。由于現(xiàn)階段知識和技術(shù)層面上匱乏,國家電網(wǎng)幾乎沒有關(guān)于此方面的項(xiàng)目實(shí)施。本節(jié)通過2個(gè)電力運(yùn)營監(jiān)測業(yè)務(wù)的應(yīng)用需求,初步探討文本挖掘的建模過程。

3.1電力運(yùn)營監(jiān)測業(yè)務(wù)應(yīng)用需求

1)檢修資金投入工作效能分析場景分析。大檢修和技改是保障電網(wǎng)安全的重要工作。由于運(yùn)檢業(yè)務(wù)系統(tǒng)的數(shù)據(jù)質(zhì)量問題,通過對量化數(shù)據(jù)的統(tǒng)計(jì),無法準(zhǔn)確掌握大修、技改資金投入的工作效能情況。但設(shè)備的實(shí)際運(yùn)行狀態(tài)可以通過文本類故障記錄、運(yùn)行日志等進(jìn)行反映,因此,采用文本挖掘技術(shù)對檢修工作效能進(jìn)行分析與可視化展現(xiàn),同時(shí)結(jié)合傳統(tǒng)的統(tǒng)計(jì)方法,實(shí)現(xiàn)對大修技改資金投入工作效能的分析和監(jiān)測。例如,可以通過分析歷年的故障記錄信息,反映出每年主要故障變化情況,進(jìn)而結(jié)合每年大修技改資金投入情況,分析資金投入是否與預(yù)期目標(biāo)相一致。2)家族缺陷識別分析。家族缺陷是指同一廠家生產(chǎn)的同一型號、同一批次的設(shè)備在運(yùn)行過程中出現(xiàn)了相同或相似的缺陷。家族缺陷識別分析是通過對運(yùn)行記錄、故障記錄等設(shè)備運(yùn)行文本信息的挖掘和可視化分析,對設(shè)備家族缺陷進(jìn)行識別。該場景既可以輔助基層業(yè)務(wù)人員對家族缺陷進(jìn)行準(zhǔn)確判斷,同時(shí)可以作為一種輔助手段為總部專家判定家族缺陷提供參考,從而實(shí)現(xiàn)對家族缺陷辨識方式的優(yōu)化,并基于此為檢修計(jì)劃制定、廠商評價(jià)、采購建議等提供決策支撐。

3.2文本分析建模過程

第1步:將原始的非結(jié)構(gòu)化數(shù)據(jù)源轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),分析文本集合中各個(gè)文本之間共同出現(xiàn)的模式;匯總與家族缺陷相關(guān)的所有文檔,形成原始數(shù)據(jù)源的集合。第2步:對原始數(shù)據(jù)源的集合進(jìn)行分詞處理,建立特征集,使用詞頻/逆文檔頻率(TermFrequency-InverseDocumentFrequency,TF/IDF)權(quán)值計(jì)算方法得到各個(gè)點(diǎn)的維度權(quán)值,判斷關(guān)鍵字的詞頻,例如“主變1號”運(yùn)行記錄中多次出現(xiàn),但在故障記錄中很少出現(xiàn),那么認(rèn)為“主變1號”有很好的類別區(qū)分能力。第3步:對分詞后的文檔建立索引,匯總所有文檔的索引形成索引庫,并對索引庫排序。第4步:文檔向量化;構(gòu)建向量空間模型,將文檔表達(dá)為一個(gè)矢量,看作向量空間中的一個(gè)點(diǎn);實(shí)際分析過程中對多維數(shù)據(jù)首先將其降低維度,降低維度后得到一個(gè)三維空間模型,文檔向量化生成文檔特征詞對應(yīng)表、文檔相似度表。第5步:結(jié)合業(yè)務(wù)實(shí)際,對相似度較高的表中出現(xiàn)的關(guān)鍵字進(jìn)行比對,例如:“主變1號”、“停電故障”等關(guān)鍵字在多個(gè)日志中頻繁出現(xiàn),則該文檔所記錄的相關(guān)設(shè)備存在異常的可能性較大。

3.3文本分析應(yīng)用及成效

對生產(chǎn)信息管理系統(tǒng)中報(bào)缺單數(shù)據(jù)中的報(bào)缺單名稱進(jìn)行文本聚類,實(shí)現(xiàn)對缺陷的細(xì)分,進(jìn)而對各類別在非聚類變量上進(jìn)行分析,得出各類別的缺陷特征。經(jīng)過近一年以來在國網(wǎng)遼寧電力公司的逐步應(yīng)用,科學(xué)的分析挖掘出缺陷主要集中在開關(guān)、主變、指示燈、直流、冷卻器、調(diào)速器等設(shè)備,主要出現(xiàn)啟呂旭明(1981–),男,河北保定人,高級工程師,從事電力企業(yè)信息化、智能電網(wǎng)及信息安全研究與應(yīng)用工作;雷振江(1976–),男,遼寧沈陽人,高級工程師,從事電力信息化項(xiàng)目計(jì)劃、重點(diǎn)項(xiàng)目建設(shè)、信息技術(shù)研究與創(chuàng)新應(yīng)用、信息化深化應(yīng)用等相關(guān)工作;趙永彬(1975–),男,遼寧朝陽人,高級工程師,從事電力信息通信系統(tǒng)調(diào)度、運(yùn)行、客服及信息安全等相關(guān)工作;由廣浩(1983–),男,遼寧遼陽人,工程師,從事信息網(wǎng)絡(luò)建設(shè)、信息安全等工作。作者簡介:動(dòng)、漏水、停機(jī)、滲水等缺陷現(xiàn)象。公司故障處理快速響應(yīng)、及時(shí)維修、提高供電質(zhì)量和服務(wù)效率得到了顯著的提升。電力設(shè)備故障缺陷特征示意如圖2所示。

4結(jié)語

國家電網(wǎng)文本挖掘的目的是從海量數(shù)據(jù)中抽取隱含的、未知的、有價(jià)值的文本數(shù)據(jù),利用數(shù)據(jù)挖掘技術(shù)處理電力公司文本數(shù)據(jù),將會(huì)給企業(yè)帶來巨大的商業(yè)價(jià)值。本文提出的關(guān)于檢修資金投入工作效能分析和家族缺陷識別分析2個(gè)文本挖掘?qū)嵗皇俏谋就诰蛟陔娏π袠I(yè)應(yīng)用的一角。如今,數(shù)據(jù)挖掘技術(shù)與電力行業(yè)正處于快速發(fā)展階段,文本挖掘的應(yīng)用將越來越廣泛。下一階段的研究目標(biāo)是探尋有效辦法將數(shù)據(jù)挖掘技術(shù)融入到文本挖掘領(lǐng)域的實(shí)際應(yīng)用中,使得國家電網(wǎng)文本挖掘項(xiàng)目得以順利實(shí)施,并達(dá)到預(yù)期成效。

作者:呂旭明 雷振江 趙永彬 由廣浩 單位:國網(wǎng)遼寧省電力有限公司 國網(wǎng)遼寧省電力有限公司 信息通信分公司

參考文獻(xiàn):

[1]費(fèi)爾德曼.文本挖掘(英文版)[M].北京:人民郵電出版社,2009.

[2]孫濤.面向半結(jié)構(gòu)化的數(shù)據(jù)模型和數(shù)據(jù)挖掘方法研究[D].吉林:吉林大學(xué),2010.

[3]胡健,楊炳儒,宋澤鋒,等.基于非結(jié)構(gòu)化數(shù)據(jù)挖掘結(jié)構(gòu)模型的Web文本聚類算法[J].北京科技大學(xué)學(xué)報(bào),2008,30(2):217-220.HUJian,YANGBing-ru,SONGZe-feng,etal.Webtextclusteringalgorithmbasedonnonstructuraldataminingmodel[J].JournalofUniversityofScienceandTechnologyBeijing,2008,30(2):217-220.

第9篇

關(guān)鍵詞:文本挖掘;文本特征表示;特征提取;模式識別

文本挖掘主要完成從大量的文檔中發(fā)現(xiàn)隱含知識和模式的任務(wù),一般處理的對象都是海量、異構(gòu)、分布的文檔。傳統(tǒng)數(shù)據(jù)挖掘所處理的數(shù)據(jù)是結(jié)構(gòu)化存儲于數(shù)據(jù)庫當(dāng)中,而文檔都是半結(jié)構(gòu)或無結(jié)構(gòu)的。所以,文本挖掘面臨的首要問題是如何在計(jì)算機(jī)中表示文本,使之包含足夠的信息反映文本的特征。目前的網(wǎng)絡(luò)信息中80%是以文本的形式存放,Web文本挖掘是Web內(nèi)容挖掘的重要內(nèi)容。

文本的表示與特征提取是文本挖掘領(lǐng)域中的基本問題。目前通常采用向量空間模型生成文本向量來表示非結(jié)構(gòu)化的文本數(shù)據(jù)。但直接通過分詞與詞頻統(tǒng)計(jì)得到的高維度文本向量作為文本表示,不僅給文本理解等后續(xù)任務(wù),比如:文本分類、聚類等,帶來巨大的計(jì)算開銷,且精確也會(huì)受到影響。因此,研究有效的文本特征選擇與壓縮方法來進(jìn)行降維處理,是十分必要的。

目前有P文本表示的研究主要集中在文本表示模型方法與特征選擇算法方面。用于表示文本的基本單位通常稱為文本的特征或特征項(xiàng)。在中文文本中,采用字、詞或短語作為表示文本的特征項(xiàng)。目前大多數(shù)中文文本分類系統(tǒng)都采用詞作為特征項(xiàng)。(但考慮到文本挖掘的不同具體任務(wù),有時(shí)也會(huì)將字或者短語作為特征項(xiàng)。)如果把所有的詞都作為特征項(xiàng),那么其特征向量的維數(shù)將非常高,要高性能地完成文本分類、聚類等文本理解任務(wù)將非常困難。特征提取與壓縮主要是為了保持文本核心信息表達(dá)的同時(shí),盡量降低特征向量的維度,從而提高文本處理的效率。

特征提取主要有如下四種思路:一是用映射或變換的方法把原始特征變換為較少的新特征;二是從原始特征中選取一些最具代表性的特征;三是根據(jù)專家知識選取最有影響的特征;四是用統(tǒng)計(jì)方法找出最具分類信息的特征,這種方法適合于文本分類任務(wù)。下面將從文本特征評估方法、文本特征選擇方法、以及基于領(lǐng)域語義理解的文本特征提取方法等方面,對文本表示與特征提取研究領(lǐng)域現(xiàn)有的研究成果進(jìn)行綜述,然后再展望未來文本特征表示與提取技術(shù)可能的研究熱點(diǎn)。

1 主流基于統(tǒng)計(jì)的文本特征評估方法

1.1 詞頻(TF: Term Frequency)、文檔頻度(DF: Document Frequency)與TFIDF

(1)詞頻(TF: Term Frequency):即一個(gè)詞在文檔中出現(xiàn)的次數(shù)。將詞頻小于某一閾值的詞刪除,從而降低特征空間的維數(shù),完成特征選擇。該方法是基于出現(xiàn)頻率小的詞對文本表達(dá)的貢獻(xiàn)也小這一假設(shè)。但有時(shí)在信息檢索方面,頻率小的詞可能含有更多信息。因此,不宜簡單地根據(jù)詞頻來選擇特征詞。

(2)文檔頻度(DF: Document Frequency):即統(tǒng)計(jì)在整個(gè)數(shù)據(jù)集中有多少個(gè)文檔包含該詞。在訓(xùn)練文本集中對每個(gè)特征詞計(jì)算其文檔頻度,并且根據(jù)預(yù)設(shè)閾值去除那些文檔頻度超高或超低的特征詞。文檔頻度的計(jì)算復(fù)雜度較低,適用于任何語料,常用于語特征降維。

考慮到文檔頻度超高或超低的特征詞分別代表了“代表性弱”或“區(qū)分度低”這兩種極端情況,故而需要?jiǎng)h除。DF 的缺陷是有些稀有詞可能在某一類文本中并不稀有,即可能包含著重要的類別信息,如果舍棄將可能影響分類精度。

(3)TFIDF:它是由Salton在1988 年提出的。其中IDF稱為反文檔頻率,用于計(jì)算該詞區(qū)分文檔的能力。TF*IDF 的基本假設(shè)是在一個(gè)文本中出現(xiàn)很多次的單詞,在另一個(gè)同類文本中出現(xiàn)次數(shù)也會(huì)很多,反之亦然;同時(shí)考慮單詞含有的類別區(qū)分能力,即:認(rèn)為一個(gè)單詞出現(xiàn)的文檔頻率越小,其類別區(qū)分能力越大。

TFIDF算法用于特征詞權(quán)值估計(jì)就是為了突出重要單詞,抑制次要單詞。但I(xiàn)DF的假設(shè)認(rèn)為文本頻數(shù)小的單詞就越重要,文本頻數(shù)大的單詞就越無用,并不能有效地反映單詞的重要程度和特征詞的分布情況,使其無法很好地完成對權(quán)值調(diào)整的功能,導(dǎo)致TFIDF算法法的精度并不是很高。特別是,TFIDF算法中沒有體現(xiàn)出單詞的位置信息對其重要性的影響,對于Web文檔而言,權(quán)重的計(jì)算方法應(yīng)該體現(xiàn)出HTML的結(jié)構(gòu)特征。特征詞在不同的標(biāo)記符中對文章內(nèi)容的反映程度不同,其權(quán)重的計(jì)算方法也應(yīng)不同。因此如何對于在網(wǎng)頁不同位置的特征詞分別賦予不同的系數(shù),然后乘以特征詞的詞頻,以提高文本表示的效果,成為了研究者關(guān)注的熱點(diǎn)。

1.2 統(tǒng)計(jì)詞與類別信息相關(guān)度的文本特征評估方法

互信息:互信息用于衡量某個(gè)詞和某個(gè)類別之間的統(tǒng)計(jì)獨(dú)立關(guān)系。

互信息作為計(jì)算語言學(xué)模型常用分析方法,原是信息論中的概念,用于表示信息之間的關(guān)系,即兩個(gè)隨機(jī)變量統(tǒng)計(jì)相關(guān)性測度。它被用于特征提取是基于如下假設(shè):在某個(gè)特定類別出現(xiàn)頻率高,但在其它類別出現(xiàn)頻率比較低的詞條與該類的互信息比較大。考慮到無需對特征詞和類別之間關(guān)系的性質(zhì)作任何假設(shè),非常適合于文本分類的特征和類別匹配工作。

特征詞和類別的互信息體現(xiàn)了特征詞與類別的相關(guān)程度,被廣泛用于建立詞關(guān)聯(lián)統(tǒng)計(jì)模型。它與期望交叉熵不同,它沒有考慮特征詞出現(xiàn)的頻率,使得互信息評估函數(shù)更傾向于選擇稀有詞而非有效高頻詞作為文本的最佳特征。以互信息作為提取特征值的評估方法時(shí),最終會(huì)選取互信息最大的若干特征詞構(gòu)成文本向量?;バ畔⒂?jì)算的時(shí)間復(fù)雜度平均值等同于信息增益,它不足之處在于權(quán)重受詞條邊緣概率影響較大。當(dāng)訓(xùn)練語料庫沒有達(dá)到一定規(guī)模的時(shí)候,特征空間中必然會(huì)存在大量的出現(xiàn)文檔頻率很低(比如低于3 次)的詞條,而較低的文檔頻率必然導(dǎo)致它們只屬于少數(shù)類別。但是從實(shí)驗(yàn)數(shù)據(jù)中發(fā)現(xiàn),這些抽取出來的特征詞往往為生僻詞,很少一部分帶有較強(qiáng)的類別信息,多數(shù)詞攜帶少量的類別信息,甚至是噪音詞。

二次信息熵:將二次熵函數(shù)取代互信息中的Shannon熵,形成基于二次熵的互信息評估函數(shù)。它克服了互信息的隨機(jī)性。作為信息的整體測度,比互信息最大化的計(jì)算復(fù)雜度要小,可提高分類任務(wù)征選取的效率。

期望交叉熵:也稱KL距離。反映的是文本某一類的概率分布與在某特征詞的條件下該類的概率分布之間距離,特征詞w的交叉熵越大,對文本類的分布影響也越大。它與信息增益不同,它沒有考慮單詞未發(fā)生的情況,只計(jì)算出現(xiàn)在文本中的特征項(xiàng)。如果特征項(xiàng)和類別強(qiáng)相關(guān),即:P ( Ci | w )就大,而P( Ci) 又很小,則說明該特征詞對分類的影響大。交叉熵的特征選擇效果都要優(yōu)于信息增益。

信息增益方法:用于度量已知一個(gè)特征詞在某類別的文本中是否出現(xiàn)對該類別預(yù)測的影響程度。信息增益是一種基于熵的評估方法,用于評估某特征詞為整個(gè)分類所能提供的信息量,即:不考慮任何特征詞的熵與考慮該特征后的熵的差值。根據(jù)訓(xùn)練數(shù)據(jù),計(jì)算出各個(gè)特征詞的信息增益,刪除信息增益很小的,其余的按照信息增益從大到小排序。某個(gè)特征項(xiàng)的信息增益值越大,對分類也越重要。

信息增益最大的問題是:它只能考察特征詞對整個(gè)分類系統(tǒng)的貢獻(xiàn),而不能具體到某個(gè)類別上,這就使得它只適合用來做所謂“全局”的特征選擇(指所有的類都使用相同的特征集合),而無法做“本地”的特征選擇(每個(gè)類別有自己的特征集合,因?yàn)橛械脑~,對這個(gè)類別很有區(qū)分度,對另一個(gè)類別則無足輕重)。

其它的文本特征評估方法:比如卡方統(tǒng)計(jì)量方法、文本證據(jù)權(quán)、優(yōu)勢率等,這些方法也都是用于評估特征詞與文本類別的相關(guān)性。其中,在卡方統(tǒng)計(jì)和互信息的不同在于, 卡方統(tǒng)計(jì)其評估權(quán)重只對在同類文本中的詞是可比的, 另外,它對低頻詞評估實(shí)用性不高。

2 主流的文本特征選擇方法

2.1 N-Gram算法

其基本思想是將文本內(nèi)容按字節(jié)流進(jìn)行大小為N的滑動(dòng)窗口分段,形成長度為N的字節(jié)片段序列。每個(gè)字節(jié)片段稱為一個(gè)N-Gram單元,對全部N-Gram單元的出現(xiàn)頻度進(jìn)行統(tǒng)計(jì),并按照事先設(shè)定的閾值進(jìn)行過濾,形成關(guān)鍵N-Gram列表,作為該文本的特征向量空間。由于N-Gram算法可避免中文分詞錯(cuò)誤的影響,適用于中文文本處理。中文文本處理大多采用雙字節(jié)進(jìn)行分解,即:bigram。但是bigram切分方法在處理20%左右的中文多字~時(shí),會(huì)產(chǎn)生語義和語序方面的偏差。而對于專業(yè)領(lǐng)域文本數(shù)據(jù),多字詞常常是文本的核心特征,處理錯(cuò)誤將導(dǎo)致負(fù)面影響。于是有研究者提出改進(jìn)的基于N-Gram文本特征提取算法,即:在進(jìn)行bigram切分時(shí),不僅統(tǒng)計(jì)bigram的出現(xiàn)頻度,還統(tǒng)計(jì)某個(gè)bigram與其前鄰bigram的共現(xiàn)情況。當(dāng)共現(xiàn)頻率大于預(yù)設(shè)閾值時(shí),將其合并成為多字特征詞。該算法,較好地彌補(bǔ)N-Gram算法在處理多字詞方面的缺陷。

2.2主成分分析算法

該算法通過搜索最能代表原數(shù)據(jù)的正交向量,建立一個(gè)替換的、較小的特征集合,將原數(shù)據(jù)投影到這個(gè)較小的集合。主成分分析(PCA)按其處理方式的不同,又分為數(shù)據(jù)方法和矩陣方法。矩陣方法中,所有數(shù)據(jù)通過計(jì)算方差-協(xié)方差結(jié)構(gòu)在矩陣中表示出來,矩陣的實(shí)現(xiàn)目標(biāo)是確定協(xié)方差矩陣的特征向量,它們和原始數(shù)據(jù)的主要成分相對應(yīng)。考慮到矩陣方法的計(jì)算復(fù)雜度隨著數(shù)據(jù)維度n的增加,以n的二次方增長,有研究者提出了使用Hebbian學(xué)習(xí)規(guī)則的PCA神經(jīng)網(wǎng)絡(luò)方法。

2.3遺傳算法與模擬退火算法

(1)遺傳算法(Genetic Algorithm, GA):是一種通用型的優(yōu)化搜索方法,它利用結(jié)構(gòu)化的隨機(jī)信息交換技術(shù)組合群體中各個(gè)結(jié)構(gòu)中最好的生存因素,復(fù)制出最佳代碼串,并使之一代一代地進(jìn)化,最終獲得滿意的優(yōu)化結(jié)果。如果將文本看作是由若干個(gè)特征詞構(gòu)成的多維空間,那么將文本特征提取問題就轉(zhuǎn)化為了文本空間的尋優(yōu)過程。有研究者已經(jīng)將遺傳算法應(yīng)用于這個(gè)尋優(yōu)過程中。首先對文本空間進(jìn)行編碼,以文本向量構(gòu)成染色體,通過選擇、交叉、變異等遺傳操作,不斷搜索問題域空間,使其不斷得到進(jìn)化,逐步得到文本的最優(yōu)特征向量。

基于協(xié)同演化的遺傳算法使用其它的個(gè)體來評價(jià)某一特定個(gè)體。個(gè)體優(yōu)劣的標(biāo)準(zhǔn)是由在同一生存競爭環(huán)境中的其它個(gè)體決定。這種協(xié)同演化的思想與處理同類文本的特征提取問題相吻合。同一類別文本相互之間存在著相關(guān)性,各自所代表的那組個(gè)體在進(jìn)化過程中存在著同類之間的相互評價(jià)和競爭。因此,每個(gè)文本的特征向量(個(gè)體)在不斷的進(jìn)化過程中,不僅受到其母體(文本)的評價(jià)和制約,而且還受到其它同類個(gè)體的指導(dǎo)?;趨f(xié)同演化的遺傳算法不僅能反映其母體的特征,還能反映其它同類文本的共性,從而有效地解決同一類別的多個(gè)文本的集體特征向量的提取問題,獲得反映整個(gè)文本集合最佳特征向量。

(2)模擬退火算法:將特征選取看作組合優(yōu)化的問題,因而可以使用解決優(yōu)化問題的方法來解決特征選取的問題。模擬退火算法(Simulating Anneal,SA)就是其中一種方法。將模擬退火算法運(yùn)用到特征選取中,理論上可以找到全局最優(yōu)解,但在初始溫度的選取和鄰域的選取時(shí),需要找到有效的策略來綜合考慮解的性能和算法的速度。

3 詞向量(word embedding)

深度學(xué)習(xí)(Deep Learning)中一般用到的詞向量是用詞向量(Word Embedding)或分布式表達(dá)方法( Distributed Representation)所表示的一種低維實(shí)數(shù)向量。維度以 50 維和 100 維比較常見。這種向量的表示不是唯一的。詞向量的提出,為的是將相關(guān)或者相似的詞,在距離上更接近。向量的距離可以用最傳統(tǒng)的歐氏距離來衡量,也可以用 cos 夾角來衡量。比如:用這種方式表示的向量,“麥克”和“話筒”的距離會(huì)遠(yuǎn)遠(yuǎn)小于“麥克”和“天氣”??赡芾硐肭闆r下“麥克”和“話筒”的表示應(yīng)該是完全一樣的,但是由于有人會(huì)把英文名“邁克”也寫成“麥克”,導(dǎo)致“麥克”一詞帶上了一些人名的語義,因此不會(huì)和“話筒”完全一致。該方法很好地解決了傳統(tǒng)的文本特征向量用于文本挖掘任務(wù)時(shí)可能出現(xiàn)的維數(shù)災(zāi)難問題,因而被很多研究者廣泛地用于各類文本挖掘的任務(wù)當(dāng)中。

4 基于領(lǐng)域語義理解的文本特征提取方法

4.1基于語境框架的文本特征提取方法

有研究者發(fā)現(xiàn),單單依靠統(tǒng)計(jì)無法完成語義分析。沒有考慮句子的語義以及句子間的關(guān)系的情況下,無法提取準(zhǔn)確的文本特征向量來表達(dá)文本語義。因此,研究者提出將語義分析與統(tǒng)計(jì)算法相結(jié)合的語境框架算法,并獲得了豐富的研究成果??梢詫⒄Z境框架看作是一個(gè)三維的語義描述框架,即:把文本內(nèi)容抽象為領(lǐng)域(靜態(tài)范疇)、情景(動(dòng)態(tài)描述)、背景(褒貶、參照等)三個(gè)模塊。在語境框架的基礎(chǔ)上,從語義分析入手,實(shí)現(xiàn)了四元組表示的領(lǐng)域提取算法、以領(lǐng)域句類為核心的情景提取算法、以對象語義立場網(wǎng)絡(luò)圖為基礎(chǔ)的褒貶判斷算法。該算法可以有效地處理語言中的褒貶傾向、同義、多義等現(xiàn)象,表現(xiàn)出較好的特征提取能力。

4.2基于本體論的文本特征提取方法

有研究者提出了應(yīng)用本體論(Ontology)模型,有效地解決特定領(lǐng)域知識的描述問題。比如:針對數(shù)字圖像領(lǐng)域的文本特征提取問題,可以通過構(gòu)建文本結(jié)構(gòu)樹,給出特征權(quán)值的計(jì)算公式。算法充分考慮特征詞的位置以及相互之間關(guān)系的分析,利用特征詞統(tǒng)領(lǐng)長度的概念和計(jì)算方法, 能夠更準(zhǔn)確地進(jìn)行特征詞權(quán)值的計(jì)算和文本特征的提取。

4.3基于Z義網(wǎng)絡(luò)的概念特征提取方法

文本挖掘,特別是中文文本挖掘,處理的對象主要有字、詞、短語等特征項(xiàng)。但字、詞、短語更多體現(xiàn)的是文檔的詞匯信息,而非語義信息,因而無法準(zhǔn)確表達(dá)文檔的內(nèi)容。目前的大多數(shù)關(guān)于文本特征提取的研究方法只注重考慮特征發(fā)生的概率和所處的位置,缺乏語義方面的分析。向量空間模型(VSM)最基本的假設(shè)是各個(gè)分量相互正交,但事實(shí)上,作為分量的特征詞間存在很大的相關(guān)性,無法滿足模型的假設(shè)?;诟拍畹奶卣魈崛》椒ㄊ窃赩SM的基礎(chǔ)上,對文本進(jìn)行部分語義分析,利用英文的WordNet或中文的知網(wǎng)等語義網(wǎng)絡(luò)獲取詞匯的語義信息,將語義相同的詞匯映射到同一概念,進(jìn)行概念聚類。用概念作為文檔向量的特征項(xiàng), 這樣就能夠比一般詞匯更加準(zhǔn)確地表達(dá)文檔內(nèi)容,減少特征之間的相關(guān)性和同義現(xiàn)象,從而有效降低文檔向量的維數(shù),減少文檔處理計(jì)算量,提高特征提取的精度和效率。

5 總結(jié)與展望

本文對近年來文本特征提取研究領(lǐng)域所取得的研究成果進(jìn)行了全面的綜述。隨著人工智能深度學(xué)習(xí)技術(shù)的發(fā)展,在未來幾年中,將可能從以下幾個(gè)方面取得突破:(1)文本特征提取及文本挖掘在專業(yè)領(lǐng)域,比如:金融領(lǐng)域、軍事領(lǐng)域等的應(yīng)用研究。(2)新的文本特征表示模型,比如考慮使用層次結(jié)構(gòu)的向量對文本進(jìn)行建模,關(guān)鍵詞向量能快速定位用戶的興趣領(lǐng)域,而擴(kuò)展詞向量能準(zhǔn)確反映用戶在該領(lǐng)域上的興趣偏好。結(jié)合領(lǐng)域知識,采用概念詞、同義詞或本體來代替具體的關(guān)鍵詞成為特征詞,體現(xiàn)語義層面的需求和分析。(3)改進(jìn)分詞算法。比如針對特征提取的需要,應(yīng)用深度學(xué)習(xí)算法框架,建構(gòu)高性能的分詞系統(tǒng)。(4)改進(jìn)特征評價(jià)函數(shù)。比如考慮將表達(dá)文本結(jié)構(gòu)的特征提取與表達(dá)文本語義的特征提取進(jìn)行交叉解碼,即對特征詞的權(quán)重從表達(dá)文本結(jié)構(gòu)與文本語義兩個(gè)層面進(jìn)行評價(jià)。

責(zé)編/魏曉文

參考文獻(xiàn)

[1] Bengio Y, Schwenk H, Senécal J, et al. Neural Probabilistic Language Models[J]. Journal of Machine Learning Research, 2003, 3(6):1137-1155.

[2] Salton G, Buckley C. Buckley, C.: Term-Weighting Approaches in Automatic Text Retrieval. Information Processing & Management 24(5), 513-523[J]. Information Processing & Management, 1988, 24(5):513-523.

[3] 劉健, 張維明. 基于互信息的文本特征選擇方法研究與改進(jìn)[J]. 計(jì)算機(jī)工程與應(yīng)用, 2008, 44(10):135-137.

[4] 成衛(wèi)青, 唐旋. 一種基于改進(jìn)互信息和信息熵的文本特征選擇方法[J]. 南京郵電大學(xué)學(xué)報(bào)(自然科學(xué)版), 2013, 33(5):63-68.

[5] Cavnar W B, Trenkle J M. N-Gram-Based Text Categorization[C]// In Proceedings of SDAIR-94, 3rd Annual Symposium on Document Analysis and Information Retrieval. Las Vegas, US. 1994:161--175.

[6] 陳素芬, 曾雪強(qiáng). 中心修正增量主成分分析及其在文本分類中的應(yīng)用[J]. 中文信息學(xué)報(bào), 2016, 30(1):108-114..

[7] 郝占剛, 王正歐. 基于潛在語義索引和遺傳算法的文本特征提取方法[J]. 情報(bào)科學(xué), 2006, 24(1):104-107.

[8] 晉耀紅, 苗傳江. 一個(gè)基于語境框架的文本特征提取算法[J]. 計(jì)算機(jī)研究與發(fā)展, 2004, 41(4):582-586.