亚洲成色777777女色窝,777亚洲妇女,色吧亚洲日本,亚洲少妇视频

計算機爬蟲技術(shù)

時間:2024-01-29 15:36:16

導(dǎo)語:在計算機爬蟲技術(shù)的撰寫旅程中,學(xué)習(xí)并吸收他人佳作的精髓是一條寶貴的路徑,好期刊匯集了九篇優(yōu)秀范文,愿這些內(nèi)容能夠啟發(fā)您的創(chuàng)作靈感,引領(lǐng)您探索更多的創(chuàng)作可能。

計算機爬蟲技術(shù)

第1篇

關(guān)鍵詞:SOA DDoS 爬蟲技術(shù) 檢測技術(shù)

中圖分類號:TP393.08 文獻標(biāo)識碼:A 文章編號:1007-9416(2016)10-0202-01

面向服務(wù)的體系架構(gòu)(Service-Oriented Architecture, SOA)作為一個全新的網(wǎng)絡(luò)架構(gòu)和組件模型,在提供便利的同時也面臨安全方面的挑戰(zhàn)。SOA系統(tǒng)不但會受到傳統(tǒng)的網(wǎng)絡(luò)攻擊,如重放攻擊、注入攻擊等,也會受到各種DDoS攻擊。近日有研究表明,假冒搜索引擎爬蟲已經(jīng)成為第三大DDoS攻擊工具。本文所介紹的基于SOA架構(gòu)下的DDoS攻擊檢測方法主要針對當(dāng)今比較流行的利用網(wǎng)絡(luò)爬蟲所發(fā)起的DDoS攻擊。

1 SOA安全問題研究

SOA是一個組件模型,它將應(yīng)用程序的不同功能單元(即服務(wù))通過這些服務(wù)之間定義良好的接口和契約聯(lián)系起來。SOA目前在很大程度上還是比較依賴Web服務(wù),特別是一些面向服務(wù)技術(shù)在SOA架構(gòu)上的應(yīng)用,導(dǎo)致SOA在提供了良好的便捷的同時也避免不了一些安全隱患。而目前來看SOA往往大多應(yīng)用在企業(yè)級平臺之上,它所承擔(dān)的服務(wù)不再單純的是一種技術(shù)能力,而更多的是一種業(yè)務(wù)能力和IT資產(chǎn)。因此研究SOA架構(gòu)下安全問題,特別是安全檢測技術(shù),在風(fēng)險到來之前提前預(yù)測、感知和及時響應(yīng)具有十分重要的意義。

2 網(wǎng)絡(luò)爬蟲技術(shù)

2.1 網(wǎng)絡(luò)爬蟲概述

網(wǎng)絡(luò)搜索引擎的主要數(shù)據(jù)來源就是互聯(lián)網(wǎng)網(wǎng)頁,通用搜索引擎的目司褪薔】贍艿奶岣咄絡(luò)覆蓋率,網(wǎng)絡(luò)爬蟲(又稱網(wǎng)頁蜘蛛或者網(wǎng)絡(luò)機器人),就是一種按照特定規(guī)則,自動抓取互聯(lián)網(wǎng)信息的腳本或者程序。 搜索引擎利用網(wǎng)絡(luò)爬蟲技術(shù)爬取Web網(wǎng)頁、文件甚至圖片、音視頻等多媒體資源,通過相應(yīng)的索引技術(shù)處理這些信息后提供給用戶查詢。

2.2 網(wǎng)絡(luò)爬蟲的安全性問題

網(wǎng)絡(luò)爬蟲策略就是盡可能多的抓取互聯(lián)網(wǎng)中的高價值信息,所以爬蟲程序會根據(jù)特定策略盡可能多的訪問互聯(lián)網(wǎng)上的網(wǎng)站頁面,這毫無疑問會占用目標(biāo)網(wǎng)站的網(wǎng)絡(luò)帶寬和Web服務(wù)器的處理開銷,特別是一些小型網(wǎng)站,僅僅處理各種搜索引擎公司的爬蟲引擎就會導(dǎo)致自身服務(wù)器“應(yīng)接不暇”。所以黑客可以假冒爬蟲程序?qū)eb站點發(fā)動DDoS攻擊,使網(wǎng)站服務(wù)器在大量爬蟲程序的訪問下,系統(tǒng)資源耗盡而不能及時響應(yīng)正常用戶的請求甚至徹底崩潰。不僅如此,黑客還可能利用網(wǎng)絡(luò)爬蟲抓取各種敏感資料用于不正當(dāng)用途。比如遍歷網(wǎng)站目錄列表;搜索測試頁面、手冊文檔、樣本程序以查找可能存在的缺陷程序;搜索網(wǎng)站管理員登錄頁面;搜索互聯(lián)網(wǎng)用戶的個人資料等等。

3 惡意爬蟲DDoS攻擊的防范和檢測

一般情況下,因為特定網(wǎng)站的特殊原因,比如有些網(wǎng)站不希望爬蟲白天抓取網(wǎng)頁,有些網(wǎng)站不希望爬蟲抓取敏感信息等,所以爬蟲程序默認是需要遵守Robots協(xié)議,所以限制爬蟲最簡單直接的方法就是設(shè)置robots.txt規(guī)則。然而并不是所有的搜索引擎爬蟲都會遵守robots規(guī)則,所以僅僅設(shè)置robots是遠遠不夠的。

3.1 日志分析來檢測惡意爬蟲攻擊

(1)分析服務(wù)器日志統(tǒng)計訪問最多的IP地址段。

grep Processing production.log | awk ’{print $4}’ | awk -F’.’ ’{print $1〃.〃$2〃.〃$3〃.0〃}’ | sort | uniq -c | sort -r -n | head -n 200 > stat_ip.log

(2)把統(tǒng)計結(jié)果和流量統(tǒng)計系統(tǒng)記錄的IP地址進行對比,排除真實用戶訪問IP,再排除正常的網(wǎng)頁爬蟲,如Google,百度,微軟爬蟲等。很容易得到可疑的IP地址。分析可疑ip 的請求時間、頻率、refer頭等,很容易檢測是否網(wǎng)絡(luò)爬蟲,類似如圖1所示日志信息明顯是一個網(wǎng)絡(luò)爬蟲。

3.2 基于訪問行為特征檢測爬蟲DDoS

通過日志分析來檢測惡意爬蟲攻擊,無法及時檢測并屏蔽這些spider。所以面對分布式的爬蟲DDoS攻擊,網(wǎng)站很有可能無法訪問,分析日志無法及時解決問題。針對惡意爬蟲程序和正常用戶訪問之間的行為特征不同,爬蟲DDoS程序為了達到占用系統(tǒng)資源的目的,其訪問往往是頻率很高而且呈明顯規(guī)律性,明顯區(qū)別于真實正常用戶瀏覽訪問時的低頻率和隨機性,所以基于統(tǒng)計數(shù)據(jù)或者其他應(yīng)用識別或者IPS技術(shù),可以較容易的生成正常情況下的行為模型,通過采集正常的流量行為可以構(gòu)造一個正常的網(wǎng)絡(luò)行為模型,我們可以把處于正常模型內(nèi)的流量行為認定為正常行為,一旦和正常行為輪廓有了較大的偏離,可以認定為異?;蛘吖粜袨?。

4 結(jié)語

由于基于SOA的網(wǎng)絡(luò)系統(tǒng)下的DDoS攻擊的普遍性,以及網(wǎng)絡(luò)爬蟲及其對應(yīng)技術(shù)給現(xiàn)有Web系統(tǒng)帶來的安全威脅。本文提出了一些反惡意爬蟲攻擊的策略和思路,對網(wǎng)站管理及安全人員,有一定的參考意義。隨著基于網(wǎng)絡(luò)爬蟲和搜索引擎技術(shù)的互聯(lián)網(wǎng)應(yīng)用日益增多,我們有必要針對這些應(yīng)用帶來的安全問題做更深入的研究。

參考文獻

[1]袁志勇.分布式拒絕服務(wù)攻擊的攻擊源追蹤技術(shù)研究[D].長沙:中南大學(xué),2009.

[2]何遠超.基于Web的網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[J].網(wǎng)微計算機信息,2007,23(21):119-121.

[3]周偉,王麗娜,張煥國,傅建明.一種新的DDoS攻擊方法及對策[J].計算機應(yīng)用,2003.01:144.

[4]王希斌,廉龍穎.網(wǎng)絡(luò)安全實驗中DDoS攻擊實驗的實現(xiàn)[J].實驗科學(xué)與技術(shù),2016,14(1):68-71.

收稿日期:2016-08-30

第2篇

關(guān)鍵詞關(guān)鍵詞:Web數(shù)據(jù)挖掘;數(shù)據(jù)倉庫;急性高原病易感人群

中圖分類號:TP319 文獻標(biāo)識碼:A 文章編號文章編號:16727800(2013)008007002

0 引言

隨著數(shù)據(jù)庫技術(shù)及數(shù)據(jù)挖掘技術(shù)的迅速發(fā)展,人們積累起來的數(shù)據(jù)越來越多,在這些數(shù)據(jù)的背后隱藏著巨大的信息及規(guī)律。數(shù)據(jù)挖掘技術(shù)是在數(shù)據(jù)庫技術(shù)廣泛應(yīng)用、深入發(fā)展的基礎(chǔ)上應(yīng)運而生的,它的主要價值就在于通過對大量新舊數(shù)據(jù)之間關(guān)系的分析,挖掘隱藏在這些數(shù)據(jù)背后的信息,進而促進信息的傳遞。

Web是一個全球性的信息服務(wù)中心,隨著單位、個人每天的大量新的Web網(wǎng)頁及在線文檔,使得Web數(shù)據(jù)信息以指數(shù)形式進行激增。如何從這些浩如煙海的數(shù)據(jù)中,尋找出有價值的信息,使其為相應(yīng)的人群、行業(yè)服務(wù),已成為目前Web技術(shù)和數(shù)據(jù)挖掘技術(shù)的重要發(fā)展方向。

初進高原時,由于對低壓低氧環(huán)境的不適應(yīng),人群中不可避免地要出現(xiàn)“急性高原病”。許多研究指出,人群中確實存在著急性高原病易感人群,如果能將數(shù)據(jù)挖掘技術(shù)應(yīng)用于急性高原病易感人群的預(yù)測模型中,對于從根源上控制易感人群的基數(shù)將起到極其關(guān)鍵的作用[1]。

1 Web數(shù)據(jù)挖掘

1.1 Web內(nèi)容挖掘及方法

Web內(nèi)容挖掘[2]包括Web文本挖掘和Web多媒體數(shù)據(jù)挖掘,主要是從Internet上挖掘出有用的數(shù)據(jù)信息及文檔信息,是一種基本W(wǎng)eb檢索工作的延伸。Web內(nèi)容挖掘在傳統(tǒng)信息檢索的基礎(chǔ)上,通過各種新技術(shù)的應(yīng)用來對原先搜索引擎進行改進。

Web內(nèi)容挖掘的方法主要包括數(shù)據(jù)庫方法和人方法。Web內(nèi)容挖掘的基本技術(shù)是文本挖掘,可以把Web數(shù)據(jù)看成是一個大型數(shù)據(jù)庫,而對該數(shù)據(jù)庫的查詢、檢索則需要多種技術(shù)進行融合,如:關(guān)鍵詞檢索、相似性檢索、關(guān)聯(lián)規(guī)則檢索、聚類分析、自然處理語言等;使用人方法,是指通過軟件來進行內(nèi)容挖掘[3],如:信息過濾、個性化Web及智能信息檢索方法等。

1.2 爬蟲與Web內(nèi)容挖掘

Web爬蟲,是獲取網(wǎng)頁內(nèi)容,分解Web中文本結(jié)構(gòu)的一種程序。Web爬蟲主要分為傳統(tǒng)爬蟲和聚焦爬蟲。爬蟲開始訪問的網(wǎng)頁稱作種子URL,從一個網(wǎng)頁開始,進行查詢和記錄與之相關(guān)聯(lián)的網(wǎng)頁鏈接,如此重復(fù)該過程,直至無法再獲取相關(guān)鏈接。通過該過程,最終將獲得相關(guān)網(wǎng)頁的所有信息,成為目標(biāo)數(shù)據(jù)的廣泛數(shù)據(jù)源。

在Web內(nèi)容挖掘中,我們擬采用聚焦爬蟲挖掘,其挖掘過程比較復(fù)雜。具體挖掘原理如圖1所示。DNS進程取出URL隊列中的第一個URL(通過一種特殊的分析方法過濾與搜索信息無關(guān)的鏈接,將有用的鏈接放入URL隊列中),并通過IP協(xié)議連接主機,DNS數(shù)據(jù)庫將域名和IP地址相互映射,如果主機被解析,則直接獲取IP,否則,通過DNS數(shù)據(jù)庫獲得主機IP。接著READ進程獲得IP,并試圖打開一個HTTP socket 連接來獲取網(wǎng)頁頁面。頁面下載之后,爬蟲會檢查該頁面是否已經(jīng)被下載過,如果未被下載過,則提取該頁面的URL。在檢查信息的過程中,我們利用時間戳來解決服務(wù)器的狀態(tài)問題,在檢查的過程中,如果時間戳耗盡了,但還沒有檢查完,爬蟲也可以再爬取頁面,如果時間戳耗盡了,還沒找到可用的URL鏈接,則會提示找不到所查詢的信息;如果找到了可用鏈接,爬蟲會去拉取頁面并將該URL記錄在相應(yīng)的表中存儲起來。

圖1 爬蟲原理

1.3 Web挖掘模型

Web數(shù)據(jù)挖掘模型充分利用了XML的優(yōu)點,其主要包括三個層次:采集層、數(shù)據(jù)層和應(yīng)用層。采集層表示在Internet中搜集相關(guān)數(shù)據(jù)的過程,并將這些數(shù)據(jù)的格式統(tǒng)一規(guī)范化;數(shù)據(jù)層的主要作用是將搜集到的數(shù)據(jù)進行預(yù)處理,如:補充缺失的數(shù)據(jù),去除一些重復(fù)的數(shù)據(jù),丟掉明顯不符合邏輯的偏差數(shù)據(jù),修補一些缺失數(shù)據(jù)等,為數(shù)據(jù)的應(yīng)用做準(zhǔn)備;應(yīng)用層,顧名思義,就是對數(shù)據(jù)層中的數(shù)據(jù)進行處理、應(yīng)用,達到Web數(shù)據(jù)應(yīng)用的目的。模型如圖2所示。

圖2 基于Web數(shù)據(jù)挖掘的總體框架

2 Web數(shù)據(jù)挖掘在急性高原病中的應(yīng)用

2.1 急性高原病

急性高原病[4]是人進入高原低氧環(huán)境后出現(xiàn)的一種病理反應(yīng),引起本病的主要原因是低壓低氧。急性高原病主要包括急性高原反應(yīng)、高原肺水腫和高原腦水腫三種。早期主要表現(xiàn)癥狀為:失眠、頭痛、心跳加快、呼吸困難、紫紺、血壓升高、神情恍惚等癥狀。急性高原病如不及時診治和治療,嚴(yán)重時會危機生命。所以,建立急性高原病易感人群預(yù)測體系,嚴(yán)格控制身體指標(biāo)不適合進入高原的人群,從源頭解決此問題,降低高原病的患病幾率。對保證進藏人群的健康有著重要的作用。

2.2 急性高原病易感人群預(yù)測的Web挖掘模型

建立急性高原病易感人群預(yù)測模型,首先必須從Internet上挖掘各種有關(guān)數(shù)據(jù),建立急性高原病易感人群數(shù)據(jù)倉庫,其中比較有針對性的數(shù)據(jù)庫,主要包括MEDLINE,PubMED,PML,

CNKI, CBMDisc,以及萬方數(shù)據(jù)和其它網(wǎng)絡(luò)數(shù)據(jù)。

數(shù)據(jù)挖掘算法使用Naive Bayes 算法,它是 Microsoft SQL Server Analysis Services 提供的一種用于預(yù)測性建模的分類算法,Naive Bayes算法應(yīng)用貝葉斯定理進行建模,其建模分類公式為:P(C/W) = P(C) * P(W/C) / P(W),其中,C表示一個文本的類別,W表示一個文本測試樣本,P(C/W)表示該樣品屬于該類別的概率,在文本分類問題中,需要得到的就是樣品屬于各個類別的概率值,最大概率值所對應(yīng)的類別就是該樣本被分配的類。而要計算樣品屬于各個類別的概率值需應(yīng)用“=”右邊的表達式來計算。由于Naive Bayes算法的運算量小,能較快發(fā)現(xiàn)輸入列與可預(yù)測列之間的關(guān)系,所以在該模型的挖掘中我們采用Naive Bayes算法。在挖掘的過程中,對發(fā)現(xiàn)模式要進行評估,以保證知識的有效性、可用性。最后從知識庫中,篩選出急性高原病易感人群身體指標(biāo)信息。 挖掘模型如圖3所示。

圖3 急性高原病易感人群預(yù)測的Web挖掘模型

3 結(jié)語

本文將Web技術(shù)與數(shù)據(jù)挖掘技術(shù)相結(jié)合,將分散于網(wǎng)絡(luò)中的各種急性高原病數(shù)據(jù)進行整理、處理及挖掘,建立了急性高原病易感人群(AMS)預(yù)測模型,使得從“源頭”上控制AMS發(fā)生的人群基數(shù),降低高原病的發(fā)病率。目前我國數(shù)據(jù)挖掘在醫(yī)學(xué)方面的研究還不夠深入,應(yīng)用還不夠廣泛,計算機科學(xué)與醫(yī)學(xué)的融合發(fā)展方興未艾,期待有關(guān)人員積極探索。

參考文獻參考文獻:

第3篇

搜索引擎的工作原理為:從互聯(lián)網(wǎng)上抓取網(wǎng)頁建立索引數(shù)據(jù)庫在索引數(shù)據(jù)庫中搜索排序。從互聯(lián)網(wǎng)上抓取網(wǎng)頁利用能夠從互聯(lián)網(wǎng)上自動收集網(wǎng)頁的Spider系統(tǒng)程序,自動訪問互聯(lián)網(wǎng),并沿著任何網(wǎng)頁中的所有URL爬到其它網(wǎng)頁,重復(fù)這過程,并把爬過的所有網(wǎng)頁收集回來。建立索引數(shù)據(jù)庫由分析索引系統(tǒng)程序?qū)κ占貋淼木W(wǎng)頁進行分析,提取相關(guān)網(wǎng)頁信息根據(jù)一定的相關(guān)度算法進行大量復(fù)雜計算,得到每1個網(wǎng)頁針對頁面內(nèi)容中及超鏈中每1個關(guān)鍵詞的相關(guān)度(或重要性),然后用這些相關(guān)信息建立網(wǎng)頁索引數(shù)據(jù)庫。

在索引數(shù)據(jù)庫中搜索排序當(dāng)用戶輸入關(guān)鍵詞搜索后,由搜索系統(tǒng)程序從網(wǎng)頁索引數(shù)據(jù)庫中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁。最后由頁面生成系統(tǒng)將搜索結(jié)果的鏈接地址和頁面內(nèi)容摘要等內(nèi)容組織起來返回給用戶。

搜索引擎按其工作方式可分為三種,全文搜索引擎,目錄搜索引擎和元搜索引擎。

1全文搜索引擎

全文搜索引擎的代表是網(wǎng)絡(luò)爬蟲,網(wǎng)絡(luò)爬蟲是一個自動提取網(wǎng)頁的程序,它為搜索引擎從Internet網(wǎng)上下載網(wǎng)頁,是搜索引擎的重要組成。傳統(tǒng)爬蟲從一個或若干初始網(wǎng)頁的URL開始,獲得初始網(wǎng)頁上的URL,在抓取網(wǎng)頁的過程中,不斷從當(dāng)前頁面上抽取新的URL放入隊列,直到滿足系統(tǒng)的一定停止條件。聚焦爬蟲的工作流程較為復(fù)雜,需要根據(jù)一定的網(wǎng)頁分析算法過濾與主題無關(guān)的鏈接,保留有用的鏈接并放入等待抓取的URL隊列。然后,它將根據(jù)一定的搜索策略從隊列中選擇下一步要抓取的網(wǎng)頁,并重復(fù)上述過程,直到達到系統(tǒng)的某一條件時停止。所有被爬蟲抓取的網(wǎng)頁將會被系統(tǒng)存貯,進行一定的分析、過濾,并建立索引,以便之后的查詢和檢索;對于聚焦爬蟲來說,這一過程所得到的分析結(jié)果還可能對以后的抓取過程給出反饋和指導(dǎo)。

爬蟲設(shè)計是否合理將直接影響它訪問Web的效率,影響搜索數(shù)據(jù)庫的質(zhì)量,另外在設(shè)計爬蟲時還必須考慮它對網(wǎng)絡(luò)和被訪問站點的影響,因為爬蟲一般都運行在速度快,帶寬高的主機上,如果它快速訪問一個速度較慢的目標(biāo)站點,可能導(dǎo)致該站點出現(xiàn)阻塞。Robot應(yīng)遵守一些協(xié)議,以便被訪問站點的管理員能夠確定訪問內(nèi)容,Index是一個龐大的數(shù)據(jù)庫,爬蟲提取的網(wǎng)頁將被放入到Index中建立索引,不同的搜索引擎會采取不同方式來建立索引,有的對整個HTML文件的所有單詞都建立索引,有的只分析HTML文件的標(biāo)題或前幾段內(nèi)容,還有的能處理HTML文件中的META標(biāo)記或特殊標(biāo)記。

2目錄搜索引擎

目錄搜索引擎的數(shù)據(jù)庫是依靠專職人員建立的,這些人員在訪問了某個Web站點后撰寫一段對該站點的描述,并根據(jù)站點的內(nèi)容和性質(zhì)將其歸為一個預(yù)先分好的類別,把站點URL和描述放在這個類別中,當(dāng)用戶查詢某個關(guān)鍵詞時,搜索軟件只在這些描述中進行搜索。很多目錄也接受用戶提交的網(wǎng)站和描述,當(dāng)目錄的編輯人員認可該網(wǎng)站及描述后,就會將之添加到合適的類別中。

目錄的結(jié)構(gòu)為樹形結(jié)構(gòu),首頁提供了最基本的入口,用戶可以逐級地向下訪問,直至找到自己的類別,另外,用戶也可以利用目錄提供的搜索功能直接查找一個關(guān)鍵詞。由于目錄式搜索引擎只在保存了對站點的描述中搜索,因此站點本身的變化不會反映到搜索結(jié)果中,這也是目錄式搜索引擎與基于Robot的搜索引擎之間的區(qū)別。分類目錄在網(wǎng)絡(luò)營銷中的應(yīng)用主要有下列特點:

通常只能收錄網(wǎng)站首頁(或者若干頻道),而不能將大量網(wǎng)頁都提交給分類目錄;網(wǎng)站一旦被收錄將在一定時期內(nèi)保持穩(wěn)定;無法通過"搜索引擎優(yōu)化"等手段提高網(wǎng)站在分類目錄中的排名;在高質(zhì)量的分類目錄登錄,對于提高網(wǎng)站在搜索引擎檢索結(jié)果中的排名有一定價值;緊靠分類目錄通常與其他網(wǎng)站推廣手段共同使用。

3元搜索引擎

我們可將元搜索引擎看成具有雙層客戶機/服務(wù)器結(jié)構(gòu)的系統(tǒng)。用戶向元搜索引擎發(fā)出檢索請求,元搜索引擎再根據(jù)該請求向多個搜索引擎發(fā)出實際檢索請求,搜索引擎執(zhí)行元搜索引擎檢索請求后將檢索結(jié)果以應(yīng)答形式傳送給元搜索引擎,元搜索引擎將從多個搜索引擎獲得的檢索結(jié)果經(jīng)過整理再以應(yīng)答形式傳送給實際用戶。當(dāng)然,某些元搜索引擎具有略微不同的機制。元搜索引擎在接受用戶查詢請求時,同時在其他多個引擎上進行搜索,將結(jié)果進行相關(guān)處理,以整體統(tǒng)一的格式反饋給用戶。

它的特點是本身并沒有存放網(wǎng)頁信息的數(shù)據(jù)庫。多數(shù)元搜索引擎在處理其它的搜索引擎返回結(jié)果時,只提取出每個搜索引擎的結(jié)果中考前的條目,然后將這些條目合并在一起返回給用戶,元搜索引擎實現(xiàn)起比較簡單,但是它也有一定的局限性,例如多數(shù)元搜索引擎都只能訪問少數(shù)幾個搜索引擎,并且通常不支持這些搜索引擎的高級搜索功能,在處理邏輯查詢時也常常會出現(xiàn)錯誤。在這幾種檢索工具中,目錄式搜索引擎成本高,信息t少的缺點,但它的信息準(zhǔn)確這一優(yōu)點使其在一定的領(lǐng)域和時間內(nèi)仍會被使用,機器人搜索引擎是當(dāng)前各種搜索引擎的主流,但隨著網(wǎng)絡(luò)信息量的增加,單一搜索引擎已經(jīng)難已滿足要求,結(jié)合目錄式搜索引擎,機器人搜索引擎的優(yōu)勢,以元搜索引擎為核心的多層搜索引擎是搜索引擎的發(fā)展方向。

搜索引擎技術(shù)功能強大,提供的服務(wù)也全面,它們的目標(biāo)不僅僅是提供單純的查詢功能,而是把自己發(fā)展成為用戶首選的Internet入口站點。目前的搜索引擎主要有幾個特點:多樣化和個性化的服務(wù)。強大的查詢功能。目錄和基于Robot的搜索引擎相互結(jié)合。目前搜索引擎是網(wǎng)絡(luò)上被使用頻率最高的服務(wù)項目之一,隨著Internet的發(fā)展,網(wǎng)上龐大的數(shù)字化信息和人們獲取所需信息能力之間的矛盾突出。搜索結(jié)果豐富的搜索引擎技術(shù)正在被信息更集中的局域網(wǎng)取代,因為搜索系統(tǒng)的表現(xiàn)與用戶的期望值相差太大,諸如數(shù)據(jù)量高速增長的視頻、音頻等多媒體信息的檢索,仍然無法實現(xiàn)。

搜索引擎越來越不能滿足用戶的各種信息需求,如收集的網(wǎng)頁數(shù)量和其數(shù)據(jù)庫的更新速度存在著不可調(diào)和的矛盾。用戶經(jīng)常無法打開查詢的結(jié)果。網(wǎng)絡(luò)信息時刻變動,實時搜索幾乎不可能。網(wǎng)絡(luò)信息收集與整理是搜索引擎工作的重要部分。搜索引擎需要定期不斷地訪問網(wǎng)絡(luò)資源。目前網(wǎng)絡(luò)帶寬不足,網(wǎng)絡(luò)速度慢,遍歷如此龐雜的網(wǎng)絡(luò)時間花費非常龐大,這就是不能實時搜索的原因。(編選: 勇全)

參考文獻

[1]張興華.搜索引擎技術(shù)及研究[J].現(xiàn)代情報,2004,(4).

[2]唐銘杰.論搜索引擎的發(fā)展概況及發(fā)展趨勢[J].情報雜志,2001,(5).

[3]陽小華.分布式WWW信息收集技術(shù)[J].計算機工程與應(yīng)用,2000,(5).

第4篇

【關(guān)鍵詞】專利信息 關(guān)鍵技術(shù) 檢索

1 專利系統(tǒng)概述

伴隨著計算機技術(shù)的不斷發(fā)展,以計算機平臺為基礎(chǔ)的專利系統(tǒng)愈來愈多,特別是可視化分析軟件呈現(xiàn)了明顯的上升趨勢,如Ucinet、Netdraw、Pajek等網(wǎng)絡(luò)分析軟件的出現(xiàn),極大程度上推動了分析可視化的發(fā)展,為專利系統(tǒng)進一步完善提供了基礎(chǔ)。可視化分析軟件相對于傳統(tǒng)檢索模型而言,表達更為直觀、便利性較好,可為用戶提供更為優(yōu)質(zhì)的服務(wù)。這將是未來專利系統(tǒng)發(fā)展的重要方向之一。

2 專利系統(tǒng)架構(gòu)分析

2.1 整體結(jié)構(gòu)

本研究設(shè)計的專利系統(tǒng)主要由三個部分構(gòu)成,即專利信息檢索子模塊、信息抽取子模塊,信息分析子模塊。實際應(yīng)用過程中,用戶先經(jīng)由系統(tǒng)用戶接口,給予某種專利檢索查詢表達方式。此時,系統(tǒng)檢索模塊則會對這種表達方式進行針對性處理,對其語法進行調(diào)整,轉(zhuǎn)變?yōu)榻y(tǒng)一化的規(guī)范性表達方式。經(jīng)過檢索模塊處理后,可對檢索詞概念擴展影響因素進行消除,并經(jīng)由知識庫對檢索詞進行概念擴張?;贒eep Web主題爬蟲對檢索表達式進行模擬,并查詢URL構(gòu)造,可達到抓取網(wǎng)頁源文件的目的。上述網(wǎng)頁文件會被系統(tǒng)下載下來,再通過抽取子模塊進行預(yù)處理,其中網(wǎng)頁中不合規(guī)格的內(nèi)容將會被清除。經(jīng)過XML轉(zhuǎn)換,并結(jié)合相關(guān)技術(shù)(XML、XSLT)對有效信息進行抽取,以獲取專利數(shù)據(jù)庫。

2.2 檢索框架

檢索子模塊對表達式語法進行處理后,語法結(jié)構(gòu)也就變得相對完整。但即便如此,表達式在語義層面上依然會出現(xiàn)偏差。在關(guān)鍵詞檢索方面,如果語義偏離程度較大,將會使檢索質(zhì)量有所下降。為了降低語義偏差所帶來的影響,可構(gòu)建專門的領(lǐng)域知識庫,對檢索詞匯語義進行有效概念擴展,從而對檢索表達方式進行優(yōu)化。這樣,信息檢索將由詞匯層面上升至概念層面。實際專利檢索過程中,查詢活動幾乎都是通過專利網(wǎng)絡(luò)數(shù)據(jù)庫完成的,這個過程中需要利用Deep Web來收集信息。因此,采取Deep Web主題爬蟲對相關(guān)數(shù)據(jù)源進行分析、處理,可讓檢索活動更為高效,從而為用戶提供更為可靠的信息。

2.3 抽取框架

抽取子模塊主要通過以下流程進行工作,如圖1所示。

抽取子模塊的主要功能是對相關(guān)網(wǎng)頁信息進行處理,通過格式整理、XML轉(zhuǎn)化等,對網(wǎng)頁中的專利信息進行有效提取,并將這些信息收集、整合起來,以獲取相關(guān)專利數(shù)據(jù)庫。從網(wǎng)絡(luò)環(huán)境來看,多數(shù)網(wǎng)頁格式為HTML。然而,從HTML網(wǎng)頁中提取信息具有一定難度。因此,需先將HTML轉(zhuǎn)變?yōu)閄ML,然后通過相關(guān)技術(shù)(XML、XSLT)來提取有效內(nèi)容。抽取完成后,數(shù)據(jù)庫可收入相關(guān)專利信息(基于數(shù)據(jù)庫映射技術(shù)),并得到本地專利數(shù)據(jù)庫。用戶再次查詢的時候,便可借助本地數(shù)據(jù)庫執(zhí)行。

2.4 分析框架

系統(tǒng)通過分析子模塊可對專利信息進行預(yù)分析,并對深層次信息進行發(fā)掘。將專利數(shù)據(jù)從專利文獻當(dāng)中提取出來,這對于技術(shù)分析具有重要的支持作用。分析子模塊可充分利用本地數(shù)據(jù)庫,并從中篩選出累積的專利申請?zhí)柕刃畔?。這些信息被提取后,通過專門的軟件進行統(tǒng)計,得到相關(guān)統(tǒng)計圖表,這樣便可清晰地了解到專利發(fā)展趨勢及方向。

3 關(guān)鍵性技術(shù)概述

實現(xiàn)專利系統(tǒng)的過程中,通常會涉及到以下關(guān)鍵技術(shù):

(1)表達式語法轉(zhuǎn)換。檢索詞中的字母會統(tǒng)一成小寫字母;當(dāng)出現(xiàn)連字號(-)時,會直接刪除;無實際含義詞匯(停用詞)會直接刪除;對具有實際意義的詞匯會進行分詞處理,使關(guān)鍵詞概念得以有效擴展。

(2)領(lǐng)域知識庫。構(gòu)建領(lǐng)域知識庫,便于關(guān)鍵詞實現(xiàn)概念擴展,從而提升檢索質(zhì)量。領(lǐng)域知識庫由DBpedia數(shù)據(jù)集及WordNet語義詞典構(gòu)成。檢索詞經(jīng)規(guī)范化處理后,經(jīng)由領(lǐng)域知識庫予以擴展,得到同義詞集合。

(3)Deep Web主題爬蟲。本研究中Deep Web主題爬蟲主要面向?qū)ο鬄閁SPTO,爬蟲通過分析URL結(jié)構(gòu)及經(jīng)過概念擴展的檢索表達式,將URL構(gòu)造以表單方式提交,并與數(shù)據(jù)庫進行交互,得到對應(yīng)的專利信息,以可視化的方式供于用戶使用。

4 結(jié)語

專利是目前技術(shù)信息的有效載體之一,其容納了絕大部分最新技術(shù)情報。對于企業(yè)發(fā)展乃至行業(yè)發(fā)展而言,專利有著重要的價值。在這種背景下,專利信息獲取與分析系統(tǒng)將愈來愈受到關(guān)注,未來其將獲取更為廣泛的應(yīng)用空間。

參考文獻

[1]翟東升,劉晨,歐陽軼慧.專利信息獲取分析系統(tǒng)設(shè)計與實現(xiàn)[J].現(xiàn)代圖書情報技術(shù),2009,05:55-60.

[2]陳瓊娣.基于詞頻分析的清潔技術(shù)專利檢索策略研究[J].情報雜志,2013,06:47-52.

[3]翟東升,張欣琦,張杰,康寧.分布式專利信息抽取系統(tǒng)設(shè)計與構(gòu)建[J].現(xiàn)代圖書情報技術(shù),2013,Z1:114-121.

第5篇

[關(guān)鍵詞]多媒體信息檢索;圖像檢索;TBIR;CBIR

[中圖分類號]TP393 [文獻標(biāo)識碼]A

[文章編號]1007-4309(2011)01-0074-1.5

隨著通信和計算機的發(fā)展,存儲技術(shù)的提高和Interact的日漸普及,我們擁有了海量的信息資源。這其中,不僅僅有簡單的文本數(shù)據(jù),更加包括了大量的圖像、視頻等多媒體信息。很明顯,只有合理地組織這些資源,并研究高效的查詢方法和檢索方法,才有可能充分利用它們。于是各種針對Interact的圖像搜索引擎應(yīng)運而生,極大地方便了用戶對Interact圖像進行檢索。

Web圖像檢索系統(tǒng)按照其組織和管理圖像方式的不同,主要可以分為以下幾類。基于文本的圖像檢索(Text-Based ImageRetrieval,簡稱TBIR)和基于內(nèi)容的圖像檢索(content-BasedImage Retrieval,簡稱CBIR)以及綜合文本信息和圖像視覺信息的web圖像檢索。

一、基于文本的圖像檢索

傳統(tǒng)的信息檢索是基于關(guān)鍵字的信息檢索,即輸入關(guān)鍵字,檢索出與之相匹配的文本對象。哪怕檢索對象本身不是文本,而是例如聲音、圖形、圖像、視頻等其他類媒體,也是用關(guān)鍵字對這類媒體對象進行標(biāo)識或索引,建立起與這類媒體對象之間的邏輯聯(lián)系。

TBIR的歷史可以追溯到20世紀(jì)70年代,由于數(shù)據(jù)庫技術(shù)的進步而建立和發(fā)展了基于文本的圖像檢索技術(shù),并取得了一定成果,例如數(shù)據(jù)建模、多維數(shù)據(jù)索引、查詢優(yōu)化和查詢評估等。圖像數(shù)據(jù)研究者們在對圖像進行文本標(biāo)注的基礎(chǔ)上,對圖像進行基于關(guān)鍵字的檢索。其基本步驟是先對圖像文件建立相應(yīng)的關(guān)鍵字或描述字段,并將圖像的存儲路徑與該關(guān)鍵字對應(yīng)起來,然后用基于文本的數(shù)據(jù)庫管理系統(tǒng)來進行圖像檢索。該方法實質(zhì)是把圖像檢索轉(zhuǎn)換為對與該圖像對應(yīng)的文本檢索。

早期的圖像檢索系統(tǒng)采用文本數(shù)據(jù)形式對圖像進行人工注釋,建立圖像索引數(shù)據(jù)庫。這種人工標(biāo)注的方法適合有限范圍的圖像庫管理系統(tǒng),如人事檔案照片庫、動物圖譜庫、商標(biāo)圖案庫等。但在Web環(huán)境中,Web圖像數(shù)據(jù)是海量的,無法采用人工方式對圖像進行廣泛的關(guān)鍵信息標(biāo)注,只得借助Web中相關(guān)的文本信息,采用適當(dāng)?shù)乃惴ㄌ崛D像的主題,實現(xiàn)圖像自動標(biāo)注。顯然,對圖像自動標(biāo)注的準(zhǔn)確性依賴于Web中圖像關(guān)鍵信息的提取算法。目前這些關(guān)鍵信息的提取主要從以下幾個圖像的外部信息中提取:圖像的文件名及網(wǎng)址、圖像的替代文字、圖像周圍的文字、圖像所在頁面的標(biāo)題、圖像的超鏈接、圖像所在網(wǎng)頁彼此間的鏈接。

目前多數(shù)圖像搜索引擎(網(wǎng)站),如Google、Yahoo、Al-taVista、Infoseek、LyCOS、Scour、WebSeek、搜狐等,普遍采用此種方式。有的研究者把網(wǎng)頁按照其組織內(nèi)容的框架和結(jié)構(gòu)將網(wǎng)頁分割成多個基本塊,然后將塊內(nèi)的元素作為一個基本的語義單元實現(xiàn)Web檢索。有些研究者使用網(wǎng)頁內(nèi)的鏈接信息實現(xiàn)Web檢索。還有些人使用縮略圖幫助web用戶在基于文本檢索的結(jié)果中更好地定位感興趣的圖像;部分研究者使用網(wǎng)頁的文本片段(Text Snippet)和圖像片段(Image Snippet)幫助用戶快速定位其感興趣的網(wǎng)頁。

互聯(lián)網(wǎng)上的網(wǎng)頁搜索是由網(wǎng)絡(luò)爬蟲完成的,但是隨著Web的發(fā)展,其結(jié)構(gòu)越來越復(fù)雜,其中的網(wǎng)頁數(shù)量越來越多,通用爬蟲越發(fā)不可能訪問Web L的所有網(wǎng)頁并及時進行更新,簡短的關(guān)鍵詞輸入無法表達出用戶的復(fù)雜查詢語義。

“主題爬蟲”這一概念是由S,Chakrabarti在1999年WorldWide Web大會上首次提出的。與一般的網(wǎng)絡(luò)爬蟲不同,主題網(wǎng)絡(luò)爬蟲不是對所有鏈接不加選擇地爬行,而是面向主題地、有選擇地爬行。主題爬蟲分析每個網(wǎng)頁的鏈接,預(yù)測哪些鏈接指向的網(wǎng)頁可能和預(yù)定主題相關(guān),對這些鏈接進行優(yōu)先爬行,而舍棄那些和主題無關(guān)的鏈接。

目前,主題網(wǎng)絡(luò)爬蟲技術(shù)研究正在成為一個熱點。在1999年出現(xiàn)了IBM Focused Crawler。如今,主題爬蟲又有了新的發(fā)展,國外典型的系統(tǒng)有Context Graphs Focused Crawler、WTMS系統(tǒng)等。

二、基于內(nèi)容的圖像檢索

20世紀(jì)90年代初,人工智能、數(shù)字信號處理、統(tǒng)計學(xué)、自然語言理解、數(shù)據(jù)庫技術(shù)、心理學(xué)、計算機視覺、模式識別和信息處理等技術(shù)都得到了不同程度的發(fā)展。在此基礎(chǔ)上,為了克服基于文本信息檢索帶來的困難,提出基于內(nèi)容的圖像檢索(content-Based Image Retrieval,簡稱CBIR)技術(shù),從可視化角度對圖像檢索進行探討。所謂基于內(nèi)容的圖像檢索,是使用圖像的顏色、紋理、形狀等低層視覺特征從圖像庫中查找含有特定對象的圖像。它區(qū)別于傳統(tǒng)的檢索手段,融合了圖像理解技術(shù),從而可以提供更有效的檢索手段并實現(xiàn)自動化檢索。CBIR具有如下特點:直接從圖像中提取特征建立索引;檢索匹配是一種近似匹配,這一點與常規(guī)數(shù)據(jù)庫檢索的精確匹配方法有明顯不同;特征提取和索引建立可由計算機自動實現(xiàn),避免了人工描述的主觀性,大大減少了工作量。圖像的視覺特征是在像素數(shù)據(jù)基礎(chǔ)上提取的,可用于基于圖像直觀形象的檢索。

在這期間,比較典型的基于內(nèi)容的圖像檢索系統(tǒng)代表有QBIC、Photobook、Virage、Visualseek和MARs等。這些系統(tǒng)都遵循同一個模式:用圖像的顏色、形狀、紋理等視覺特征表示圖像的內(nèi)容,利用查詢例圖的視覺特征和底層數(shù)據(jù)庫中圖像的視覺特征進行匹配來完成檢索。

從目前基于內(nèi)容的圖像搜索演示系統(tǒng)的檢索結(jié)果看,檢索效果并不理想,其根本原因是低層的視覺特征與高層的圖像語義之間存在的“語義鴻溝”。低層的視覺特征不能代表圖像豐富的內(nèi)涵,用戶搜索圖像更關(guān)心的是概念層次上圖像的內(nèi)容和圖像表現(xiàn)的寓意,也就是圖像的高層語義。因此,圖像檢索的理想方式是根據(jù)圖像的語義進行檢索,目前將低層圖像特征映射到高層語義的圖像語義生成方法主要分為三種,分別是基于知識的語義提取、人工交互語義提取和利用外部信息源的語義生成。

三、綜合文本信息和圖像視覺信息的web圖像檢索

Web圖像的文本信息和視覺信息在Web圖像檢索中都具有十分重要的作用,因此許多研究者開始研究基于包含這兩種信息在內(nèi)的Web圖像檢索。由于各種信息之間是異構(gòu)的,很難直接將它們?nèi)诤显谝黄?,所以針對不同信息通常采用不同的模型實現(xiàn)Web圖像檢索。例如文本信息主要采用傳統(tǒng)的TBIR模型,圖像視覺信息主要采用傳統(tǒng)的CBIR模型,而鏈接信息則主要采用基于圖論的模型。由于不同信息之間的異構(gòu)性,很難評價不同的信息對于Web圖像檢索的貢獻,因此多個模型之間的最優(yōu)組合是一個不可解問題。

一部分研究者使用文本信息和圖像低層視覺信息檢索圖像,在計算文本信息之間的相似性時通過計算它們對應(yīng)向量之間夾角的余弦,而計算視覺信息之間的相似性時通過計算它們對應(yīng)向量之間的歐幾里德距離。然后使用線性方式將上述的兩個度量組合起來,并且設(shè)置二者權(quán)重相同,即認為文本信息和視覺信息在Web圖像檢索中的重要程度一樣。一部分研究者采用了類似的策略將基于文本信息查詢的模型和基于圖像視覺信息查詢的模型線性地組合起來,但這兩個模型的權(quán)重是給定訓(xùn)練庫的基礎(chǔ)上通過機器學(xué)習(xí)手段獲得。一部分研究者使用LDAfLatent Dirichlet Allocation模型捕獲圖像視覺特征和文本特征之間的聯(lián)合概率分布以及條件概率分布。一部分研究者也使用概率模型組合基于文本信息的模型和基于視覺信息的模型,基于文本信息的檢索模型采用的是語言模型,模型的參數(shù)估計采用被廣泛應(yīng)用的TF/IDF;基于視覺信息的檢索模型采用的是高斯混合模型,模型的參數(shù)估計采用EM算法。

四、總結(jié)

本章主要對基于文本信息、視覺信息、文本信息和視覺信息的組合的Web圖像檢索進行了研究,介紹了基于關(guān)鍵詞的高層語義層特征,以及基于圖像顏色、紋理、形狀等低層視覺特征的圖像索引和檢索技術(shù),并介紹了幾種典型的基于TBIR和CBIR方法的圖像檢索系統(tǒng)。

[參考文獻]

[1]夏定元,基于內(nèi)容的圖像檢索通用技術(shù)研究及應(yīng)用[D],華中科技大學(xué),2004

第6篇

>> 關(guān)于垂直搜索引擎的研究與思考 開源網(wǎng)絡(luò)爬蟲在垂直搜索引擎應(yīng)用 垂直搜索引擎應(yīng)用研究 垂直搜索引擎系統(tǒng)研究與實現(xiàn) 淺談垂直搜索引擎技術(shù)的應(yīng)用 淺析垂直搜索引擎的應(yīng)用 Heritrix在垂直搜索引擎中的應(yīng)用 基于語義的垂直搜索引擎的研究 基于.NET搜索引擎的研究與應(yīng)用 基于BlogRank與標(biāo)簽的學(xué)術(shù)博客垂直搜索引擎研究 基于Heritrix和Lucene的電力新聞垂直搜索引擎研究與實現(xiàn) 基于Heritrix與Lucene的垂直搜索引擎研究 垂直搜索:搜索引擎的激情所在 基于垂直搜索技術(shù)的搜索引擎 試比較垂直搜索引擎和傳統(tǒng)的搜索引擎 基于神經(jīng)網(wǎng)絡(luò)的搜索引擎應(yīng)用 搜索引擎與網(wǎng)絡(luò)社會的構(gòu)建 構(gòu)建庫區(qū)農(nóng)業(yè)垂直搜索引擎研究 搜索引擎研究與開發(fā) 搜索引擎的應(yīng)用及研究 常見問題解答 當(dāng)前所在位置:l.parser和javax.swing.text.html即可。主要用以下幾個類HTMLEdltorKIt.Parse,HTMLEditorKit.Parser,HTML.Tag,HTML.Attrlbute。

第一步是實現(xiàn)HTMLEditorKit.Parser.getParser()方法的pulbic訪問性。代碼如下:

第二步是先構(gòu)建ParserCallBack類的子類,實現(xiàn)解析待處理的文件,再重寫handleComment,handleEndTag,handleError,handleSimpleTag,handleStartTag和handleText方法。當(dāng)HTMLEditorKit.Parser對象在解析HTML文件時,遇到不同的標(biāo)簽則調(diào)用相應(yīng)的回調(diào)方法來處理。

第三步是將文檔寫入Reader流中,傳給HTMLEdjtorKit.Parser。首先通過抽象類URLConnection建立與URL指定的數(shù)據(jù)源的動態(tài)鏈接。再實現(xiàn)HTMLEditorKit.Parser類和HTMLEditorKit.ParserCallBack類的實例化,最后使用HTMLEditorKit.Parser對象的parse()方法。

Swing中包含了完整的HTML解析器功能,用戶可以使用它進行開發(fā),解析HTML文檔,從而達到靈活適用的目的。

2測試分析

Mencze[10]等提出用于評價主題網(wǎng)絡(luò)爬蟲系統(tǒng)的指標(biāo)同傳統(tǒng)信息檢索一樣主要有兩個:(1) 爬準(zhǔn)率(Precision); (2) 爬全率(Recal1)。定義分別為: Precision=采集的目標(biāo)網(wǎng)頁數(shù)/總爬行數(shù); Recall=采集的目標(biāo)網(wǎng)頁數(shù)/總的目標(biāo)頁面數(shù)。

為了評價該系統(tǒng)的性能,將本系統(tǒng)與Nutch的搜索結(jié)果進行了比較。Nutch是Apache Software Foundation開發(fā)的一個開源搜索引擎,用Java編寫??梢詾橛脩魳?gòu)建專業(yè)的搜索引擎。Nutch可用于本地文件系統(tǒng)的檢索、內(nèi)部互聯(lián)網(wǎng)的檢索和全球互聯(lián)網(wǎng)的檢索。有關(guān)Nutch的使用可參見官方網(wǎng)站[11]。

在測試中,所選平臺為裝有Windows XP SP2,MSSQL Server 2000、JDK5.0、IntelliJ IDEA等。計算機為P4CPU 2.66GHz,內(nèi)存1GB。Nutch執(zhí)行抓取時,線程數(shù)設(shè)為500、深度為3。種子鏈接兩者相同,都由人工選擇,盡量包括各種成型方法的中心網(wǎng)頁,并指定一些目標(biāo)頁面,取閾值r=0.1。實驗結(jié)果如圖3、圖4所示。

通過圖3、圖4的比較,由于該系統(tǒng)經(jīng)過頁面解析,優(yōu)先爬行跟主題相似度高的網(wǎng)頁中的鏈接。該系統(tǒng)的爬全率、爬準(zhǔn)率明顯優(yōu)于Nutch。

第7篇

關(guān)鍵詞:信息挖掘;搜索引擎;網(wǎng)絡(luò)搜索;網(wǎng)絡(luò)信息挖掘;Java引擎

中圖分類號:TP399 文獻標(biāo)識碼:A文章編號:1007-9599 (2011) 14-0000-01

Java Search Engine Technology Application Study in Web Information Mining

Luo Weisheng

(TISSON Ruida Communication Technology Co.,Ltd.,Guangzhou510600,China)

Abstract:Mining is the key technology required for the user's keywords to the database,a network of keyword matching and filtering and screening.To complete this process,people use crawler technology,network information search,acquisition,temporary storage,analysis,and the formation of the final search results.Java in the process of the formation of search engine technology has played a good application results.

Keywords:Mining;Search engine;Web search;Web Mining;Java engine

一、搜索引擎的組成結(jié)構(gòu)分析

通常意義上的搜索引擎可以分為三個部分,主要是由網(wǎng)絡(luò)蜘蛛、索引器、檢索器共同構(gòu)成,下面就對這三個結(jié)構(gòu)進行逐一的介紹。

網(wǎng)絡(luò)蜘蛛的主要功能就是在指定的網(wǎng)絡(luò)地址或者網(wǎng)頁上收集和發(fā)送信息,并且沿著任何網(wǎng)頁上的URL爬行到其他網(wǎng)頁上,此過程可以按照搜索要求進行重復(fù),從而將爬行過所有的網(wǎng)頁收集到存儲庫中,以備發(fā)掘。

索引器的功能是對搜集回來的存儲庫中的網(wǎng)頁進行分析,提取相關(guān)網(wǎng)頁中的信息,包括網(wǎng)頁所在的URL、頁面內(nèi)容中的關(guān)鍵詞、關(guān)鍵詞的位置、編碼內(nèi)容、時間標(biāo)記、大小、與其他網(wǎng)絡(luò)關(guān)系等,然后在根據(jù)相應(yīng)的設(shè)計好的規(guī)則進行復(fù)雜的計算,從而獲得每一個網(wǎng)頁和超級鏈接中的任何一個關(guān)鍵詞的相關(guān)程度和重要性,然后利用相關(guān)信息建立網(wǎng)頁索引數(shù)據(jù)庫。

二、搜索引擎工作流程分析

搜索引擎在實際的應(yīng)用中工作的流程主要分為四個步驟:在網(wǎng)上搜索網(wǎng)頁、建立索引庫、在索引庫中進行搜尋、對搜索的結(jié)果進行處理和排序。這個過程就將前面搜索引擎的各個組成部分聯(lián)系起來,構(gòu)成一個完整的搜索流程和工作流程,這樣就可以有效的將多個部分組合起來,獲得最終的有效結(jié)果。

三、數(shù)據(jù)挖掘技術(shù)的發(fā)展

數(shù)據(jù)挖掘主要指從大型的數(shù)據(jù)庫中通過某種技術(shù)手段獲得客戶所需的數(shù)據(jù),而這些數(shù)據(jù)往往不是顯而易見的,是隱含的、未知的、潛在的有價值信息。數(shù)據(jù)挖掘是一門廣義上的交叉學(xué)科,對其研究所以需要的是不同領(lǐng)域的知識和技巧,主要的包括了:數(shù)據(jù)庫、人工智能模擬、數(shù)學(xué)模型、可視化研究、計算機語言等相關(guān)的知識。

數(shù)據(jù)挖掘的工具較多,其中主要包括以下幾種:根據(jù)數(shù)據(jù)挖掘的應(yīng)用類型差異可以劃分為,分類模型、關(guān)聯(lián)模型、順序模型、聚簇模型等。安裝計算的方式和算法差異可以分為,神經(jīng)網(wǎng)絡(luò)、決策樹、數(shù)據(jù)可視化、聯(lián)機分析等。目前,數(shù)據(jù)挖掘計算正處在發(fā)展的階段,涉及數(shù)據(jù)挖掘的數(shù)學(xué)理論統(tǒng)計、模糊理論、神經(jīng)網(wǎng)絡(luò)等技術(shù)實現(xiàn)和完善的難度都較大。

四、Web的有價值信息挖掘

(一)Web的信息挖掘。網(wǎng)絡(luò)信息挖掘與數(shù)據(jù)庫信息挖掘相比更加的復(fù)雜,其不同于傳統(tǒng)的數(shù)據(jù)倉庫技術(shù)和簡單的知識發(fā)現(xiàn)過程,網(wǎng)絡(luò)信息是相對海量化的數(shù)據(jù)化結(jié)構(gòu),其豐富的信息構(gòu)成不是簡單的數(shù)據(jù)信息,而是一種文本、圖像、圖形的半結(jié)構(gòu)化數(shù)據(jù),設(shè)置是異構(gòu)的結(jié)構(gòu)數(shù)據(jù)。因此,其知識發(fā)現(xiàn)有數(shù)學(xué)和非數(shù)學(xué)技術(shù);可以演繹也可以歸納。網(wǎng)絡(luò)信息挖掘技術(shù)可以分為四個步驟進行:資源發(fā)現(xiàn);信息選擇預(yù)處理;概括化處理;分析提取。根據(jù)挖掘信息的對象不同,網(wǎng)絡(luò)信息挖掘可以劃分為內(nèi)容挖掘、結(jié)構(gòu)挖掘、用法挖掘。

(二)Java搜索引擎。搜索引擎的出現(xiàn)和發(fā)展的時間較短,但是今天已經(jīng)成為了網(wǎng)絡(luò)應(yīng)用中不可缺少的重要工具。Java搜索引擎是將每個網(wǎng)頁上的關(guān)鍵詞記錄下來,并儲存在索引表中,當(dāng)用戶鍵入某個關(guān)鍵詞的時候,搜索引擎就會根據(jù)索引表將包含有改關(guān)鍵詞的網(wǎng)頁列表,并按照相關(guān)度進行排序。

五、Java搜索引擎技術(shù)在網(wǎng)絡(luò)信息挖掘中的應(yīng)用

下面以網(wǎng)絡(luò)實際的案例說明Java搜索引擎的應(yīng)用。如:著名的網(wǎng)絡(luò)搜索引擎為例,剖析網(wǎng)絡(luò)Java搜索引擎在網(wǎng)絡(luò)信息挖掘中的應(yīng)用。某搜索引擎的機制是一種幾個分布的網(wǎng)絡(luò)爬蟲(蜘蛛)進行同時“爬行”,地址服務(wù)器負責(zé)向爬蟲提供地址列表。爬蟲找到網(wǎng)頁并將其信息傳輸?shù)拇鎯Ψ?wù)器中。存儲服務(wù)其將網(wǎng)頁信息進行壓縮并放入到一個相對集中的知識庫。每個網(wǎng)頁的ID是相對固定的,當(dāng)一個新的URL從一個網(wǎng)頁中解讀出來,就會被分配一個ID。索引庫和排序器將為搜索建立索引,索引庫從知識庫中獲得數(shù)據(jù),將對應(yīng)的文檔解壓開來,并解析。每一個文檔就轉(zhuǎn)換為一組關(guān)鍵詞,這就稱之為HITS。此種方式記錄了關(guān)鍵詞及其所在的位置、字體等信息。索引庫將這些HIT在此進行分組,產(chǎn)生進過部分排序后的索引。索引庫同時分析網(wǎng)頁中的關(guān)鍵連接,并將重要的信息在Anchors保存,此文檔包括了搜索所需的多種信息,可以判斷一個鏈接被鏈入或者鏈出。

接著地址分解閱讀器對Anchors文檔進行解讀,將相對地址變?yōu)閁RLs,并賦予ID,將其編制為索引,并與ID相互鏈接。同時還會產(chǎn)生的“ID”所形成的數(shù)據(jù)庫。這個鏈接數(shù)據(jù)庫將用于計算機所有文檔頁面等級的應(yīng)用。

排序器在挖掘中會讀取barrels,同時根據(jù)ID序列號進行排序。一個稱之為Dump Lexicon的應(yīng)用則將上面的列表和索引庫產(chǎn)生的一個新的詞表相互結(jié)合起來,為另一個新的詞表搜索器所應(yīng)用。這個搜索其就是利用一個Web服務(wù)器,并使用由Dump Lexicon所建立的詞表,利用上訴的排序和頁面等級來回答用戶的搜索請求。

六、結(jié)束語

從此搜索體系結(jié)構(gòu)、搜索原理中可以看到,最為關(guān)鍵的部分是URL分解器獲得有效的Links信息,并將其作為基礎(chǔ)進行計算并得到頁面的重要性等級,這也就完成了網(wǎng)絡(luò)信息挖掘。而隨著網(wǎng)絡(luò)用戶信息需求的復(fù)雜化,人們對網(wǎng)絡(luò)信息挖掘探索也不斷拓展,以Java搜索引擎技術(shù)等為主的智能化搜索技術(shù)的出現(xiàn),將使得面向Web的網(wǎng)絡(luò)信息挖掘也將會變得非常輕松。

參考文獻:

[1]趙夷平.傳統(tǒng)搜索引擎與語義搜索引擎服務(wù)比較研究[J].情報科學(xué),2010,2

第8篇

【關(guān)鍵詞】信息;WEB;智能搜索;Lucene

網(wǎng)絡(luò)時代的今天,每天在Internet上都有新增幾十萬的Web頁面,巨量的網(wǎng)頁面前即使是最執(zhí)著的網(wǎng)絡(luò)沖浪者也不能搜索及訪問到所有的頁面,更不可能在這浩瀚的Web信息海洋中精準(zhǔn)地發(fā)現(xiàn)那多彩中的一隅。簡單的網(wǎng)上查詢已不能滿足這樣的海量信息的匯總查找,必須要開發(fā)出新的更高級、智能的技術(shù)架設(shè)在網(wǎng)絡(luò)搜索中才能應(yīng)時代的需求。將智能化的搜索技術(shù)應(yīng)用恰當(dāng)能很好的輔助用戶快、準(zhǔn)的定位及提取信息,也能幫襯web擁有者將自己的信息最優(yōu)路徑的呈現(xiàn)到億萬用戶面前。"搜索引擎"這個IT業(yè)技術(shù)語言一般統(tǒng)指全文檢索搜索引擎和目錄分類搜索引擎。

1 搜索技術(shù)的定義、發(fā)展

從使用層面考量,應(yīng)用于WEB中的搜索技術(shù)主要說的是一些搜索引擎(Search Engine)技術(shù),它是借用WEB在互聯(lián)網(wǎng)上面向網(wǎng)絡(luò)用戶提供數(shù)據(jù)信息等資源搜索及定向?qū)Ш降确?wù)系統(tǒng)。其中包括web上網(wǎng)頁、URL等,先進行整理、建立管理、執(zhí)行存儲,并提供基于指定索引的數(shù)據(jù)庫的檢索。

搜索引擎技術(shù)是當(dāng)今計算機應(yīng)用技術(shù)的又一個制高點,如今,其發(fā)展已歷經(jīng)三代:(1)人工技術(shù),主要依靠于人工登入、檢索,以YAHOO為代表,這一代搜索引擎的局限在于查全率比較低;(2)智能化前期技術(shù),主要依靠用戶選定的查詢關(guān)鍵詞進行檢索的搜索引擎,以Google和Baidu等為代表,借用WEB ROBOT,面向大多數(shù)INTERNET網(wǎng)頁,并存貯其中的主要文本內(nèi)容、圖片或多媒體信息,仍然不能保證查準(zhǔn)率;(3)準(zhǔn)智能化技術(shù),第三代搜索引擎經(jīng)過進一步的技術(shù)研發(fā),如今功能更加智能化、個性化,努力取得更高的查全率與查準(zhǔn)率,達到更全面的查詢功能。以此技術(shù)的發(fā)展為背景,我們崇尚與首選的必然是當(dāng)下的第三代智能化搜索技術(shù)。例如,在google推出的學(xué)術(shù)搜索引擎中已經(jīng)有這樣的優(yōu)化實現(xiàn)了,它會將同一文獻的不同鏈接地址放在一條結(jié)果信息中,這樣用戶就可以在前三頁中看到更多的頁面鏈接,從而提高了工作效率。

2 智能搜索引擎的系統(tǒng)架構(gòu)及工作原理

智能搜索引擎技術(shù)架構(gòu)的核心技術(shù)就是實現(xiàn)搜索,搜索的對象根據(jù)不同的實際需要而有不同的側(cè)重點,細化看來主要應(yīng)用表現(xiàn)為:網(wǎng)頁內(nèi)容搜索技術(shù)、初始頁面信息存儲技術(shù)、主索引INDEXER、有序信息存儲技術(shù)、及人機交互Web界面。具體看來:(1)網(wǎng)頁內(nèi)容搜索技術(shù):具體化為一組自動執(zhí)行的“網(wǎng)絡(luò)爬蟲”程序,它能夠從廣域的互聯(lián)網(wǎng)WEB中捕捉到相關(guān)的信息。并將信息數(shù)據(jù)分解,從中提取出文本、圖像、視頻等多媒體信息,之后存入初始頁面信息存儲容器中;(2)初始頁面信息存儲,提供一種容器服務(wù),負責(zé)保管抓取到的網(wǎng)頁信息數(shù)據(jù);(3)主索引INDEXER,它是整個搜索引擎系統(tǒng)的核心架構(gòu),它將信息存儲容器中的網(wǎng)頁內(nèi)容細化與分解,再依據(jù)特定的用戶選擇把每個網(wǎng)頁重新分類歸檔后存入存儲容器中;(4)人機交互web界面,主要是提供給客戶端一個操作平臺界面,方便用戶執(zhí)行查詢操作。

3 智能搜索系統(tǒng)的創(chuàng)建

基于智能化的搜索引擎有多種開發(fā)軟件,不同的開發(fā)人員有不同的實際選用,現(xiàn)以JAVA JDK開發(fā)智能WEB檢索系統(tǒng)為例證來系統(tǒng)說明。從系統(tǒng)的應(yīng)用型與穩(wěn)定性等因素考量使用基于JAVA的Lucene軟件包建構(gòu)的基于web中信息內(nèi)容的檢索系統(tǒng)是比較合理的。多年的應(yīng)用驗證了JAVA的很多優(yōu)點,并且Lucene是基于開放源代碼的全文檢索引擎軟件包,它的研發(fā)與開展目的主要是為了向用戶提供一種在目標(biāo)web中信息檢索功能。Lucene軟件包可以便捷的架設(shè)到各個開發(fā)程序中,實現(xiàn)面向用戶應(yīng)用的信息檢索功能?,F(xiàn)今,IT技術(shù)產(chǎn)業(yè)中已有多個Java程序項目都使用了Lucene軟件包作為其后臺的索引引擎技術(shù)支撐。其中,Lucene的API設(shè)計較普遍及應(yīng)用,支持多數(shù)文件、數(shù)據(jù)庫等虛擬映射到它的存儲結(jié)構(gòu)與接口中??偟膩砜矗篖ucene好比一個帶有全文索引的數(shù)據(jù)庫系統(tǒng),這是其區(qū)別其他數(shù)據(jù)庫軟件的核心的特征,它突破了傳統(tǒng)的技術(shù)實現(xiàn)了全文索引機制,同時提供了相應(yīng)的擴展接口,以方便面向不同應(yīng)用的專向定制。Lucene給予的技術(shù)服務(wù)不是更新中只維護一個索引文件,相反是更新過程中不斷創(chuàng)建新的索引文件,并一定間隔后將新的小索引合并到大索引中,提高了索引功效,又不會影響檢索的功效。

lucene軟件包的檢索功能細化為:先期的信息捕獲、中期的構(gòu)建DOCUMENT、后期的建立相關(guān)索引。工作過程中,語言分析部件,查詢分析部件,以及搜索部件都提供了對應(yīng)的虛擬抽象接口,提供專向的定制服務(wù)。在信息數(shù)據(jù)庫中執(zhí)行搜索,關(guān)鍵點是根據(jù)用戶提供的搜索關(guān)鍵字進行查詢、檢索操作。關(guān)鍵字是智能搜索首要面對及處理的對象,怎樣分析、分析結(jié)果也是標(biāo)榜搜索引擎是否實用的要素。但是,其中ANALYZER分析器對中文詞句的支持度不夠,基于此問題背景,要選擇擇一個支持程度較好的中文詞句分析工具軟件,力求滿足對中文查詢語句的支持,推薦使用基于詞庫匹配形式的中文分詞工具。實際應(yīng)用中得出詞庫分詞是現(xiàn)今較好的分詞方式,其中心技術(shù)是依據(jù)一個事先創(chuàng)建完整的詞庫中的字、詞的集合按照指定的算法目標(biāo)詞句逐一匹配與查詢,當(dāng)檢測到庫中有該詞語時,就提取其出來。顯而易見,詞庫分詞的效果是比較理想簡單,但有一點,需要事先建立一個完善的中英文詞庫,然后根據(jù)各種詞語的出現(xiàn)頻率、概率再篩選,最終決定放入詞庫的詞語。切詞后建立全文索引,提供有效、快速地查詢、搜索服務(wù),響應(yīng)用戶基于關(guān)鍵詞或語句的查詢請求事件。

隨著計算機的不斷應(yīng)用與更新,網(wǎng)絡(luò)也以同樣的速度在發(fā)生著翻天覆地的革新及更為廣泛的應(yīng)用,大量的應(yīng)用導(dǎo)致internet中不斷積聚各行各業(yè)的數(shù)據(jù)信息量,人們在應(yīng)用計算機與網(wǎng)絡(luò)的同時,已經(jīng)產(chǎn)生了海量的數(shù)據(jù)與信息的冗余,在一定程度上阻礙了網(wǎng)絡(luò)的高速性。智能檢索技術(shù)的開展目的就是為了解決web中海量的數(shù)據(jù)信息資源與低效的信息獲取手段之間的矛盾,應(yīng)用目標(biāo)是以用戶輸入的關(guān)鍵詞作為搜索標(biāo)準(zhǔn),進行網(wǎng)絡(luò)范圍的智能化查找,從檢索目標(biāo)范圍的確定到檢索結(jié)果的獲取逐一求精,盡可能提升WEB搜索的查全率和查準(zhǔn)率。這也將有利于提高網(wǎng)絡(luò)信息資源利用率、增強網(wǎng)絡(luò)建設(shè)的經(jīng)濟效益和社會效益有著非常積極的意義。因此,基于web的智能搜索技術(shù)被不斷創(chuàng)新與完善,它也成為有效利用與開發(fā)互聯(lián)網(wǎng)絡(luò)知識寶庫的關(guān)鍵之匙。

【參考文獻】

[1]崔維梅,范榮鵬.搜索引擎的技術(shù)現(xiàn)狀和熱點[J].青年記者,2005(15):116-117.

[2]劉平冰.電子電子科技大學(xué)[D].2005(5):7-9.

[3]楊德仁,顧君忠.一種知識型網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[J].華東師范大學(xué)學(xué)報,2006(3):93-94.

第9篇

關(guān)鍵詞:VFP;數(shù)據(jù)采集;高校數(shù)字資源建設(shè)

中圖分類號:TP311.52

隨著信息技術(shù)對高校教育發(fā)展的變革,數(shù)字化資源建設(shè)在高校學(xué)習(xí)資源建設(shè),構(gòu)建學(xué)習(xí)型組織中扮演著重要角色。數(shù)字資源建設(shè)是滿足現(xiàn)代化教學(xué)所需的一項重要教學(xué)基礎(chǔ)資源,是學(xué)校、教師和學(xué)生進行學(xué)習(xí),交流,分享,創(chuàng)新的重要原動力。各高校都把數(shù)字化資源建設(shè)當(dāng)作重點工作開展。然而不少高校面臨著數(shù)字資源建設(shè)經(jīng)費不足,除了購置外部資源外,同時也要內(nèi)部開發(fā)一些數(shù)字資源。對于數(shù)字資源的建設(shè),各高校的數(shù)字資源建設(shè)有共性需求,也有個性的需求,并非外部采購能夠解決。在這樣的前提下,筆者嘗試運用Visual FoxPro(以下簡稱VFP)技術(shù)構(gòu)建可采集網(wǎng)頁數(shù)據(jù)的系統(tǒng),用以采集無版權(quán)問題的在線學(xué)習(xí)資源,將不同來源的學(xué)習(xí)資源匯聚于同一數(shù)據(jù)庫,來構(gòu)建主題數(shù)字資源庫。

1 高校數(shù)字化資源采集需要VFP技術(shù)

1.1 滿足基礎(chǔ)服務(wù)需求的角度選型

從提供基礎(chǔ)服務(wù)角度看,選用何種技術(shù)進行開發(fā)首先是從需求出發(fā),是否能滿足實際工作需要,系統(tǒng)是否能運行穩(wěn)定、高效。而不僅僅是追求先進性。并非最先進的就是最能滿足需要的。筆者進行的數(shù)據(jù)采集只是數(shù)字資源建設(shè)前期的數(shù)據(jù)整理階段的階段性的工具,在時間節(jié)點范圍能能夠滿足高校對數(shù)據(jù)的抓取工作。因此,在需求明確導(dǎo)向前提下,用最經(jīng)濟的手段來實現(xiàn)基礎(chǔ)服務(wù)的穩(wěn)定和高效運行是最合理的。VFP兼有開發(fā)工具和數(shù)據(jù)庫兩方面特征,能夠做到與操作與數(shù)據(jù)的無縫銜接,在前期的數(shù)據(jù)采集與整理上完全能夠滿足用戶需求。

1.2 存量用戶與技術(shù)衍生性

VFP數(shù)據(jù)庫在過去十年中在高校的普及應(yīng)用率較高,不少教學(xué)服務(wù)部門的管理系統(tǒng)都是基于VFP開發(fā)的,如不少高校的教務(wù)系統(tǒng),學(xué)工系統(tǒng)都是基于VFP開發(fā)等。因此,高校中的VFP存量用戶較多,在新系統(tǒng)建設(shè)中,首先要考慮的系統(tǒng)對接的兼容性,后續(xù)增加的系統(tǒng)最好能和之前的系統(tǒng)能夠無縫對接。而且,由于VFP的簡單易學(xué),在系統(tǒng)使用和維護中,不少老師也逐漸摸索、學(xué)習(xí),逐漸掌握了VFP的基礎(chǔ)開發(fā)技能。因此,VFP來開發(fā)數(shù)據(jù)采集系統(tǒng)是一個可以被應(yīng)用環(huán)境接受和用戶認可的工具。

1.3 VFP自身的技術(shù)優(yōu)勢

VFP是開發(fā)工具同時其本身也是數(shù)據(jù)庫。VFP數(shù)據(jù)庫發(fā)展到現(xiàn)在已經(jīng)相當(dāng)成熟,VFP系統(tǒng)小巧,相比Oracle等數(shù)據(jù)庫,其不會占用太多的存儲空間。相比其他數(shù)據(jù)庫,VFP的應(yīng)用程序開發(fā)的效率較高,相比一些開發(fā)語言,VFP本身強大的查詢功能。所以VFP是集開發(fā)和數(shù)據(jù)庫的綜合體,簡單易學(xué),操作靈活。同時,VFP互操作性和對網(wǎng)絡(luò)支持性較強。

2 網(wǎng)頁數(shù)據(jù)采集系統(tǒng)設(shè)計

2.1 VFP技術(shù)介紹

VFP是Microsoft公司推出的數(shù)據(jù)庫開發(fā)軟件,提供多種可視化編程工具,最突出的是面向?qū)ο缶幊?。支持結(jié)構(gòu)化查詢語言(SQL)命令和函數(shù)。由于其函數(shù)豐富、靈活方便、問世較早,在國內(nèi)一段時期廣為流行。目前最新的版本是9.0。時至今日,由于其穩(wěn)定高效、易學(xué)易用,仍有大批高校將其作為小型數(shù)據(jù)庫使用,不少網(wǎng)絡(luò)教學(xué)管理系統(tǒng)前臺軟件也選用VFP開發(fā)。

2.2 系統(tǒng)設(shè)計目標(biāo)

我們將VFP開發(fā)的網(wǎng)頁數(shù)據(jù)采集系統(tǒng)應(yīng)用于學(xué)校數(shù)字化資源建設(shè)子項目——開源版權(quán)的學(xué)習(xí)視頻內(nèi)容的采集,具體來說,是針對國外多所名校提供的開源版權(quán)視頻源網(wǎng)址進行分析和數(shù)據(jù)爬取,最終將開源版權(quán)的文字和視頻數(shù)據(jù)提取、索引并保存入學(xué)校的資源庫。

2.3 系統(tǒng)功能結(jié)構(gòu)

VFP開發(fā)的網(wǎng)頁數(shù)據(jù)采集系統(tǒng)采用了模塊化的設(shè)計,它由一些核部件和插件模塊構(gòu)成。核心部件可以配置,系統(tǒng)部件由管理控制臺、抓取順序控制器、中央控制器、流控制處理器、多線程控制組成。管理控制臺允許操作者進行參數(shù)設(shè)置和任務(wù)管理。抓取順序控制器控制爬取活動的排序和相關(guān)屬性。抓取任務(wù)通過排序后將任務(wù)信息傳遞給中央控制器進行初始化。中央控制器吞吐隊列的URL信息和完成的URL信息,并將任務(wù)指令傳遞給采集工作的核心工作區(qū)——流控制處理器。核流控制處理器的任務(wù)處理是呈流式運作的,包括預(yù)讀、提取和寫入三個部分。流控制處理器的工作是多線程了,保證了整個采集的高效率。

在采集的核心工作區(qū)——在流控制處理器中,工作的流程是這樣的:首先在接到中心控制器傳送來的隊列URL后,開始預(yù)讀,預(yù)讀主要是做一些預(yù)處理工作,對處理進行延遲和重新處理。接著,進行提取工作,提取主要是獲得http資源,進行ip轉(zhuǎn)換,發(fā)出http頭請求和接收響應(yīng),進而抽取目標(biāo)HTML的標(biāo)簽。最后進行寫入,寫入的工作是存儲爬取日志,返回爬取到的內(nèi)容和抽取特性,過濾并作寫存儲的動作。這一流程完成后,流控制處理器會提交完成的URL給中央控制器,做最后的維護。(見圖1)

圖1 系統(tǒng)功能圖

3 系統(tǒng)實現(xiàn)

3.1 程序運行的硬件環(huán)境

操作系統(tǒng)為Microsoft Windows XP或更高,內(nèi)存為1G或更高,硬盤占用約230MB,數(shù)據(jù)爬取采用4MB ADSL寬帶。

3.2 核心程序節(jié)錄

3.3 實驗結(jié)論

我們將VFP開發(fā)的網(wǎng)頁數(shù)據(jù)采集系統(tǒng)應(yīng)用于學(xué)校數(shù)字化資源建設(shè)子項目——開源版權(quán)的學(xué)習(xí)視頻內(nèi)容的采集,針對國外多所名校提供的開源版權(quán)視頻源網(wǎng)址進行分析和數(shù)據(jù)爬取,并測試VFP開發(fā)的網(wǎng)頁數(shù)據(jù)采集系統(tǒng)的性能,為后續(xù)的改進提供測試。我們確立四個指標(biāo),從數(shù)據(jù)采集的正確率、召回率、覆蓋率和程序效率四個方面進行測試。正確率是指VFP開發(fā)的網(wǎng)頁數(shù)據(jù)采集系統(tǒng)能否正確的提取URL,正確率越高,爬取的效果越好;召回率是指程序爬蟲探測到的數(shù)據(jù)與能夠爬取回來的數(shù)據(jù)的比值,召回率越高,爬蟲的效果越好。覆蓋率是指對指定網(wǎng)站采集的覆蓋率,覆蓋率要全;程序的效率是說VFP開發(fā)的網(wǎng)頁數(shù)據(jù)采集系統(tǒng)采集的速度和穩(wěn)定性。經(jīng)過全天24小時無故障,不間斷的運行,累計采集網(wǎng)頁數(shù)據(jù)300多萬頁。數(shù)據(jù)采集的正確率、召回率、覆蓋率和程序效率均得到理想的效果。

4 結(jié)束語

本文闡述了一個基于VFP技術(shù)的網(wǎng)頁數(shù)據(jù)采集爬蟲的一種工作流程和爬行算法,從鏈接和網(wǎng)頁內(nèi)容的分析和提取進行爬行控制,給出了具體實施的核心程序,測試結(jié)果比較滿意?;赩FP技術(shù)的網(wǎng)頁數(shù)據(jù)采集系統(tǒng)本身雖然屬于輕量級,但針對高校數(shù)字化資源建設(shè)的需求現(xiàn)狀,本文提出解決方案經(jīng)過證明,能夠高效的完成網(wǎng)頁數(shù)據(jù)采集,是一種經(jīng)濟、實用、穩(wěn)定和高效的網(wǎng)頁數(shù)據(jù)采集方案。其對高校的數(shù)字化資源建設(shè)起重要作用。但是本系統(tǒng)的性能仍需提高,尤其在URL的優(yōu)先權(quán)選擇上需要進一步改進。

參考文獻:

[1]張敏,孫敏.基于Heritrix限定爬蟲的設(shè)計與實現(xiàn)[J].計算機應(yīng)用與軟件,2013,30(4):33-35.

[2]王永國,張士江,謝倩.基于Visual FoxPro環(huán)境ACCESS數(shù)據(jù)庫操作的實現(xiàn)[J].計算機技術(shù)與發(fā)展,2011,21(1):95-99.

[3]孫庚,馮艷紅,于紅,史鵬輝.一種基于Heritrix的網(wǎng)絡(luò)定題爬蟲算法——以漁業(yè)信息網(wǎng)絡(luò)為例[J].軟件導(dǎo)刊,2010,9(5):47-49.

[4]王映,于滿泉,李盛韜,王斌,余智華.JavaScript引擎在動態(tài)網(wǎng)頁采集技術(shù)中的應(yīng)用[J].計算機應(yīng)用,2004,24(2):33-36.

[5]馬愛芳,仲少云.基于VFP的資料室圖書管理系統(tǒng)的設(shè)計[J].現(xiàn)代情報,2004,(3):104-108.