時間:2022-08-26 18:35:15
導語:在計算機工程導論論文的撰寫旅程中,學習并吸收他人佳作的精髓是一條寶貴的路徑,好期刊匯集了九篇優(yōu)秀范文,愿這些內(nèi)容能夠啟發(fā)您的創(chuàng)作靈感,引領您探索更多的創(chuàng)作可能。
論文摘要:本文針對商科類院校計算機專業(yè)人才培養(yǎng)及特色問題,研討了如何通過開設商科類課程、實踐教學環(huán)節(jié)、第二課堂、參加學術活動、輔修第二專業(yè)、開設計算機在經(jīng)濟管理學科領域的應用課程等方法,落實商科特色的人才培養(yǎng)。
1引言
隨著經(jīng)濟和信息技術的發(fā)展,計算機科學與技術專業(yè)已經(jīng)發(fā)展成為我國招生規(guī)模最大,培養(yǎng)學生最多的專業(yè)之一,計算機專業(yè)不僅需要高層次的計算機科學家和研究員,更多需要的是系統(tǒng)掌握計算機科學理論、計算機軟、硬件及網(wǎng)絡知識的應用型人才,計算機專業(yè)教育應以人才市場為的導向,融合在相關學科的知識,滿足經(jīng)濟社會發(fā)展的對新型復合型人才的需求。在社會對計算機人才的需求呈現(xiàn)多元化的今天,對基礎扎實,具有過硬的技術背景,又有較強實踐能力和有較強市場意識的應用型計算機人才的需求旺盛。因此,從商科類院校的實際特點出發(fā),探索商科類院校的計算機科學與技術專業(yè)人才培養(yǎng)及特色,突出特色和優(yōu)勢,是值得認真研究和需要亟待解決的問題。
2明確人才培養(yǎng)目標,滿足人才市場需求
國家信息化的發(fā)展步伐在加快,信息產(chǎn)業(yè)對人才的需求在進一步增加,從人才就業(yè)形勢來看,一方面用人單位急需實踐能力強,學有所長的計算機人才,另一方面又存在計算機專業(yè)的畢業(yè)生找不到理想工作的問題。究其原因,主要是計算機專業(yè)畢業(yè)生的知識結構與用人單位的需求存在一定的距離。計算機專業(yè)培養(yǎng)的人才應該是熟練掌握計算機軟件開發(fā)技術,精通計算機程序設計;掌握計算機網(wǎng)絡軟硬件技術,能夠從事計算機網(wǎng)絡應用技術開發(fā)和網(wǎng)絡編程技術;掌握計算機硬件技術基礎,具備計算機硬件或產(chǎn)品開發(fā)的潛力;并且通過對上述三個方面知識的選修課程模塊使學生在某一個方面學有所長。商科類院校計算機科學與技術專業(yè)應該結合現(xiàn)代商科特色,與經(jīng)濟、管理等學科結合,滲透和交叉,培養(yǎng)出特色鮮明并且有競爭優(yōu)勢的學生。
3培養(yǎng)目標與專業(yè)特色
商科類院校計算機科學與技術專業(yè)要堅持為經(jīng)濟建設和社會發(fā)展服務。人才培養(yǎng)目標可以確定為:本專業(yè)培養(yǎng)德、智、體、美全面發(fā)展,系統(tǒng)掌握計算機科學理論、計算機軟硬件及網(wǎng)絡理論及應用知識;基礎扎實,綜合素質(zhì)高,實踐能力強,具有市場意識和創(chuàng)新精神,能夠在企事業(yè)、政府部門、學校等單位從事計算機軟件、硬件、網(wǎng)絡系統(tǒng)的研究、開發(fā)和管理等工作的應用型高級技術人才。
商科類院校的計算機專業(yè),培養(yǎng)的是“應用型”人才,通過自身已經(jīng)存在的商科人文環(huán)境,著重培養(yǎng)學生的學習、分析與解決問題、開展創(chuàng)新活動的能力,使學生不僅有計算機軟、硬件及網(wǎng)絡應用知識,又有經(jīng)濟和管理的知識背景,使學生既懂計算機技術,又懂得一些經(jīng)濟和管理方面的知識;當然,培養(yǎng)出來的學生首先應該符合計算機專業(yè)人才培養(yǎng)規(guī)格要求,學生學有所長;同時,和其他院校相比又應具有商科知識背景,能夠在相關專業(yè)領域從事信息技術服務、技術管理和市場開拓工作。使學生既懂技術,又會經(jīng)營管理。
4商科特色的應用型計算機人才培養(yǎng)目標的實現(xiàn)
商科特色的應用型人才培養(yǎng)是由教師教學、學生學習、培養(yǎng)目標、培養(yǎng)模式、教學管理、教學計劃、教學內(nèi)容、教學方法、教學手段等多個方面共同作用來實現(xiàn)的。2006年9月,教育部高等學校計算機科學與技術教學指導委員會編制了《高等學校計算機科學與技術專業(yè)戰(zhàn)略研究報告暨專業(yè)規(guī)范(試行)》,由高等教育出版社出版,其中提出了4個參考的專業(yè)方向,即計算機科學、計算機工程、軟件工程以及信息技術。商科類院校計算機科學與技術專業(yè)適合信息技術方向。
4.1課程體系的設置原則
在培養(yǎng)方案和教學內(nèi)容安排時,即要注重基礎理論、基本知識、基本技能的培養(yǎng),又要突出商科特色,還要注重實用技術與工程開發(fā)能力的培養(yǎng)。計算機科學與技術專業(yè)培養(yǎng)的學生首先應該滿足人才培養(yǎng)規(guī)格要求,在計算機軟硬件和網(wǎng)絡方面有較扎實的基礎和較寬的知識面;學生要熟練掌握軟件編程技術、計算機網(wǎng)絡及網(wǎng)絡設備的配置和使用和計算機硬件系統(tǒng)或產(chǎn)品的開發(fā)潛力,能夠解決生產(chǎn)、生活中的實際問題的能力;課程設置可以從計算機軟、硬件及網(wǎng)絡三類課程入手,構成課程體系和課程模塊。在商科特色的培養(yǎng)方面,要注重學生經(jīng)管、管理知識和理念的培育。通過教學計劃設置商科課程,讓學生了解企業(yè)經(jīng)營和管理的實際問題,通過講座或案例,讓學生了解現(xiàn)代企業(yè)經(jīng)營管理模式,通過成功IT企業(yè)的案例作為現(xiàn)實教材,使學生在經(jīng)營、管理和創(chuàng)業(yè)等方面能夠?qū)W以致用。通過實踐教學使學生具有較強的解決問題能力,獲得一技之長,能夠結合企業(yè)的實際情況,解決生產(chǎn)中的實際問題,縮短企業(yè)對人才需求的距離。
4.1.1專業(yè)的核心課程設置
為了滿足計算機科學與技術專業(yè)人才培養(yǎng)規(guī)格,在專業(yè)核心課程的設置方面要滿足人才培養(yǎng)規(guī)格的需要,開展與各有關課程配套的教學大綱、教材建設工作,把本學科領域前沿的優(yōu)秀學術成果增加到教學內(nèi)容中去。如下表所示。
4.1.2商科特色的建設
商科類院校計算機科學與技術專業(yè),在培養(yǎng)方案中要體現(xiàn)商科背景的培養(yǎng)。主要通過六個層次的教學實現(xiàn),首先,在公共基礎課中開設經(jīng)濟學通論、管理學通論二門課程;第二,在人文科技選修課中,限制學生選修6個學分的經(jīng)濟管理類課程;第三,在專業(yè)選修課中開設財稅實務、項目分析與策劃、行業(yè)營銷、企業(yè)登記運行等專題講座;第四,在獨立實踐教學環(huán)節(jié)中,設置計算機市場調(diào)研、電子及計算機產(chǎn)品營銷實踐等實習環(huán)節(jié);第五,在專業(yè)課中,結合學科建設的優(yōu)勢,開設電子商務技術、信息管理等方面的課程;第六,鼓勵學生參加經(jīng)濟、管理類學術交流活動,輔修經(jīng)濟管理類第二專業(yè);發(fā)揮商科類院校的特色。
4.1.3實踐教學體系建設
實踐教學通過課程內(nèi)實驗、獨立開課實驗、實習、課程設計、畢業(yè)設計、第二課堂、創(chuàng)新學分設置等實現(xiàn)。獨立的實踐教學環(huán)節(jié),如計算機導論實驗、C語言程序設計實驗、大學物理實驗、面向?qū)ο蟪绦蛟O計實驗、計算機網(wǎng)絡工程實驗、大型數(shù)據(jù)庫系統(tǒng)實驗、計算機市場調(diào)研、電子及計算機產(chǎn)品營銷實踐、專業(yè)實習、畢業(yè)實習、面向?qū)ο蟪绦蛘n程設計、數(shù)據(jù)結構課程設計、網(wǎng)絡工程課程設計、軟件綜合課程設計、畢業(yè)設計等。實驗場地可以建設計算機專業(yè)軟件和計算機網(wǎng)絡實驗室,建立軟件技術校內(nèi)實習基地,如建立軟件技術創(chuàng)新實驗室,程序設計基地等。利用社會資源,建設校外實習基地,滿足學生的實習、實踐需要。構建立體的實踐教學體系。
5綜述
商科類院校計算機科學與技術專業(yè)特色,通過培養(yǎng)方案開設商科類課程、實踐教學環(huán)節(jié)、第二課堂、學術交流活動、輔修專業(yè)、開設計算機在經(jīng)濟管理學科領域的應用課程等方法,具體落實學生商科背景、經(jīng)濟管理的知識培育,發(fā)揮商科院校專業(yè)教學、科研優(yōu)勢。
通過建立穩(wěn)定的校外實習基地,使學生盡早接觸社會,了解當?shù)亟?jīng)濟建設和生產(chǎn)實際需求;提高學生實踐能力。建立軟件技術創(chuàng)新校內(nèi)實習基地,鼓勵學生積極參加課外科技創(chuàng)新活動,形成良好的科技創(chuàng)新和專業(yè)學習氛圍,培養(yǎng)高水平的應用型人才。組織學生參加“大學生程序設計大賽”,全國“挑戰(zhàn)杯”課外學術科技作品競賽等活動,為學生提供更多的科技創(chuàng)新活動機會,提高學生專業(yè)學習的主動性和積極性,形成良好的科技創(chuàng)新和專業(yè)學習氛圍,促進專業(yè)建設和實踐教學工作,培養(yǎng)出高水平的具有商科特色的應用型高級技術人才。
參考文獻
[1]蔣宗禮,王志英,李曉明,孫吉貴,樊曉椏.構建計算機科學與技術專業(yè)公共核心課程[J].中國大學教學,2007,(11).
[2]教育部高等學校計算機科學與技術教學指導委員會.高等學校計算機科學與技術專業(yè)戰(zhàn)略研究報告暨專業(yè)規(guī)范(試行)[M].北京:高等教育出版社,2006,(9).
關鍵詞:消費者行為 支持向量機 保健品 仿真技術
引言
消費者行為不僅是營銷策略的基礎,也是目前的熱點研究話題之一。國外早在20世紀50年代就形成了以市場為導向的營銷理念,消費者由“經(jīng)濟人”向“社會人”轉(zhuǎn)變;20世紀80年代進入個性化營銷(微量營銷)階段,開始了以研究消費者行為為主要任務的營銷手段。消費者作為“社會人”,其行為除受自身屬性的影響外,還受消費行為心理、市場前景和預期效果等的作用。因此,分析不同消費者的屬性,總結影響它們的各種因素,揭示消費行為的變化規(guī)律,建立購買行為的分類模型,為今后研究消費者行為的回歸問題奠定基礎。
保健品行業(yè)發(fā)展
我國的保健品行業(yè)從20世紀80年代起步,經(jīng)過二十多年的發(fā)展逐漸壯大(徐劍鋒,2011),“保健”一詞深入人心。保健品的發(fā)展趨勢如表1所示。但就人均來看,我國的保健品消費僅為歐洲發(fā)達國家的30%左右,還有很大的增長空間。為了減緩競爭程度的加劇,開辟更廣的消費途徑,保健品進入了新的變革期。
SVM模型構建
支持向量機(SVM)(鄧乃楊等,2004)基于VC維理論和結構風險最小化原理,通過核函數(shù)實現(xiàn)到高維空間的非線性映射,引入松弛變量和懲罰參數(shù),具有良好的泛化能力或推廣能力。其一般步驟如下:
第一步:給定訓練集T={(x1,y1),…,(xl,yl)}∈(Rn×y)l,其中xi∈Rn,指樣本的各屬性指標;yi∈y={1,-1},i=1,…,l,代表分類標簽。
第二步:選取合適的核函數(shù)K(x,x`)和懲罰參數(shù)C>0,引入非負的松弛變量ξi=(ξ1,…, ξl)T,其中ξi用來軟化約束條件,獲得廣義最優(yōu)超平面的原始最優(yōu)化問題:
s.t. yi((w·xi)+b)≥1-ξi,i=1,…l,
ξi≥0,i=1,…l,C≥0.
第三步:引入Lagrange函數(shù):,其中α=(α1,…αl)T∈Rl+為Lagrange乘子。
第四步:由KKT條件bL(w,b,α)=0,wL(w,b,α)=0和ξL(w,b,α)=0,得到原始問題的對偶問題即凸二次規(guī)劃問題:,
,得解α*=(α*1,…α*l)T。
第五步:計算,選取位于開區(qū)間(0,c)中的α*的分量α*j,據(jù)此計算。
第六步:構造決策函數(shù):,其中符號參數(shù)
實例仿真
(一)數(shù)據(jù)的預處理
原始數(shù)據(jù)通過問卷的形式獲得,問卷主要針對消費者自身的屬性(包括性別、年齡、學歷、工作地、收入狀況、職務類別、消費心理(張麗莉,2010)、市場看法等)展開,并將屬性特征進行數(shù)據(jù)化處理(見表2)。
(二)SVM的訓練與預測
發(fā)放調(diào)查問卷55份,收回52份,收回率94.5%;經(jīng)過合理性選擇,得到有效問卷46份,有效率約占收回問卷的88.5%,整理得到如表3所示的原始數(shù)據(jù)。
根據(jù)SVM進行分類預測的一般步驟,將表3中編號i=1…35的樣本作為訓練集,得到相對的最優(yōu)參數(shù)、訓練模型;i=36…41作為測試集,用來檢測各參數(shù)和優(yōu)化SVM模型;通過預測i=42…46的樣本,得到如表4所示的預測結果。
(三)結果分析
本文借助計算機仿真技術,通過選取不同的核函數(shù)和合適的參數(shù)(李盼池等,2005)實現(xiàn)了對消費者行為的預測,而且預測準確度很高,直觀展示了SVM在建立消費者行為模型上,具有一定的實用價值。在模擬實驗中,選取RBF核函數(shù)會得到比使用其他核函數(shù)圖像更加平滑,擬合效果更好,在以后的使用中應優(yōu)先考慮。
結論
指標向量xi的多維性,造成了仿真實驗中大量復雜的運算,這時選擇合適的核函數(shù)至關重要。不同的核函數(shù)在解決不同的問題上發(fā)揮著不同的作用。本文通過對常見的四個核函數(shù)模擬分析,用其構成的SVM模型進行消費者行為預測。實驗表明,SVM相對于其他分類算法在真實分類中的不理想效果,具有更高的準確度和實用性。
在此之前研究消費者行為方面的論文,多是針對單一屬性的消費群體進行分析的。本文在小樣本條件下,基于支持向量機原理,對影響購買行為的不同因素進行較為系統(tǒng)的分析歸納,并將已有的數(shù)據(jù)與現(xiàn)有的libsvm工具箱等計算機技術相結合進行SVM分類機仿真建模,得到?jīng)Q策函數(shù),實現(xiàn)對單一消費者進行行為分析和預測,更直接地對保健品的生產(chǎn)、營銷和定位提供指導,為企業(yè)有計劃、有準備地進行營銷活動提供理論支持。
盡管如此,本文也存在著一些潛在不足,如問卷的選項設置或有不盡合理的地方;問卷采用網(wǎng)上的方式,其真實性難以保證等。支持向量機在消費者行為方面的研究還屬于發(fā)展階段,很多工作有待于進一步研究:如何選擇更合理的屬性特征、更合適的核函數(shù)和參數(shù),提高模型的泛化能力或推廣能力;怎樣建立高精度的消費者購買能力與屬性特征的回歸模型;如何將支持向量機算法與其他算法相結合,提高解決問題的速度和效率等。
綜上所述,支持向量機通過選擇適當?shù)暮撕瘮?shù)和參數(shù),在解決小樣本、高維模式和非線性問題上具有很強的優(yōu)勢。在對消費者行為模式的研究中,得到的預測效果將比其他數(shù)學模型準確很多,具有廣泛的實踐價值。
參考文獻:
1.李國正.支持向量機導論[M].電子工業(yè)出版社,2003
2.徐劍鋒.保健品的消費者行為分析及其營銷探討[J].時代金融,2011(21)
3.鄧乃楊,田英杰著.數(shù)據(jù)挖掘中的新方法:支持向量機[M].科學出版社,2004
4.張麗莉.消費心理學[M].清華大學出版社,2010
目前,隨著互聯(lián)網(wǎng)和個人電腦的發(fā)展,信息量每天都以指數(shù)級增長,信息檢索[1]成了一種人們獲取日常信息的主要手段。藏文,作為一種古老的書寫文字,其歷史可以追溯到1400多年前。迄今為止,以藏文記載的古典著作浩如煙海,這些書籍在藏民族的傳承和發(fā)展上發(fā)揮著重要的作用。隨著信息時代的到來,以藏文形式記載的各種網(wǎng)頁、文檔也越來越多,利用檢索系統(tǒng)對藏文進行檢索,可以更快地獲取信息,同時也促進了藏文的發(fā)展。
相關詞的自動提示功能(Term Suggestion)在一些常用的網(wǎng)站上可以看到,比如搜索網(wǎng)站谷歌,百度,電子商務網(wǎng)站淘寶,易趣等。相關詞的自動提示功能優(yōu)化了搜索結果,通過系統(tǒng)來猜測檢索人需要的搜索詞語,為檢索人在信息檢索時提供了更多的便利和較準確的檢索結果。圖1顯示了百度搜索引擎上相關詞的提示功能。從該圖我們可以看到,相關詞的提示功能即提高了檢索書寫速度,又延長了檢索詞的長度,為進一步返回更準確的結果提供條件。
圖1 百度上漢語自動提示功能
2 藏文的構成、編碼及分詞
2.1藏文的構成
藏文字是一種拼音文字,可以被看做由基本字符且基本字符通過縱向疊加和橫向連接而成[2][3]。藏文字主要由現(xiàn)代藏文和一些梵音轉(zhuǎn)寫體和反寫體組成。現(xiàn)代藏文是由三十個輔音字母和四個元音字母組成,它是藏文字的主要組成部分。加上梵音的轉(zhuǎn)寫體和反轉(zhuǎn)體,藏文共有四十一個輔音字母和十三個元音字母。圖2給出了一個藏文字的各組成構件,藏文字看起來雖然復雜,但每一個藏文字并不是隨意構成的,它有一套嚴格的構字規(guī)則和文法體系,違犯了構字體系,該字就不能被視為藏文,既不能拼讀,也不會有實際意義。
圖2 藏文字的組成構件
2.2 藏文編碼
由于藏文信息處理技術的起步較晚,在發(fā)展的前期還沒有形成統(tǒng)一的編碼,各個公司在開發(fā)藏文軟件時都使用自己開發(fā)的編碼系統(tǒng)[4],這必然導致各個藏文軟件的不兼容,容易形成亂碼。1997年,國際標準化組織通過了藏文國際編碼標準,藏文有了一個統(tǒng)一的編碼標準體系。信息檢索系統(tǒng)在對檢索詞進行檢索之前,首先要從互聯(lián)網(wǎng)或本地磁盤系統(tǒng)抓取要被檢索的網(wǎng)頁或文檔,然后對文檔進行分析和建立索引,最后文檔才被檢索。在這個過程中,識別被檢索的網(wǎng)頁或文檔的編碼是一項非常重要的工作,只有識別正確,返回的檢索結果才不會形成亂碼。在本系統(tǒng)的開發(fā)測試期間,我們的網(wǎng)頁和文檔主要采用藏文的國際編碼標準,即Unicode編碼。當然,我們也可以對具有不同編碼的藏文網(wǎng)頁或文檔進行統(tǒng)一編碼,然后再進行文檔的分析及索引,這個過程主要涉及到藏文的編碼及轉(zhuǎn)換[5],從文獻[5]可以看出,通過合適的途徑,我們可以把目前不同的藏文編碼統(tǒng)一為國際編碼。
2.3 藏文分詞
藏文詞語之間是用分隔符來劃分的,類似英文中的空格,橫向上又和中文有一定的相似,藏文分詞是進行藏文信息處理的一項基本工作,文獻[6]提出了基于格助詞和接續(xù)特征的藏文自動分詞方案,該方案參考藏文詞語的特點和漢語在分詞方面已經(jīng)做出的一些成績。在本系統(tǒng)的設計中,藏文分詞主要考慮在以下幾個方面:
1) 藏文檢索詞本身應具有實際意義
在信息檢索系統(tǒng)中,用戶想要得到的是滿足需要的實際內(nèi)容,所以輸入的檢索詞也必具有實際意義,這樣的檢索詞在語意和構成上應該符合藏文的相關規(guī)范。對這樣的檢索詞進行分析、建立索引應該能滿足檢索系統(tǒng)的要求。
2) 藏文詞典是實現(xiàn)相關詞提示的一個很好參考模型
在信息檢索系統(tǒng)中,詞典是進行詞句分析的一個參考模型。藏文詞典本身就具有良好的藏文分詞功能,且能幫助用戶糾正檢索詞輸入中的文法錯誤,結合藏文詞典和檢索詞,可以更好地滿足藏文分詞需要。
3) 藏文詞語的權重是實現(xiàn)相關詞提示排序功能的重要指標
詞語的權重是實現(xiàn)相關詞提示的一項重要指標。在信息檢索的過程中,大家都關心的詞可以賦予更高的權重。在藏文相關詞提示系統(tǒng)中,依據(jù)藏文詞語的權重進行排序,權重高的排在前面,以此類推。
3 藏文自動提示功能的實現(xiàn)及測試
3.1 藏文相關詞提示的實現(xiàn)
在藏文相關詞提示的具體實現(xiàn)中,限于提示詞的數(shù)目,相關詞的提取和排序就變得非常重要。設計合理的相關詞提取和排序可以使用戶得到更好的體驗。
1) 藏文詞典排序算法
藏文詞典排序算法按照現(xiàn)有藏文詞典的排序方法,即所有藏文詞語按照藏文基字的先后順序分組排列,每組中各個詞語按第一個音節(jié)為獨體字、有后綴(后加字和再后加字)、有元音、有下加字、有上加字(逐步從簡單到復雜)的順序排列,對于具有元音的詞語也與前者相同,即從基字加元音、有后綴、有下加字、有上加字的順序排列[7][8]。排序的一種實現(xiàn)方法是:首先,把所有的藏文詞語按照基本輔音字母分類成四十一個組,并保持國際編碼標準中輔音字母的先后順序;然后,在同一個組內(nèi),根據(jù)該字所具有的構件元素及構件元素之間的優(yōu)先級來排列藏文詞語;其次,每一個構件元素內(nèi)部的所有字符要有序;最后,整體藏文的優(yōu)先級最大者先排[9][10]。根據(jù)文獻[7],藏文詞條大約常用的是1.4萬余條,那么,怎樣從這1.4萬余條詞語中選取數(shù)量有限的相關提示詞,選取的這些提示詞是否與用戶搜索的信息有關聯(lián),這是藏文相關提示詞設計時要考慮的??紤]到從詞典抽取出的一系列相關詞本身和用戶輸入的檢索詞的相關度并不是很大,所以在本系統(tǒng)的設計中我們只用藏文詞典來進行糾錯和藏文分詞。
2) 基于查詢?nèi)罩镜牟卣Z相關詞的實現(xiàn)方法
用戶通過信息檢索系統(tǒng)輸入檢索詞時,檢索系統(tǒng)會自動記錄用戶的查詢詞和點擊的相關文檔,記錄的文件稱為查詢?nèi)罩綶11]。通過查詢?nèi)罩荆梢郧宄胤治龀鲇脩羰褂妙l率最高的藏文查詢詞。通過信息檢索中的聚類技術[1],對查詢詞進行聚類,這樣就可以得到相關度較高的一系列藏文相關詞了。當用戶輸入檢索詞時,系統(tǒng)根據(jù)用戶輸入的檢索詞的相關字母,選取其中以同樣字母開頭的一些權重較高的詞組,利用權重的大小,進行排序,最后通過檢索系統(tǒng)用戶界面,以下拉列表的方式,返回給用戶一組相關提示詞。其實現(xiàn)框圖如圖3所示。
圖3 藏文相關詞提示的實現(xiàn)框圖
3.2 測試結果
本系統(tǒng)使用了940篇藏文 文檔,為了說明測試結果,只選擇了其中的五個藏文詞語用于相關詞提示,詞語及權重如表1所示,本系統(tǒng)的搜索引擎采用開源Lucene系統(tǒng)。通過表 1可以看出,我們選取的藏文詞語的第一個字母是一樣的,也就是說,本系統(tǒng)的藏文聚類是按照藏文的實際書寫順序,而不是其具體實際語意。
表 1 藏文在不同文檔中的權重
圖4 顯示了輸入檢索詞后具體的實現(xiàn)界面,從該界面可以看出,系統(tǒng)會自動列舉權重比較高的5個藏文相關詞并根據(jù)權重進行排序,且這些相關詞具有確切的語意。用戶可以從中選取檢索的關鍵詞或繼續(xù)檢索以滿足自己的需要。
圖 4 信息檢索系統(tǒng)中藏文相關詞提示的實現(xiàn)界面
4 結束語
藏語作為一個民族語言,其信息處理技術起步較晚,但已經(jīng)有了很大的發(fā)展。鑒于藏文文體的復雜性,藏文在信息檢索方面的研究與國際上還存在著一定的差距,但隨著網(wǎng)絡的發(fā)展,更多的研究人員將投入到藏文信息化的領域上來,藏文在信息檢索方面將會有更進一步的發(fā)展。該文相關研究成果獲得西藏自治區(qū)自然科學基金項目《西藏實施電子政務平臺網(wǎng)絡信息安全及應急預案研究》資助。
參考文獻:
[1] Christopher D.Manning,Prabhakar Raghavan,Hinrich Schutze.信息檢索導論[M].王斌,譯.北京:人民郵電出版社,2010.
[2] 江獲,董穎紅.藏文信息處理屬性統(tǒng)計研究[J].中文信息學報,1995,9(2):37-44.
[3] 才智杰,才讓卓瑪.基于語料庫的藏文字屬性分析系統(tǒng)設計[J].計算機工程,2011,37(22):270-272.
[4] 劉匯丹,芮建武,吳健.藏文網(wǎng)頁的編碼識別與轉(zhuǎn)換[C].中文信息處理前沿進展——中國中文信息學會二十五周年學術會議論文.北京:清華大學出版社,2006:573-580.
[5] http://tools.ietf.org/html/rfc2781
[6] 陳玉忠,李保利,俞士汶,等.基于格助詞和接續(xù)特征的藏文自動分詞方案[J].語言文字應用,2003,1:75-82.
[7] 東噶洛桑赤來.東噶藏學大辭典[M].北京:中國藏學出版社出版,2002.