時間:2023-03-22 17:34:36
導語:在數(shù)據(jù)挖掘技術(shù)分析論文的撰寫旅程中,學習并吸收他人佳作的精髓是一條寶貴的路徑,好期刊匯集了九篇優(yōu)秀范文,愿這些內(nèi)容能夠啟發(fā)您的創(chuàng)作靈感,引領(lǐng)您探索更多的創(chuàng)作可能。
【關(guān)鍵詞】GT4;Web Service;聚類分析
1.引言
計算機網(wǎng)絡技術(shù)的普及與應用給人們的生活帶來了翻天覆地的變化,同時在網(wǎng)絡上產(chǎn)生了大量雜亂無章的數(shù)據(jù)。而網(wǎng)格技術(shù)、Web技術(shù)的發(fā)展,為人們從分布的網(wǎng)絡資源中尋找有價值的信息提供了新的技術(shù)支持,同時也產(chǎn)生了許多基于網(wǎng)格的數(shù)據(jù)挖掘系統(tǒng)。而數(shù)據(jù)挖掘算法又是決定一個數(shù)據(jù)挖掘系統(tǒng)性能的主要衡量指標。任何軟件系統(tǒng)的設計都離不開算法,數(shù)據(jù)挖掘技術(shù)的執(zhí)行效率也與數(shù)據(jù)挖掘算法有關(guān),隨著數(shù)據(jù)庫技術(shù)與數(shù)據(jù)挖掘技術(shù)的成熟與發(fā)展,像分類、聚類、決策樹、關(guān)聯(lián)等等數(shù)據(jù)挖掘算法已相當成熟,可以研究借鑒現(xiàn)有數(shù)據(jù)挖掘方法、數(shù)據(jù)挖掘模式、數(shù)據(jù)挖掘流程,建立一個基于網(wǎng)格的數(shù)據(jù)挖掘系統(tǒng)。筆者以眾多數(shù)據(jù)挖掘算法中的聚類分析算法為例,介紹基于GT4(Globus Tookit 4.0的簡稱,GT4的核心開發(fā)工具包(Java Web Service Core))的數(shù)據(jù)挖掘算法的設計過程。
聚類分析(Clustering Analysis)是一個應用比較廣泛的數(shù)據(jù)挖掘算法,算法的理論研究與實踐應用都已經(jīng)很成熟,把這一成熟的理論應用于基于網(wǎng)格的分布式系統(tǒng)中,會大大提高數(shù)據(jù)挖掘的效率。本文主要研究如何將聚類分析的CURE(Cluster Using Representation)算法和K-平均方法算法應用于基于GT4數(shù)據(jù)挖掘系統(tǒng)中。
2.系統(tǒng)結(jié)構(gòu)設計
基于GT4數(shù)據(jù)挖掘系統(tǒng)的數(shù)據(jù)源是分布式數(shù)據(jù)源,分布式數(shù)據(jù)源是指在物理上分布而邏輯上集中的數(shù)據(jù)源系統(tǒng)。在該系統(tǒng)中,處在這個網(wǎng)格中的每臺計算機就是這個網(wǎng)格的一個節(jié)點,稱之為網(wǎng)格節(jié)點。在眾多的節(jié)點中,要有一個網(wǎng)格節(jié)點來控制和管理其他的節(jié)點,這個節(jié)點就叫做網(wǎng)格中心控制節(jié)點,決策支持都是由網(wǎng)格中心控制節(jié)點完成的。如果要完成某個數(shù)據(jù)挖掘任務,則可以由空閑的網(wǎng)格節(jié)點先按挖掘需求來完成本節(jié)點的挖掘任務,再由網(wǎng)格中心控制節(jié)點來匯總每個節(jié)點的數(shù)據(jù)挖掘情況。局部網(wǎng)格節(jié)點管理的信息具有局限性,涉及的范圍較小,主要完成單個節(jié)點數(shù)據(jù)的管理,對局部的數(shù)據(jù)挖掘結(jié)果進行匯總分析,但是這些局部節(jié)點的數(shù)據(jù)與全局節(jié)點的數(shù)據(jù)又是有一定關(guān)聯(lián)的。根據(jù)以上的分析可知,網(wǎng)格平臺下的數(shù)據(jù)挖掘任務由全局數(shù)據(jù)挖掘與局部數(shù)據(jù)挖掘共同完成。
3.算法的Web Service設計
3.1 全局聚類算法的Web Service設計
網(wǎng)格環(huán)境下的全局控制網(wǎng)格節(jié)點與局部網(wǎng)格節(jié)點間的關(guān)系我們可以理解為上下層的關(guān)系,這樣就可以借鑒基于層次的聚類分析算法,按照層次的自底向上的聚類方式,把全局控制節(jié)點當成是層次聚類的頂層。本課題全局聚類算法借鑒傳統(tǒng)的利用代表點聚類算法CURE。
CURE算法將層次方法與劃分方法結(jié)合到一起,選用有代表性的、固定數(shù)目的空間點來表示一個聚類。算法在開始時,每個點都是一個簇,然后將距離最近的簇結(jié)合,一直到簇的個數(shù)為要求的K。首先把每個數(shù)據(jù)點即局部網(wǎng)格節(jié)點看成一個聚類,然后再以一個特定的收縮因子向中心收縮它們。
CURE算法的主要執(zhí)行步驟如下:
(1)從數(shù)據(jù)源樣本對象中隨機抽取樣本集,生成一個樣本集合S;
(2)將樣本集合S分割為一組劃分,每個劃分大小為S/p;
(3)對每個劃分部分進行局部聚類;
(4)通過隨機采樣剔除聚類增長太慢的異常數(shù)據(jù);
(5)對局部聚類進行聚類,落在每個新形成的聚類中的代表性點,則根據(jù)用戶定義的收縮因子收縮或移向聚類中心;
(6)用相應的標記對聚類中的數(shù)據(jù)標上聚類號。
有了數(shù)據(jù)挖掘算法,就可以完成數(shù)據(jù)挖掘任務了。全局聚類算法的主要功能是響應用戶的數(shù)據(jù)挖掘請求,將對應的請求發(fā)送給局部網(wǎng)格節(jié)點,將局部網(wǎng)格節(jié)點的挖掘結(jié)果整理輸出。全局聚類算法Web Service資源的結(jié)構(gòu)包括算法Web Service接口、算法資源屬性文檔、算法功能實現(xiàn)和算法功能四個部分。
利用傳統(tǒng)的聚類算法完成全局的數(shù)據(jù)的并行挖掘最重要的一步就是將全局聚類算法部署到GT4中,完成全局聚類算法的Web Service設計要經(jīng)過過以下幾步:
第一步:用WSDL(Web Service描述語言,是Web Service提供的XLM語言)來描述數(shù)據(jù)挖掘服務接口,該服務接口可以用Java來定義,利用Java-to-WSDL工具把Java定義的接口轉(zhuǎn)為WSDL文件。
第二步:用Java編寫全局聚類算法(CURE)代碼;
第三步:用WSDD配置文件和JNDI(GT4自帶文件)部署文件;
第四步:用Ant工具打包上面的所有文件,生成一個GAR文件;
第五步:向Web Service容器部署全局數(shù)據(jù)挖掘服務。
3.2 局部聚類算法的Web Service設計
局部聚類算法的主要功能是完成局部網(wǎng)格節(jié)點的數(shù)據(jù)挖掘任務,并把數(shù)據(jù)挖掘結(jié)果上傳到全局控制節(jié)點。局部網(wǎng)格節(jié)點的數(shù)據(jù)挖掘任務與傳統(tǒng)的單機數(shù)據(jù)挖掘任務類似,本課題局部聚類算法使用傳統(tǒng)的聚類算法K-平均方法,以K為參數(shù),把N個對象分為K個簇,簇內(nèi)具有較高的相似度,而簇間的相似度較低[34]。本論文的數(shù)據(jù)挖掘任務主要是由局部網(wǎng)格節(jié)點實現(xiàn)的,下面就詳細的介紹K-平均算法的主要執(zhí)行過程如下:
(1)從數(shù)據(jù)集中任意選擇K個對象作為各個簇的初始中心。
(2)根據(jù)現(xiàn)有的簇中心情況,利用距離公式計算其他對象到各個簇中心的距離。(可選的距離公式有:歐幾里、行德公式、距離公式、曼哈坦距離公式、明考斯基距離公式)。
(3)根據(jù)所得各個對象的距離值,將對象分配給距離最近的中心所對應的簇。
(4)重新生成各個簇的中心。
(5)判斷是否收斂。如果收斂,即簇不在發(fā)生變化,那么停止劃分,否則,重復(2)到(5)。
K-平均算法是一個經(jīng)典的聚類算法,將K-平均算法部署到GT4中,完成局部聚類算法的Web Service設計,部署方法與全局算法相似。
4.結(jié)論
基于GT4的數(shù)據(jù)挖掘系統(tǒng)中的數(shù)據(jù)挖掘服務資源有網(wǎng)格的中心控制節(jié)點(即全局節(jié)點)進行統(tǒng)一的管理,在局部網(wǎng)格節(jié)點挖掘過程中,根據(jù)其處理能力分配最佳的數(shù)據(jù)集給局部節(jié)點,從而使整個系統(tǒng)的計算負載相對均衡。其數(shù)據(jù)挖掘系統(tǒng)的規(guī)??呻S著服務的多少動態(tài)伸縮。當系統(tǒng)要增加新的局部挖掘節(jié)點時,只需部署局部Web Service資源即可。將網(wǎng)格應用到分布式數(shù)據(jù)挖掘系統(tǒng)中,建立一個基于網(wǎng)格的數(shù)據(jù)挖掘系統(tǒng),必將使其在各個領(lǐng)域都得到廣泛的應用。
參考文獻
[1]薛勝軍,馬廷淮,劉文杰.Globus Tookit 4:Java網(wǎng)格服務編程[M].北京:清華大學出版社,2009.
關(guān)鍵詞:數(shù)據(jù)倉庫,數(shù)據(jù)挖掘,電子政務
在電子政務信息建設中已經(jīng)有了成功的電子政務業(yè)務處理和信息管理系統(tǒng),卓有成效的過程控制指揮系統(tǒng)和辦公自動化系統(tǒng)。但從電子政務全局的高層次和大范圍的分析角度去審視,則感到數(shù)據(jù)分散,難以整合。因此,研究電子政務數(shù)據(jù)倉庫和數(shù)據(jù)挖掘很有必要。
1.電子政務信息建設的數(shù)據(jù)倉庫
電子政務數(shù)據(jù)倉庫是電子政務信息架構(gòu)的新焦點,它提供集成化的和歷史化的電子政務業(yè)務數(shù)據(jù);它集成種類不同的電子政務應用系統(tǒng);電子政務數(shù)據(jù)倉庫從事物發(fā)展和歷史角度來組織和存儲電子政務數(shù)據(jù),以供信息化和分析處理之用。它是對現(xiàn)有電子政務信息系統(tǒng)深刻認識的結(jié)果,來自異地、異構(gòu)的電子政務數(shù)據(jù)源或數(shù)據(jù)庫的數(shù)據(jù)經(jīng)過加工后在電子政務數(shù)據(jù)倉庫中存儲、提取和維護。傳統(tǒng)的電子政務數(shù)據(jù)庫主要面向業(yè)務處理,而電子政務數(shù)據(jù)倉庫面向復雜數(shù)據(jù)分析、高層決策支持。電子政務數(shù)據(jù)倉庫提供來自種類不同的電子政務應用系統(tǒng)的集成化和歷史化的數(shù)據(jù),為全局范圍的電子政務戰(zhàn)略決策和社會治安長期趨勢分析提供有效的支持。免費論文參考網(wǎng)。目前,經(jīng)過近20年的建設,全國電子政務信息系統(tǒng)建設已經(jīng)積累了大量數(shù)據(jù),對于電子政務工作起了意義深遠的推動作用,電子政務工作已經(jīng)初步進入了數(shù)字化、電子化、信息化,極大地提高了電子政務工作的效率。以土地管理為例,現(xiàn)在的管理方式是以前不能比擬的。但是,如何將這些數(shù)據(jù)用于全局范圍的戰(zhàn)略決策和長期趨勢分析,則是需要進一步解決的問題。例如,土地問題,近年來始終與住房問題、物價問題和就業(yè)問題一起,成為全國人民非常關(guān)心的問題,其問題有表面的原因,也有深刻的歷史原因和現(xiàn)實原因。如何花較少的代價,將此問題解決得圓滿一些,建設電子政務數(shù)據(jù)倉庫是一重要手段。免費論文參考網(wǎng)。
電子政務數(shù)據(jù)倉庫是一種全新的分布式異構(gòu)數(shù)據(jù)系統(tǒng)的集成方法:把各個信息源中與決策支持有關(guān)的數(shù)據(jù),預先經(jīng)過提取、轉(zhuǎn)換、過濾,并與相應信息源中其它數(shù)據(jù)進行合并,按主題存放在一個中央數(shù)據(jù)庫中,當用戶需要查詢時,可以直接訪問中央數(shù)據(jù)庫,不必訪問其它數(shù)據(jù)源。
電子政務數(shù)據(jù)倉庫包括3個基本的功能部分。數(shù)據(jù)獲取:從電子政務一線數(shù)據(jù)源獲取數(shù)據(jù),數(shù)據(jù)被區(qū)分出來,進行拷貝或重新定義格式等處理后,準備載入電子政務數(shù)據(jù)倉庫。數(shù)據(jù)存儲和管理:負責電子政務數(shù)據(jù)倉庫的內(nèi)部維護和管理,包括數(shù)據(jù)存儲的組織、數(shù)據(jù)的維護、數(shù)據(jù)的分發(fā)。信息訪問:屬于電子政務數(shù)據(jù)倉庫的前端,面向用戶------提取信息、分析數(shù)據(jù)集、實施決策。進行數(shù)據(jù)訪問的工具主要是查詢生成工具、多維分析工具和數(shù)據(jù)挖掘工具等。
電子政務數(shù)據(jù)倉庫的特點:針對全局電子政務業(yè)務戰(zhàn)略分析,非常詳細的數(shù)據(jù),第三范式數(shù)據(jù)結(jié)構(gòu),高層次和大范圍的分析,詳細的歷史信息,存儲和管理大量的數(shù)據(jù),整個數(shù)據(jù)結(jié)構(gòu)統(tǒng)一,索引較少。
因此,原來對分布式異構(gòu)數(shù)據(jù)的復雜訪問變成直接在該倉庫上進行即席查詢的簡單操作:用戶需要某些指定信息和快速查詢,但不一定要最新信息,在這個環(huán)境中需要高性能和訪問信息源中不能長期保存的信息。
電子政務數(shù)據(jù)倉庫是一個比傳統(tǒng)解決方法更為有效的集成技術(shù),即對感興趣的數(shù)據(jù)及其變化預先提取并按公共模式集成到一個中央數(shù)據(jù)庫中,由于分布和異構(gòu)問題被提前解決,用戶可以在中央數(shù)據(jù)倉庫上進行高效的查詢或分析。
由于電子政務數(shù)據(jù)倉庫的體系結(jié)構(gòu),必須照顧電子政務已有的信息系統(tǒng)的體系結(jié)構(gòu),以及相關(guān)的基礎(chǔ)設施,因此,確定電子政務數(shù)據(jù)倉庫的體系結(jié)構(gòu),必須兼顧用戶需求的多變性、基礎(chǔ)設施的復雜性、技術(shù)更新的步伐。數(shù)據(jù)倉庫本身可以使用通用的或者特別要求的數(shù)據(jù)庫管理系統(tǒng)來實現(xiàn)。盡管在圖中表示的是一個單獨的、中央化的數(shù)據(jù)倉庫,實際上,為了達到理想的性能,分布式和并行性往往是必然的選擇。
電子政務數(shù)據(jù)倉庫技術(shù)中一些比較重要的問題是:數(shù)據(jù)倉庫管理,數(shù)據(jù)源和數(shù)據(jù)倉庫的演化,復制帶來的不一致,過期數(shù)據(jù)處理等。電子政務數(shù)據(jù)倉庫管理涉及電子政務數(shù)據(jù)倉庫開發(fā)的各個階段,與之相關(guān)的問題涉及電子政務數(shù)據(jù)倉庫設計、數(shù)據(jù)裝載、元數(shù)據(jù)管理等。數(shù)據(jù)源和數(shù)據(jù)倉庫演化,則是研究電子政務數(shù)據(jù)倉庫體系結(jié)構(gòu)如何順利處理信息源的變化問題,如模式變化、新信息源加入,舊信息源刪除等。復制不一致,是指從各個信息源拷貝來的同一信息或者相關(guān)信息出現(xiàn)的不一致,一般用集成器對這些數(shù)據(jù)進行清理。對于電子政務數(shù)據(jù)倉庫中的數(shù)據(jù),可能會保存很多年,但是一般不會永遠保留下去,這就要求研究比較可靠的技術(shù)以保證過期的數(shù)據(jù),可以自動而有效地從電子政務數(shù)據(jù)倉庫中被清除出去。
2.電子政務數(shù)據(jù)挖掘一般方法
電子政務部門在過去若干年的時間里都積累了海量的、以不同形式存貯的數(shù)據(jù)資料,例如戶籍資料、土地資料和規(guī)劃管理資料等。此外,電子政務工作所涉及到的數(shù)據(jù)類型是相當復雜的,例如:用地指數(shù),其特征抽取相當復雜;土地配置規(guī)律特點,其數(shù)據(jù)聯(lián)系是非平面的,也是非標準立體的。由于這些資料十分繁雜,要從中發(fā)現(xiàn)有價值的信息或者知識,達到為決策服務的目的,成為非常艱巨的任務。電子政務數(shù)據(jù)挖掘一般方法的提出,讓用戶有能力最終認識數(shù)據(jù)的真正價值,即蘊藏在數(shù)據(jù)中的信息和知識。
電子政務數(shù)據(jù)挖掘是按照既定的電子政務業(yè)務目標,對大量的數(shù)據(jù)進行探索、揭示隱藏其中的規(guī)律性并進一步將其模型化的先進、有效的方法。數(shù)據(jù)是按照電子政務數(shù)據(jù)倉庫的概念重組過的,在電子政務數(shù)據(jù)倉庫中的數(shù)據(jù)、信息才能最有效的支持電子政務數(shù)據(jù)挖掘。因此,首先從正在運行的電子政務計算機系統(tǒng)中完整地將數(shù)據(jù)取出;其次各個環(huán)節(jié)的數(shù)據(jù)要按一定的規(guī)則有機、準確地銜接起來,以極易取用的數(shù)據(jù)結(jié)構(gòu)方式,全面地描述該業(yè)務目標。
電子政務數(shù)據(jù)挖掘就是從大量的、不完全的、模糊的、有噪聲的、隨機的數(shù)據(jù)中,提取隱含在其中的、事前不知道的、但是潛在有用的信息和知識的過程。電子政務數(shù)據(jù)挖掘技術(shù)是面向應用的,不僅面向特定數(shù)據(jù)庫的簡單檢索和查詢調(diào)用,而且要對這些數(shù)據(jù)進行微觀和宏觀的分析、統(tǒng)計、綜合和推理,從中發(fā)現(xiàn)事件間的相互關(guān)系,對未來的活動進行預測。
3.基于電子政務數(shù)據(jù)倉庫的數(shù)據(jù)挖掘
基于電子政務數(shù)據(jù)倉庫的數(shù)據(jù)挖掘的方法,是以電子政務數(shù)據(jù)倉庫為中心,各信息源由原始數(shù)據(jù)庫,經(jīng)過打包和集成到電子政務數(shù)據(jù)倉庫;基于電子政務數(shù)據(jù)倉庫的數(shù)據(jù)挖掘,是通過模型庫和方法庫的協(xié)助,對電子政務數(shù)據(jù)倉庫進行數(shù)據(jù)挖掘,從而獲得分析預測結(jié)果和決策支持的。
基于電子政務數(shù)據(jù)倉庫的數(shù)據(jù)挖掘的特點:1、規(guī)模: 電子政務數(shù)據(jù)倉庫中集成和存儲著來自若干分布、異質(zhì)的信息源的數(shù)據(jù)。免費論文參考網(wǎng)。這些信息源本身就可能是一個規(guī)模龐大的電子政務數(shù)據(jù)庫,可以想象數(shù)據(jù)倉庫會有比一般數(shù)據(jù)庫系統(tǒng)更大的數(shù)據(jù)規(guī)模。如何從如此巨量的數(shù)據(jù)中有效的提取有用信息,需要各方面技術(shù)的進步。從當前發(fā)展來看,支持并行處理的分布式DBMS、具有大規(guī)模并行處理(MPP)能力的計算機、超大規(guī)模的存儲機構(gòu)等技術(shù)的發(fā)展和協(xié)同將使電子政務數(shù)據(jù)倉庫走向?qū)嵱谩?、歷史數(shù)據(jù):傳統(tǒng)的電子政務數(shù)據(jù)庫系統(tǒng)為了獲得最大的執(zhí)行效率,往往存儲盡可能少的數(shù)據(jù)量。因為,擁有的數(shù)據(jù)越多,數(shù)據(jù)組織、重構(gòu)、瀏覽、索引和監(jiān)控的難度越大。傳統(tǒng)電子政務數(shù)據(jù)庫系統(tǒng)在“時間”方向的長度很有限。比較而言,電子政務數(shù)據(jù)倉庫的根本特征之一就是進行長時間的歷史數(shù)據(jù)存儲,這使得可以進行數(shù)據(jù)長期趨勢的分析。電子政務數(shù)據(jù)倉庫為長期決策行為提供了獨一無二的支持,電子政務數(shù)據(jù)倉庫中的數(shù)據(jù)在時間方向上具有大的縱深性。3、數(shù)據(jù)集成和綜合性:從全局的角度看,數(shù)據(jù)倉庫集成了電子政務內(nèi)各部門的全面的、綜合的數(shù)據(jù)。電子政務數(shù)據(jù)挖掘面對的是關(guān)系更加復雜的全局模式的知識發(fā)現(xiàn),能更好地滿足高層戰(zhàn)略決策的要求。在電子政務數(shù)據(jù)倉庫中,數(shù)據(jù)已經(jīng)被充分收集起來了,進行了整理、合并,有些還進行了初步的分析處理。另外,電子政務數(shù)據(jù)倉庫中對數(shù)據(jù)不同粒度的集成和綜合,更有效地支持了多層次、多種知識的挖掘。4、查詢支持 電子政務數(shù)據(jù)倉庫面向決策支持,電子政務數(shù)據(jù)倉庫的體系結(jié)構(gòu)努力保證查詢(Query)和分析的實時性。電子政務數(shù)據(jù)倉庫設計成只讀方式,用戶可以直接訪問電子政務數(shù)據(jù)倉庫,挖掘過程可以做到實時交互,使決策者的思維保持連續(xù),挖掘出更深入、更有價值的知識。
電子政務數(shù)據(jù)倉庫和數(shù)據(jù)挖掘是將來電子政務智能化的基礎(chǔ),可以幫助用戶得到他們想知道的信息,有些數(shù)據(jù)也許隱藏人們意想不到的信息,數(shù)據(jù)挖掘就是讓用戶發(fā)現(xiàn)這些隱藏信息的工具。電子政務數(shù)據(jù)倉庫和數(shù)據(jù)挖掘研究和應用所面臨的主要問題:挖掘的對象:更大型的數(shù)據(jù)庫、更高的維數(shù)和屬性之間的復雜關(guān)系;多種形式的輸入數(shù)據(jù);用戶參與和領(lǐng)域知識的融合;證實(Validation)技術(shù);知識的表達和解釋機制;知識的更新和維護;多平臺支持、與其他系統(tǒng)的集成。
近年來,電子政務利用信息技術(shù)的能力大幅度提高,大量數(shù)據(jù)庫被用于土地管理和城市規(guī)劃。為了利用這一巨大的信息資源,從中及時發(fā)現(xiàn)有用的知識,提高信息的價值,使數(shù)據(jù)真正成為電子政務的有力武器,為電子政務自身的業(yè)務決策和戰(zhàn)略發(fā)展服務,電子政務數(shù)據(jù)倉庫和數(shù)據(jù)挖掘是現(xiàn)在和將來的一個重要發(fā)展方向。
論文摘要:隨著數(shù)據(jù)庫技術(shù)和人工智能技術(shù)的不斷進步,數(shù)據(jù)挖掘技術(shù)逐步發(fā)展起來,作為當前計算機信息技術(shù)中的一項較為新興的技術(shù),綜合運用了數(shù)理統(tǒng)計、模式識別、計算智能、人工智能等多項先進技術(shù),主要是從大量的數(shù)據(jù)中來發(fā)現(xiàn)和挖掘一些隱含的有價值的知識,從大型的數(shù)據(jù)庫數(shù)據(jù)中挖掘一些人們比較感興趣的知識,本文主要講了數(shù)據(jù)挖掘技術(shù)的概念、數(shù)據(jù)挖掘技術(shù)在保護設備故障信息中的實現(xiàn)方法以及數(shù)據(jù)挖掘技術(shù)保護設備故障信息管理的基本功能等問題。
數(shù)據(jù)挖掘技術(shù)作為當前計算機信息技術(shù)中的一項較為新興的技術(shù),綜合運用了數(shù)理統(tǒng)計、模式識別、計算智能、人工智能等多項先進技術(shù),主要是從大量的數(shù)據(jù)中來發(fā)現(xiàn)和挖掘一些隱含的有價值的知識,也就是從大型的數(shù)據(jù)庫數(shù)據(jù)中挖掘一些人們比較感興趣的知識,這些被提取的知識通常會表現(xiàn)為模式、規(guī)律、規(guī)則和概念,將數(shù)據(jù)挖掘的所有對象定義成數(shù)據(jù)庫或者是文件系統(tǒng)以及其他的一些組織在一起的數(shù)據(jù)集合,數(shù)據(jù)挖掘技術(shù)也是現(xiàn)在智能理論系統(tǒng)的重要研究內(nèi)容,已經(jīng)開始被應用于行政管理、醫(yī)學、金融、商業(yè)、工業(yè)等不同的領(lǐng)域當中,在保護設備故障信息管理方面發(fā)揮出了積極的作用。
一、數(shù)據(jù)挖掘技術(shù)的概念
隨著數(shù)據(jù)庫技術(shù)和人工智能技術(shù)的不斷進步,數(shù)據(jù)挖掘技術(shù)逐步發(fā)展起來,主要是指從大量的數(shù)據(jù)中發(fā)現(xiàn)和挖掘一些隱含的有價值的有用信息和知識,這些被提取的知識通常會表現(xiàn)為模式、規(guī)律、規(guī)則和概念,將數(shù)據(jù)挖掘的所有對象定義成數(shù)據(jù)庫或者是文件系統(tǒng)以及其他的一些組織在一起的數(shù)據(jù)集合,當前數(shù)據(jù)挖掘技術(shù)已經(jīng)逐漸被應用于了醫(yī)藥業(yè)、保險業(yè)、制造業(yè)、電信業(yè)、銀行業(yè)、市場營銷等不同的領(lǐng)域,隨著計算技術(shù)、網(wǎng)絡技術(shù)以及信息技術(shù)的不斷進步,在故障診斷過程中所采集到的數(shù)據(jù)可以被廣泛地存儲在不同的數(shù)據(jù)庫當中,如果依然采用傳統(tǒng)的數(shù)據(jù)處理方法來對這些海量的信息數(shù)據(jù)進行分析處理,不僅會浪費大量的實踐而且也很難挖掘到有效的信息數(shù)據(jù),同時,盡管智能診斷以及專家系統(tǒng)等方式在故障的診斷過程中已經(jīng)被得到了廣泛的應用,但是這些方法卻仍然存在著很多推理困難、知識瓶頸等一些尚未完全被解決的問題,采用數(shù)據(jù)挖掘技術(shù)就可以比較有效地來解決這些難題,在故障診斷的過程中發(fā)揮其獨特的優(yōu)勢。wWW.133229.Com從不同的角度進行分析,數(shù)據(jù)挖掘技術(shù)可以分為不同的方法,就目前的發(fā)展現(xiàn)狀來看,常用的數(shù)據(jù)挖掘技術(shù)方法主要有遺傳算法、粗集方法、神經(jīng)網(wǎng)絡方法以及決策樹方法等。
二、數(shù)據(jù)挖掘技術(shù)在保護設備故障信息中的實現(xiàn)方法
1.基本原理。在設備出現(xiàn)故障時采用數(shù)據(jù)挖掘技術(shù)對設備進行一系列的故障診斷,也就是說根據(jù)這一設備的運行記錄,對其運行的趨勢進行預測,并對其可能存在的運行狀態(tài)進行分類,故障診斷的實質(zhì)就是一種模式識別方式,對機器設備的故障進行診斷的過程也就是該模式匹配和獲取的過程。
2.對故障診斷的數(shù)據(jù)挖掘方法建模。針對機械故障的診斷來說,首先就應當獲取一些關(guān)于本機組的一些運行參數(shù),既要包括機器在正常運行以及平穩(wěn)工作時的信息數(shù)據(jù),也應當包括機器在出現(xiàn)故障時的一些信息數(shù)據(jù),在現(xiàn)場的監(jiān)控系統(tǒng)中往往就會存在著相應的正常工作狀態(tài)下以及出現(xiàn)故障時的不同運行參數(shù),而數(shù)據(jù)挖掘的任務就是從這些雜亂無章的信息樣本庫中找出其中所隱藏著的內(nèi)在規(guī)律,并且從中提取各自故障的不同特征,在對故障的模式進行劃分時,我們通??梢越柚怕式y(tǒng)計的方式,在對故障模式進行識別時可以采用較為成熟的關(guān)聯(lián)規(guī)則理論,實現(xiàn)變量之間的關(guān)聯(lián)關(guān)系,并最終得到分類所需要用到的一些規(guī)則,從而最終達到分類的目的,依據(jù)這些規(guī)則,就可以對一些新來的數(shù)據(jù)進行判斷,而且可以準確地對故障進行分類,找出故障所產(chǎn)生的原因和解決故障的正確方法。
三、數(shù)據(jù)挖掘技術(shù)保護設備故障信息管理的基本功能
1.數(shù)據(jù)傳輸功能。數(shù)據(jù)挖掘技術(shù)保護設備故障信息管理與分析系統(tǒng)的主要數(shù)據(jù)來源就是故障信息的分站系統(tǒng),而分站系統(tǒng)中的數(shù)據(jù)是各個子站的一個數(shù)據(jù)匯總,而保護設備故障信息管理與分析系統(tǒng)所采用的獲取數(shù)據(jù)的主要方式就是一些專門的通信程序構(gòu)建起系統(tǒng)與分站之間的聯(lián)系,將分站上的一些匯總數(shù)據(jù)傳輸?shù)焦收闲畔⑾到y(tǒng)的數(shù)據(jù)庫中,分析系統(tǒng)所具有的數(shù)據(jù)傳輸功能,在進行數(shù)據(jù)的處理時又能做到不影響原先分站數(shù)據(jù)庫的正常運行,并且具備抗干擾能力強、計算效率高的優(yōu)點。
2.數(shù)據(jù)的分析功能。系統(tǒng)在正常運行時,會從故障信息子站或者是分站采集相關(guān)的數(shù)據(jù)并且對這些采集到的數(shù)據(jù)進行分析整理,最終得到有用的數(shù)據(jù)信息,利用數(shù)據(jù)挖掘技術(shù)對龐大的故障數(shù)據(jù)進行分析、分類以及整理,能夠有效地找出有用的信息,歸并一些冗余的信息,對信息進行有效地存儲和分類。另外,數(shù)據(jù)挖掘技術(shù)還具有信息查詢的功能,可以進行不同條件下的查詢,例如按時間段、報告類型、設備型號以及單位等進行查詢,實現(xiàn)查詢后的備份轉(zhuǎn)存等,根據(jù)故障信息系統(tǒng)所提供高的數(shù)據(jù)信息以及本系統(tǒng)庫中所保存的一些整定阻抗值,可以通過邏輯判斷生產(chǎn)繼電保護動作的分析報告,主要包括對故障過程的簡述、故障切除情況以及保護動作情況等,可以便于繼電保護人員直觀的對保護裝置的動作情況進行分析。
四、結(jié)語
隨著企業(yè)自動化程度的不斷提高以及數(shù)據(jù)庫技術(shù)的迅速發(fā)展,很多企業(yè)在一些重要的設備方面都安裝了監(jiān)測系統(tǒng),對設備運行過程中的一些重要參數(shù)和數(shù)據(jù)進行采集,采用數(shù)據(jù)挖掘技術(shù)可以有效地解決設備故障診斷中的一些知識獲取瓶頸,將數(shù)據(jù)挖掘系統(tǒng)充分應用到監(jiān)控系統(tǒng)中,有效解決故障診斷中的一些困難,事實證明,將數(shù)據(jù)挖掘技術(shù)應用到故障診斷中是非常有效的,也是值得研究和學習的新型技術(shù)手段。
參考文獻:
[1]李勛,龔慶武,楊群瑛,羅思需,李社勇.基于數(shù)據(jù)挖掘技術(shù)的保護設備故障信息管理與分析系統(tǒng)[j].電力自動化設備,2011,9
[2]李建業(yè),劉志遠,蔡乾,趙洪波.基于web的故障信息系統(tǒng)[j].電力信息化,2007,s1
論文關(guān)鍵詞:數(shù)據(jù)挖掘;電子商務;Web數(shù)據(jù)挖掘
1 引言
當前,隨著網(wǎng)絡技術(shù)的發(fā)展和數(shù)據(jù)庫技術(shù)的迅猛發(fā)展,有效推動了商務活動由傳統(tǒng)活動向電子商務變革。電子商務就是利用計算機和網(wǎng)絡技術(shù)以及遠程通信技術(shù),實現(xiàn)整個商務活動的電子化、數(shù)字化和網(wǎng)絡化。基于Internet的電子商務快速發(fā)展,使現(xiàn)代企業(yè)積累了大量的數(shù)據(jù),這些數(shù)據(jù)不僅能給企業(yè)帶來更多有用信息,同時還使其他現(xiàn)代企業(yè)管理者能夠及時準確的搜集到大量的數(shù)據(jù)。訪問客戶提供更多更優(yōu)質(zhì)的服務,成為電子商務成敗的關(guān)鍵因素,因而受到現(xiàn)代電子商務經(jīng)營者的高度關(guān)注,這也對計算機web數(shù)據(jù)技術(shù)提出了新的要求,Web 數(shù)據(jù)挖掘技術(shù)應運而生。它是一種能夠從網(wǎng)上獲取大量數(shù)據(jù),并能有效地提取有用信息供企業(yè)決策者分析參考,以便科學合理制定和調(diào)整營銷策略,為客戶提供動態(tài)、個性化、高效率服務的全新技術(shù)。目前,它已成為電子商務活動中不可或缺的重要載體。
2 計算機web數(shù)據(jù)挖掘概述
2.1 計算機web數(shù)據(jù)挖掘的由來
計算機Web數(shù)據(jù)挖掘是一個在Web資源上將對自己有用的數(shù)據(jù)信息進行篩選的過程。Web數(shù)據(jù)挖掘是把傳統(tǒng)的數(shù)據(jù)挖掘思想和方法移植到Web應用中,即從現(xiàn)有的Web文檔和活動中挑選自己感興趣且有用的模式或者隱藏的數(shù)據(jù)信息。計算機Web數(shù)據(jù)挖掘可以在多領(lǐng)域中展示其作用,目前已被廣泛應用于數(shù)據(jù)庫技術(shù)、信息獲取技術(shù)、統(tǒng)計學、人工智能中的機器學習和神經(jīng)網(wǎng)絡等多個方面,其中對商務活動的變革起到重大的推動作用方面最為明顯。
2.2 計算機Web數(shù)據(jù)挖掘含義及特征
(1) Web數(shù)據(jù)挖掘的含義。
Web 數(shù)據(jù)挖掘是指數(shù)據(jù)挖掘技術(shù)在Web 環(huán)境下的應用,是一項數(shù)據(jù)挖掘技術(shù)與WWW技術(shù)相結(jié)合產(chǎn)生的新技術(shù),綜合運用到了計算機語言、Internet、人工智能、統(tǒng)計學、信息學等多個領(lǐng)域的技術(shù)。具體說,就是通過充分利用網(wǎng)絡(Internet),挖掘用戶訪問日志文件、商品信息、搜索信息、購銷信息以及網(wǎng)絡用戶登記信息等內(nèi)容,從中找出隱性的、潛在有用的和有價值的信息,最后再用于企業(yè)管理和商業(yè)決策。
(2)Web數(shù)據(jù)挖掘的特點。
計算機Web數(shù)據(jù)挖掘技術(shù)具有以下特點:一是用戶不用提供主觀的評價信息;二是用戶“訪問模式動態(tài)獲取”不會過時;三是可以處理大規(guī)模的數(shù)據(jù)量,并且使用方便;四是與傳統(tǒng)數(shù)據(jù)庫和數(shù)據(jù)倉庫相比,Web是一個巨大、分布廣泛、全球性的信息服務中心。
(3)計算機web數(shù)據(jù)挖掘技術(shù)的類別。
web數(shù)據(jù)挖掘技術(shù)共有三類:第一類是Web使用記錄挖掘。就是通過網(wǎng)絡對Web 日志記錄進行挖掘,查找用戶訪問Web頁面的模式及潛在客戶等信息,以此提高其站點所有服務的競爭力。第二類是Web內(nèi)容挖掘。既是指從Web文檔中抽取知識的過程。第三類是Web結(jié)構(gòu)挖掘。就是通過對Web上大量文檔集合的內(nèi)容進行小結(jié)、聚類、關(guān)聯(lián)分析的方式,從Web文檔的組織結(jié)構(gòu)和鏈接關(guān)系中預測相關(guān)信息和知識。
3 計算機web數(shù)據(jù)挖掘技術(shù)與電子商務的關(guān)系
借助計算機技術(shù)和網(wǎng)絡技術(shù)的日臻成熟,電子商務正以其快速、便捷的特點受到越來越多的企業(yè)和個人的關(guān)注。隨著電子商務企業(yè)業(yè)務規(guī)模的不斷擴大,電子商務企業(yè)的商品和客戶數(shù)量也隨之迅速增加,電子商務企業(yè)以此獲得了大量的數(shù)據(jù),這些數(shù)據(jù)正成為了電子商務企業(yè)客戶管理和銷售管理的重要信息。為了更好地開發(fā)和利用這些數(shù)據(jù)資源,以便給企業(yè)和客戶帶來更多的便利和實惠,各種數(shù)據(jù)挖掘技術(shù)也逐漸被應用到電子商務網(wǎng)站中。目前,基于數(shù)據(jù)挖掘(特別是web數(shù)據(jù)挖掘)技術(shù)構(gòu)建的電子商務推薦系統(tǒng)正成為電子商務推薦系統(tǒng)發(fā)展的一種趨勢。
4 計算機web數(shù)據(jù)挖掘在電子商務中的具體應用
(1)電子商務中的web數(shù)據(jù)挖掘的過程。
在電子商務中,web數(shù)據(jù)挖掘的過程主要有以下三個階段:既是數(shù)據(jù)準備階段、數(shù)據(jù)挖掘操作階段、結(jié)果表達和解釋階段。如果在結(jié)果表達階段中,分析結(jié)果不能讓電子商務企業(yè)的決策者滿意,就需要重復上述過程,直到滿意為止。
(2)Web數(shù)據(jù)挖掘技術(shù)在電子商務中的應用。
目前,電子商務在企業(yè)中得到廣泛應用,極大地促進了電子商務網(wǎng)站的興起,經(jīng)過分析一定時期內(nèi)站點上的用戶的訪問信息,便可發(fā)現(xiàn)該商務站點上潛在的客戶群體、相關(guān)頁面、聚類客戶等數(shù)據(jù)信息,企業(yè)信息系統(tǒng)因此會獲得大量的數(shù)據(jù),如此多的數(shù)據(jù)使Web數(shù)據(jù)挖掘有了豐富的數(shù)據(jù)基礎(chǔ),使它在各種商業(yè)領(lǐng)域有著更加重要的實用價值。因而,電子商務必將是未來Web數(shù)據(jù)挖掘的主攻方向。Web數(shù)據(jù)挖掘技術(shù)在電子商務中的應用主要包含以下幾方面:
一是尋找潛在客戶。電子商務活動中,企業(yè)的銷售商可以利用分類技術(shù)在Internet上找到潛在客戶,通過挖掘Web日志記錄等信息資源,對訪問者進行分類,尋找訪問客戶共同的特征和規(guī)律,然后從已經(jīng)存在的分類中找到潛在的客戶。
二是留住訪問客戶。電子商務企業(yè)通過商務網(wǎng)站可以充分挖掘客戶瀏覽訪問時留下的信息,了解客戶的瀏覽行為,然后根據(jù)客戶不同的愛好和要求,及時做出讓訪問客戶滿意的頁面推薦和專屬性產(chǎn)品,以此來不斷提高網(wǎng)站訪問的滿意度,最大限度延長客戶駐留的時間,實現(xiàn)留住老客戶發(fā)掘新客戶的目的。
三是提供營銷策略參考。通過Web數(shù)據(jù)挖掘,電子商務企業(yè)銷售商能夠通過挖掘商品訪問情況和銷售情況,同時結(jié)合市場的變化情況,通過聚類分析的方法,推導出客戶訪問的規(guī)律,不同的消費需求以及消費產(chǎn)品的生命周期等情況,為決策提供及時而準確的信息參考,以便決策者能夠適時做出商品銷售策略調(diào)整,優(yōu)化商品營銷。
四是完善商務網(wǎng)站設計。電子商務網(wǎng)站站點設計者能夠利用關(guān)聯(lián)規(guī)則,來了解客戶的行為記錄和反饋情況,并以此作為改進網(wǎng)站的依據(jù),不斷對網(wǎng)站的組織結(jié)構(gòu)進行優(yōu)化來方便客戶訪問,不斷提高網(wǎng)站的點擊率。
關(guān)鍵詞:聚類分析算法 應用研究 算法描述
中圖分類號:TP311.13 文獻標識碼:A 文章編號:1007-9416(2016)10-0143-01
聚類分析(Cluster Analysis)就是將一組物理事物或抽象對象按照某種聚類規(guī)則或檢驗度量函數(shù)標準劃分不同聚集組別的過程,其中被劃分的若干相對獨立的組為一個類,是一種無監(jiān)督的學習方法。聚類分析方法是數(shù)據(jù)挖掘技術(shù)中的數(shù)據(jù)分析普遍運用方法之一,其功能最終實現(xiàn)被研究數(shù)據(jù)按照相關(guān)聚類分析算法進行聚類,對聚類的事物對象,最終要達到相似度大的對象在同一個聚類群組中,相似度小的對象在不同的聚類群組中,從而歸納出聚類數(shù)據(jù)對象的特征性。聚類分析中的“類(Cluster)”就是一組相似度較高的數(shù)據(jù)集合。聚類分析能夠?qū)⒁唤M事物或數(shù)據(jù)按照聚類算法規(guī)則進行聚類處理,根據(jù)聚類算法規(guī)則的不同而實現(xiàn)各自側(cè)重的聚類分析結(jié)果。
1 聚類分析算法
根據(jù)聚類對象數(shù)據(jù)類型的不同,聚類分析分為R型聚類和Q型聚類,R型聚類是對變量型數(shù)據(jù)的聚類分析,Q型聚類是對具體觀測值數(shù)據(jù)的聚類分析。對數(shù)據(jù)對象的聚類分析要借助于聚類分析算法來實現(xiàn)完成,聚類分析算法的基本定義為:
目標數(shù)據(jù)集合,對于數(shù)據(jù)集合中的任一數(shù)據(jù)元素,具有個特征屬性,任一數(shù)據(jù)元素的屬性特征向量集表示為。通過特定的數(shù)據(jù)分析處理準則對目標數(shù)據(jù)集進行聚類處理后,目標數(shù)據(jù)集被劃分成具有個子集的數(shù)據(jù)類集合,,聚類結(jié)果數(shù)據(jù)集必須滿足:
根據(jù)聚類分析所采取分析方法的不同,聚類分析算法分為基于劃分的聚類分析算法、基于層次的聚類分析算法、基于密度的聚類分析算法、基于網(wǎng)格的聚類分析算法、基于模型的聚類分析算法。
2 K―means聚類分析算法描述
對于給定包含個數(shù)據(jù)對象的數(shù)據(jù)集,按照標準偏移量的目標函數(shù)進行劃分,形成K個聚類。具體操作過程為:
第一步:數(shù)據(jù)規(guī)范化處理。對數(shù)據(jù)對象進行規(guī)范化預處理,消除非法值及極值影響。
第二步:數(shù)據(jù)準備。計算各科標準差:
第三步:計算各初始聚類中心。
第四步:計算與聚類中心最近鄰的數(shù)據(jù)對象,并合并成新類。
第五步:重新計算聚類中心值。
第六步:驗證聚類收斂性。
if 聚類中心值o新變化
結(jié)束聚類 else 轉(zhuǎn)入第四步 endif
第七步:進行各個類數(shù)據(jù)分析。
3 結(jié)語
總之,聚類分析算法是數(shù)據(jù)挖掘中一種常用算法,在數(shù)據(jù)挖掘過程中有很多算法,每種算法都有自己的優(yōu)缺點,數(shù)據(jù)挖掘是一項極其復雜過程,一般情況我們都是多種算法結(jié)合起來一起應用,目的提高工作效率,提高數(shù)據(jù)挖掘的準確性,數(shù)據(jù)挖掘技術(shù)在我國應用領(lǐng)域比較廣,并且取得一定成績,在當今大數(shù)據(jù)時代,研究數(shù)據(jù)挖掘具有一定的現(xiàn)實意義,具有深遠的研究價值。
參考文獻
[1]吳多智.基于語義的手機類產(chǎn)品用戶評論維度挖掘研究[J].安徽電子信息職業(yè)技術(shù)學院學報,2016(03).
[2]孫永輝.聚類分析在學生成績分析中的應用[J].中國管理信息化,2016(06).
[3]巨曉璇,鄒小斌,屈直,劉春敏.層次聚類算法在氣象客戶細分中的應用[J].河南科技,2015(11).
[4]許進文.數(shù)據(jù)挖掘中聚類分析算法及應用研究[J].計算機光盤軟件與應用,2013(06).
關(guān)鍵詞:Web日志挖掘;聚類;K-均值算法
1 Web日志挖掘
1.1 Web日志挖掘簡介
嚴格的說,Web日志挖掘是Web使用模式挖掘的一種,就是通過對Web日志記錄的挖掘,發(fā)現(xiàn)用戶訪問Web頁面的模式,從而進一步分析和研究Web日志記錄中的規(guī)律,以期改進Web站點的性能和組織結(jié)構(gòu),提高用戶查找信息的質(zhì)量和效率,并通過統(tǒng)計和關(guān)聯(lián)的分析找出特定用戶與特定地域、特定時間、特定頁面等要素之間的內(nèi)在聯(lián)系。
1.2 Web日志挖掘的過程
Web日志的挖掘過程一般包括數(shù)據(jù)預處理、模式識別和模式分析三個階段。如下圖所示:
(1)數(shù)據(jù)預處理
Web日志挖掘的第一個步驟就是搜集原始數(shù)據(jù),由于Web日志數(shù)據(jù)的特殊性,而且為了保證數(shù)據(jù)分析的準確性和數(shù)據(jù)挖掘算法的有效性,在數(shù)據(jù)分析之前必須要對搜集到的原始數(shù)據(jù)進行預處理,即將原始的日志文件經(jīng)過數(shù)據(jù)清理、用戶識別、會話識別、路徑補充和事務識別等幾個步驟,轉(zhuǎn)化成可供數(shù)據(jù)挖掘階段使用的事務數(shù)據(jù)庫,以此保證模式分析階段使用的數(shù)據(jù)是規(guī)則的、準確的、干凈的、簡潔的和完整的源數(shù)據(jù),從而提高數(shù)據(jù)挖掘的精度和性能。
(2)模式識別
模式識別階段就是運用各種技術(shù)和算法從預處理后的數(shù)據(jù)中挖掘和發(fā)現(xiàn)用戶使用的各種潛在的規(guī)律和模式的過程。這一階段使用的技術(shù)和算法來自各個領(lǐng)域,如:數(shù)據(jù)挖掘領(lǐng)域、社會學和統(tǒng)計學等領(lǐng)域。但是,需要注意的是,針對Web數(shù)據(jù)的特殊性,不同領(lǐng)域的算法和技術(shù)如果要拿過來使用的話,必須進行相應的改善,才能更好的發(fā)揮算法的優(yōu)越性。在Web日志挖掘的模式識別階段,常采用的技術(shù)有統(tǒng)計、關(guān)聯(lián)規(guī)則、序列模式、聚類和依賴關(guān)系等。
(3)模式分析
模式分析階段是從所挖掘的大量規(guī)則或者模式中進行分析,找出用戶感興趣的模式。目前,模式分析階段的工作主要借助合適的技術(shù)和工具來輔助分析人員的理解,所以開發(fā)各種分析技術(shù)和工具也是非常必要的。
目前,常用的模式分析技術(shù)有以下幾種:
① 知識查詢:對挖掘出的大量模式,需要一種類似關(guān)系數(shù)據(jù)庫SQL的知識查詢機制使用戶可以很方便的查詢到想要的模式,從而使解釋和分析有針對性。
② 聯(lián)機分析處理(OLAP):把Web使用數(shù)據(jù)裝入數(shù)據(jù)倉庫,以便執(zhí)行OLAP操作,以獲得用于預測用途的模式和趨勢。
③ 可視化技術(shù)(Visualization):可視化技術(shù)在其它領(lǐng)域應用中己經(jīng)取得巨大成功,因此人們很自然的選擇它來理解Web用戶的行為。
1.3 Web日志挖掘技術(shù)
(1)聚類算法
聚類是將物理或抽象對象的集合分成由類似的對象組成的多個類的過程。由聚類所生成的簇是一組數(shù)據(jù)對象的集合,這些對象與同一個簇中的對象彼此相似,與其它簇中的對象相異。一般的,一個群體就是一個類。
(2)分類算法
分類就是對數(shù)據(jù)庫中的每一類數(shù)據(jù)挖掘出關(guān)于該數(shù)據(jù)的描述和模型,而這些數(shù)據(jù)庫中的類是事先建立起來的。在Web日志挖掘中,分類技術(shù)可以根據(jù)用戶注冊信息或共同的訪問模式進行分類,得出訪問某一服務器文件的用戶特征。
(3)關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則通常用在事務數(shù)據(jù)庫當中,每個事務由若干事務數(shù)據(jù)項組成。它定義了數(shù)據(jù)項中的所有關(guān)聯(lián)和相互關(guān)系,即事務中一組數(shù)據(jù)項的出現(xiàn)可能標志著其它數(shù)據(jù)項的出現(xiàn)。在Web日志挖掘中,關(guān)聯(lián)規(guī)則可以發(fā)現(xiàn)某個用戶生成的服務器文件中不同引用之間的關(guān)系。
(4)序列模式技術(shù)
序列模式挖掘旨在從時間序列數(shù)據(jù)庫中挖掘出用戶行為模式。因為用戶的一次訪問會在Web服務器記錄一段時間,所以序列模式分析技術(shù)可以確定一段時間內(nèi)所有客戶訪問特定頁面所共有的特征。在Web日志挖掘中,序列模式挖掘著重尋找的是用戶頁面訪問序列隨時間推移發(fā)生的變化,目的是挖掘出用戶訪問會話之間的變化規(guī)律。
(5)路徑分析技術(shù)
路徑分析技術(shù)是利用鏈接記錄文件項來決定每個訪問者的路徑,并將路徑按時間順序排序。在設計Web站點的合理布局時,圖的節(jié)點表示W(wǎng)eb頁面,有向邊表示頁面的超鏈接。其它各式各樣的圖也是建立在頁面與頁面之間的聯(lián)系或者是一定數(shù)量的用戶瀏覽頁面順序的基礎(chǔ)上的。
2改進的算法和原始的K-均值算法的性能比較
由于聚類分析中的類不是事先給定的,而是根據(jù)數(shù)據(jù)的相似性和距離來劃分,因此,衡量一個聚類算法的優(yōu)越性,我們可以從整個簇的純度、簇內(nèi)相似度和簇間相異度幾個方面去比較[50]。本次實驗的數(shù)據(jù)來源為依據(jù)河南商業(yè)高等??茖W校的Web日志文件建立的數(shù)據(jù)表。
2.1 純度比較
衡量改進算法的優(yōu)越性,我們可以使用常用的純度(Purity) [51]來度量。設簇Ci的大小為ni,則該簇的純度定義為:
其中ni’表示簇Ci 與第j類的交集的大小,整個簇類的純度定義為:
其中k為聚類最終形成的簇的數(shù)目。
通過反復聚類實驗得到改進算法和原始K-均值算法的純度比較值,如下表所示:
通過比較發(fā)現(xiàn),改進的算法在純度和穩(wěn)定性方面都要優(yōu)于原來的K-均值聚類算法。
2.2 簇內(nèi)相似度的比較
一個好的聚類方法應當產(chǎn)生高質(zhì)量的聚類,即簇內(nèi)的相似度要高。簇內(nèi)相似度即是簇內(nèi)任意數(shù)據(jù)項與簇內(nèi)中心點的距離,該距離越小,證明簇內(nèi)的數(shù)據(jù)項越緊密,算法的優(yōu)越性越好。簇內(nèi)相似度的計算公式采用馬氏距離進行計算。通過反復聚類實驗得到改進算法和原始K-均值算法的簇內(nèi)相似度的比較,如下表所示:
通過比較發(fā)現(xiàn),改進的算法在簇內(nèi)相似度方面要優(yōu)于原來的K-均值算法,即使用改進的聚類算法得到的簇內(nèi)部比較緊密。
2.3 簇間相異度的比較
一個好的聚類方法除了要保證簇內(nèi)具有較高的相似度以外,而且還要保證簇間具有較高的相異度。簇間的相異度在有些參考資料上也稱為簇間相似度,即是任意數(shù)據(jù)項與其所在的簇以外的其它簇內(nèi)中心點的距離,該距離越大,證明簇間差別越大,聚類效果越好。簇間相異度的計算公式同樣采用馬氏距離進行計算。通過反復聚類操作得到改進算法和原始K-均值算法的簇間相異度的比較,如下表所示:
通過比較發(fā)現(xiàn),改進的算法在簇間相異度方面要優(yōu)于原來的K-均值算法。
[參考文獻]
[1] 謝丹夏.Web上的數(shù)據(jù)挖掘技術(shù)和工具設計.計算機工程與應用,2001:134
[2] 毛國君,段立娟,王實等.數(shù)據(jù)挖掘原理與算法.清華大學出版社,2005:323
[3] 王瀾.教學網(wǎng)站中數(shù)據(jù)挖掘技術(shù)的研究和應用.大連交通大學碩士學位論文,2006:23
[4] 張娥,馮秋紅,宣慧玉等.Web使用模式研究中的數(shù)據(jù)挖掘.計算機應用研究,2001:18
[5] 周涓,熊忠陽,張玉芳等.基于最大最小距離法的多中心聚類算法.計算機應用,2006:1425-1428
關(guān)鍵詞:數(shù)據(jù)挖掘 高校信息管理 應用分析
中圖分類號:G647 文獻標識碼:A 文章編號:1674-098X(2016)11(b)-0109-02
高校多年來的教學管理工作積累了大量的數(shù)據(jù),是一個待開發(fā)的寶藏。鑒于高校發(fā)展的需求和高校信息管理的現(xiàn)狀,利用這些數(shù)據(jù)理性地分析高校各方面工作的成效以及學生培養(yǎng)過程的得失變得十分重要。該文將結(jié)合高校信息管理系統(tǒng)的現(xiàn)狀和數(shù)據(jù)挖掘技術(shù)的功能,分別從教學、管理、科研等方面出發(fā),系統(tǒng)研究和分析數(shù)據(jù)挖掘技術(shù)在高校各領(lǐng)域中的應用。
1 教學領(lǐng)域
教學是高校職能的核心,是關(guān)系學生業(yè)務能力和綜合素質(zhì)培養(yǎng)的關(guān)鍵因素,數(shù)據(jù)挖掘在教學領(lǐng)域的應用也顯得尤為重要。
(1)課程設置層面。從某種程度上講,學生在校學習過程中的課程學習屬于循序漸進的過程,而且課程之間存在著相對較強的關(guān)聯(lián)關(guān)系以及先后順序。通常情況下,在完成一項課程學習之前,應學習一些基礎(chǔ)性的先行課程,若是這些先行課程沒有學好,則會嚴重影響之后那些課程項目的學習效果。借助高校教學資源庫當中的歷屆學生成績檔案,在科學化數(shù)據(jù)挖掘以及合理化數(shù)據(jù)關(guān)聯(lián)的基礎(chǔ)上,可以從海量數(shù)據(jù)當中挖掘有用信息,從而更好地幫助其分析數(shù)據(jù)間的回歸與相關(guān)性聯(lián)系,最終獲得價值性較強的規(guī)律。在此基礎(chǔ)上就可以比較順利地尋找學生成績下降的原因,進而對課程設置實施科學化的安排。
(2)學生自身的學習評價。目前,學習評價屬于高校教育工作人員的重要職責。對學生自身的學習行為進行判定,不僅可以起到相應的信息反饋作用,有效激發(fā)學生所具有的學習動機,還可以檢查課程計劃以及檢驗教學目的。除此之外,學習評價還是判定學生個性化差異的重要手段,有利于高校教師因材施教。借助相應的數(shù)據(jù)挖掘工具,可以對高校學生成績數(shù)據(jù)庫以及行為記錄庫等實施仔細分析與處理,得到即實性的評價結(jié)果,及時糾正學生的不良行為,克服教師在學生評價上因主觀因素造成的不公平問題,還能夠減輕教師在學習評價環(huán)節(jié)的工作量。
(3)課堂教學評價。該教學環(huán)節(jié)不僅可以起到良好的教學調(diào)節(jié)作用以及教學指導作用,還有著相對較強的導向性特點,屬于高校管理工作的組成部分之一,同時也是高校教學評價工作的關(guān)鍵性手段。一般情況下,高校每學期都會搞專業(yè)化的教學評價調(diào)查,進而積累豐富數(shù)據(jù),探討教學效果水平高低與教師自身的年齡和職稱間的聯(lián)系,從而為高校教務科提供決策信息,提高高校教學效果。
(4)教務數(shù)據(jù)分析。目前高校在校學生人數(shù)已經(jīng)超過幾千甚至上萬,教師隊伍也相當強大,經(jīng)過幾十年的教學管理,教務數(shù)據(jù)已經(jīng)達到海量,而目前對于這些數(shù)據(jù)的應用還僅僅停留在查詢或簡單統(tǒng)計,隱藏在這些數(shù)據(jù)中的大量寶貴信息還沒有被發(fā)現(xiàn),例如,學生后續(xù)課程的成績到底與哪些前導課程有關(guān);影響學生學習成績的因素到底有多少;不同專業(yè)學生的差異性有多少等。這些都可以通過數(shù)據(jù)挖掘工具在海量的教務數(shù)據(jù)庫中獲得。
2 管理領(lǐng)域
將數(shù)據(jù)挖掘技術(shù)應用到高校日常管理工作中,不僅能夠提升高校管理效率,而且能夠為高校管理工作提供數(shù)據(jù)支撐和決策支持。
(1)干部考評管理。主要對高校干部進行年度考核。其作用是為了更清楚地掌握干部的個體情況,并且提供近期或動態(tài)信息??己思仁橇私庹莆崭刹壳闆r的一個重要手段,同時也是正確實施獎懲和選拔使用干部的必要前提。結(jié)合高?,F(xiàn)有的干部管理數(shù)據(jù)庫,從干部管理數(shù)據(jù)庫和職稱考評數(shù)據(jù)中進行數(shù)據(jù)挖掘,找出干部工作狀態(tài)和干部的年齡、職務、學歷、專業(yè)、任職經(jīng)歷等方面的關(guān)聯(lián),找到高校干部成長進步和干部整體素質(zhì)的關(guān)系,做到合理調(diào)配使用干部,為人事部門提供科學的決策信息。
(2)學生特征的仔細挖掘。結(jié)合高校學生在基礎(chǔ)性信息、學習經(jīng)歷以及興趣特征等方面的實際情況來針對性挖掘高校學生的個性化特征,從而幫助學生及時修正自身所具有的不良學習行為。憑借對高校學生特征的詳細分析結(jié)果與目的制定之間的對比,高校教師可以很好地幫助學生糾正學習行為,促進學習能力的提升,日益完善學生人格,從根本上實現(xiàn)學生綜合素質(zhì)的大力培養(yǎng)。
(3)人員行為干預。高校教學管理數(shù)據(jù)庫中記錄著各屆學生與教師的學習、工作、社會活動、獎勵、處罰等情況,利用數(shù)據(jù)挖掘的關(guān)聯(lián)分析,尋找?guī)熒鞣N行為活動之間的內(nèi)在聯(lián)系。例如,通過分析挖掘歷年管理數(shù)據(jù)發(fā)現(xiàn),臨近學年結(jié)束時,畢業(yè)學生極易出現(xiàn)酗酒違紀事件,也就是:“學年結(jié)束”and“畢業(yè)學生”=>“酗酒違紀”這一關(guān)聯(lián)規(guī)則的支持度和置信度非常高。所以在實際的管理工作中,對畢業(yè)學生在學年結(jié)束期間要加強行為干預,及時制定策略避免酗酒違紀現(xiàn)象的發(fā)生。
3 科研領(lǐng)域
目前,高校承擔了大量的科研項目,而傳統(tǒng)形式的統(tǒng)計技術(shù)以及數(shù)據(jù)管理工具已經(jīng)難以滿足相關(guān)管理人員的實際需求,借助數(shù)據(jù)挖掘技術(shù)能夠在數(shù)據(jù)處理環(huán)節(jié)顯示出相對較強的優(yōu)點,而且還可以與高校的科研部門進行緊密結(jié)合。
(1)科研項目管理領(lǐng)域??蒲许椖抗芾戆隧椖可陥蟓h(huán)節(jié)、立項環(huán)節(jié)、跟蹤環(huán)節(jié)、結(jié)題環(huán)節(jié)等。高??蒲泄芾頇C構(gòu)建成科研管理的信息系統(tǒng),其中包含了科研條件信息、課題基本信息以及科研人員信息等。其主要憑借對項目信息的有效增刪、查詢以及統(tǒng)計等,完成對課題進展、經(jīng)費使用情況以及課題結(jié)題等功能,而對于項目管理者和決策人員來說,必須要對較為豐富的歷史數(shù)據(jù)實施綜合化分析以及科學化提煉,通過數(shù)據(jù)挖掘技術(shù),可以幫助項目決策者發(fā)現(xiàn)課題承擔人、科研儀器使用等信息間的聯(lián)系,提高科研管理人員在發(fā)現(xiàn)問題以及解決問題上的能力。
(2)科研成果評估。目前,高??蒲谐晒u估方法和數(shù)據(jù)支持方面還存在許多問題,在對科研成果的評估時還僅僅局限在機構(gòu)內(nèi)部的比較上,高校科研機構(gòu)主要根據(jù)論文數(shù)量、專利成果、技術(shù)轉(zhuǎn)讓、獲獎情況等指標來對專業(yè)技術(shù)干部進行評估,但是我們知道,僅僅進行內(nèi)部比較不夠合理,因為科學研究的性|存在差異,項目內(nèi)容也有區(qū)別,另外,發(fā)表的論文被應用的次數(shù)到底有多少,論文的價值到底有多大,這些都應該成為高??蒲谐晒u估考慮的因素。例如在某專項技術(shù)的檢測中,我們可以對結(jié)構(gòu)化的專業(yè)數(shù)據(jù)庫和網(wǎng)頁上的非結(jié)構(gòu)數(shù)據(jù)以及用戶的具體需求數(shù)據(jù)進行不間斷的、長期運行的自動監(jiān)測,以挖掘所需數(shù)據(jù)和知識,并通過數(shù)據(jù)分析和處理,自動生成某專項技術(shù)領(lǐng)域的科研成果動態(tài)監(jiān)測報告,從而為院??蒲谐晒u估專家提供數(shù)據(jù)和知識支持。
4 結(jié)語
教學、管理、科研工作是高校的一項經(jīng)常性和長期性的工作,能從日常積累的海量數(shù)據(jù)中挖掘出有利于教師和學生發(fā)展的信息,是一項重要的工作。將數(shù)據(jù)挖據(jù)技術(shù)應用到高校的教學、管理、科研工作中,數(shù)據(jù)挖掘的結(jié)果對各項工作會有一定的監(jiān)督和指導作用,可以更好地改善現(xiàn)有工作中的弊端,更好地發(fā)揮工作中的優(yōu)勢方面。
參考文獻
[1] (美)Olivia Parr Rud,著.數(shù)據(jù)挖掘?qū)嵺`[M].朱楊勇,譯.北京:機械工業(yè)出版社,2003.
【論文關(guān)鍵詞】本體 語義Web 知識管理 數(shù)據(jù)挖掘
【論文摘要】本文首先對本體的概念做了簡要介紹,并結(jié)合電信領(lǐng)域知識管理存在的問題,提出了基于本體的數(shù)據(jù)挖掘,并將本體的概念應用到電信知識管理中。最后給出了電信領(lǐng)域本體的開發(fā)方法、步驟,然后對本體在電信領(lǐng)域知識管理方面的應用進行了詳細探討。
O.引言
近幾年,電信企業(yè)為了提高自己的競爭能力,爭取更大的市場份額.獲取更大的利潤.各大運營商在現(xiàn)有的運營系統(tǒng)基礎(chǔ)之上,引入數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術(shù),建立了各種經(jīng)營分析系統(tǒng)和數(shù)據(jù)挖掘系統(tǒng),進行輔助決策.從而產(chǎn)生了大量的統(tǒng)計分析報表和數(shù)據(jù)挖掘的結(jié)果。這些信息知識結(jié)果是企業(yè)的寶貴的財富.但是,其存在形式的多樣化 (文本,數(shù)據(jù)庫,圖片),導致了維護管理上的困難。另一方面,即使有了大量的信息知識,卻不利用,也是毫無意義的,如何讓企業(yè)的員工以便捷的方式來共享這些知識.并且利用這些解決實際問題,也是迫切需要解決的問題Ⅲ。此外,由于電信網(wǎng)自身的發(fā)展特點,網(wǎng)絡管理的綜合必然要涉及到管理系統(tǒng)之間的信息交換。由于管理系統(tǒng)實現(xiàn)的獨立性,如何保證系統(tǒng)之間無歧義的信息交換是亟待解決的問題。
語義互聯(lián)網(wǎng)的出現(xiàn),尤其本體的出現(xiàn)使的信息含有語義表征,即成為富有語義的知識,成為人機無歧義交互的橋梁。結(jié)合本體和知識管理的特點可有效地解決電信領(lǐng)域的上述難題。本文首先簡要地介紹了本體和知識管理的相關(guān)信息,然后,基于對電信領(lǐng)域內(nèi)經(jīng)營分析知識的分析以及總結(jié),引入了本體和知識管理的理論。將本體理論和知識管理相結(jié)合,構(gòu)建了電信領(lǐng)域的知識本體,并論述了將其運用在知識管理當中的方式。
1.領(lǐng)域本體介紹
Ontology的概念最初起源于哲學領(lǐng)域,它在哲學中的定義為“對世界上客觀存在物的系統(tǒng)地描述.即存在論”,是客觀存在的一個系統(tǒng)的解釋或說明,關(guān)心的是客觀現(xiàn)實的抽象本質(zhì)l引。在人工智能界,最早給出Ontoloyg定義的是Neches等人,他們將Ontoloyg定義為“給出構(gòu)成相關(guān)領(lǐng)域詞匯的基本術(shù)語和關(guān)系,以及利用這些術(shù)語和關(guān)系構(gòu)成的規(guī)定這些詞匯外延的規(guī)則的定義”。1993年,Gruber給出了Ontoloyg
的一個最為流行的定義,也是比較簡單的定義——“aspecificationofac0nceptua1izati0n”,可以理解為“對某種概念化體系的規(guī)范說明”。
盡管定義有很多不同的方式,但是從內(nèi)涵上來看,不同研究者對于本體的認識是統(tǒng)一的,都把本體當作是領(lǐng)域內(nèi)部不同主體之間進行交流的一種語義基礎(chǔ),即由本體提供一種明確定義的共識。給出了領(lǐng)域本體的定義:領(lǐng)域是世界的一個片段,對該片段我們想要表示一些知識。領(lǐng)域概念化是依據(jù)所需要解決的任務和所應用本體語言的本體承諾(OntologyCommitment)將領(lǐng)域本體抽象成術(shù)語和知識。領(lǐng)域本體是對領(lǐng)域概念化的顯示說明。
2.知識管理介紹
知識管理是近年來學術(shù)界和IT界研究的熱點之一,知識管理過程一般包括四步:知識獲取、知識存儲、知識分發(fā)共享和知識應用。通過這四個步驟,企業(yè)使員工能夠接受到企業(yè)內(nèi)的各種經(jīng)驗知識信息,用來解決在工作中遇到各種難題,提高工作效率,降低了開發(fā)成本。知識管理學說源于對企業(yè)的有效管理。以提高企業(yè)的競爭力為目的。它更多的也是從企業(yè)的管理辦法和經(jīng)驗中提取精華利創(chuàng)意。再應用于企業(yè)。知識管理這一新興的學科領(lǐng)域近年來引起了人們的廣泛關(guān)注。專門的研究機構(gòu)不斷出現(xiàn)。相關(guān)的學術(shù)著作成倍增長。專門的“知識管理”的學術(shù)期刊也開始出現(xiàn)來自不同領(lǐng)域的學者從不同的角度對知識管理進行了探索這些研究的著眼點不同。因而對知識管理實質(zhì)的理解也有較大的差異。這些研究的不一致性是由于知識管理的研究還處于初步探索階段。同時也在于知識管理所涵蓋領(lǐng)域的廣泛性和不完全明確性
3.基于本體的數(shù)據(jù)挖掘在電信知識管理領(lǐng)域的應用
本體是概念化規(guī)范說明,對于電信知識本體來說它包括有關(guān)數(shù)據(jù)概念的各種術(shù)語、關(guān)系并給出術(shù)語的語義。本體可以從訪問用戶的不同視圖或側(cè)面,例如訪問用戶類型、行為、狀態(tài)等,進行訪問用戶描述,展示訪問用戶的不同屬性及屬性之間的關(guān)系。利用訪問用戶本體作為一種訪問用戶知識的展示模型可以提高商務系統(tǒng)與訪問用戶之間基于語義的協(xié)同性,從而實現(xiàn)訪問用戶信息的高度共享和重用。在挖掘過程中,本體是用來協(xié)助訪問用戶構(gòu)成有效DM過程(可執(zhí)行方案)集合。因此訪問用戶本體的構(gòu)建至關(guān)重要,構(gòu)建訪問用戶本體的步驟首先是訪問用戶本體建模,其次是在一些成熟的元本體基礎(chǔ)上.用自然語言描述訪問用戶本體的概念及其之間的關(guān)系,并對自然語言描述的結(jié)果選擇合適的本體描述語言對其進行形式化,最終生成可供計算機識別、處理的文件。本體的構(gòu)建方法有很多,結(jié)合電子商務系統(tǒng)訪問用戶本體變化快、動態(tài)性及健壯性需求比較高的前提下,我們建議采用用軟件工程思想的原型法或知識工程方法來構(gòu)建訪問用戶本體。
基于本體的數(shù)據(jù)挖掘中.首先引入軟件工程需求分析的思想.管理者通過和訪問用戶交流獲得挖掘的目標.其次由建好的本體構(gòu)建成DM所需的數(shù)據(jù)集,然后選擇合適的數(shù)據(jù)預處理方法或挖掘方法,對本體庫集進行挖掘,此過程中可以選擇合適的挖掘算法對數(shù)據(jù)庫進行優(yōu)化、可視化的操作。在整個過程中,由于本體注重概念屬性之間的關(guān)聯(lián)和知識的共享,挖掘工作者不會忽略他們此領(lǐng)域中并不熟悉、但又有可能導致發(fā)現(xiàn)知識的數(shù)據(jù)挖掘技術(shù)?;诒倔w的數(shù)據(jù)挖掘可以面對海量數(shù)據(jù),處理實時的復雜的數(shù)據(jù)分析更詳細.更精確的挖掘電信數(shù)據(jù).從而創(chuàng)造出更多的商業(yè)機會,提高銷售預測的準確性(accuracy)和時效性(timeliness),增加顧客滿意度和忠誠度。最大限度地減少收集相關(guān)商務信息(財政,庫存,采購)所需的時間以降低成本。
關(guān)鍵詞:數(shù)據(jù)挖掘 客戶細分 精準營銷
中圖分類號:F274 文獻標識碼:A
文章編號:1004-4914(2010)10-267-02
隨著3G業(yè)務的全面展開,運營商進入了全業(yè)務運營時代,中國移動面臨著前所未有的激烈競爭,如何在全業(yè)務運營時代更好地了解用戶,增加用戶黏度,提高現(xiàn)有業(yè)務的用戶忠誠度是中國移動應對其他運營商的關(guān)鍵所在。
3G時代將帶來更多豐富多彩的業(yè)務應用,同時隨著客戶群體越來越向小眾化、復雜化發(fā)展,終端用戶對多元化業(yè)務的需要以及對高質(zhì)量信息服務的要求也不斷提高,這對運營商精準營銷能力提出了新的挑戰(zhàn)。“真正為客戶提供所需要的應用”已經(jīng)成為電信運營商營銷創(chuàng)新的重點所在。電信運營商需要進行營銷理念轉(zhuǎn)變,必須依靠先進的技術(shù)手段實現(xiàn)電信業(yè)務的深度運營和精準營銷,實現(xiàn)產(chǎn)品、管理及商務模式的創(chuàng)新,從粗放式營銷向精準營銷和深度營銷轉(zhuǎn)變。
一、傳統(tǒng)客戶細分方法分析
傳統(tǒng)的客戶細分方法包括基于調(diào)查資料的細分和基于客戶價值的細分。基于調(diào)查資料的客戶細分方法一般是基于市場調(diào)查得到的資料進行細分,優(yōu)點是細分的維度較少,細分的結(jié)果容易理解,但缺點是支撐細分的對象只是少量的客戶樣本,因此細分結(jié)果的實施會很被動,只能等待有類似特征和需求的客戶主動上門?;诳蛻魞r值的細分方法操作簡單,可以識別出電信企業(yè)的高價值客戶,但缺點是無法揭示各類群體在通信業(yè)務需求中的差異性,所以無法在市場營銷中幫助運營商進行差異化的方案設計。
二、數(shù)據(jù)挖掘的客戶細分方法
基于數(shù)據(jù)挖掘的客戶細分方法是數(shù)據(jù)挖掘技術(shù)和電信企業(yè)豐富數(shù)據(jù)資源的完美結(jié)合,其特點是充分利用了電信企業(yè)內(nèi)部數(shù)據(jù),細分維度多,不僅包含客戶屬性,客戶消費行為,還包括客戶消費心理等多種因素,因此可以幫助電信企業(yè)多層面、多角度地了解客戶的差異。如果將基于數(shù)據(jù)挖掘的客戶細分和基于市場調(diào)查的客戶細分等方法相結(jié)合,客戶細分將更加完美。
客戶細分是基于客戶業(yè)務需求的細分,消費行為和消費價值維度能直接反映電信客戶的業(yè)務需求差異,同時電信企業(yè)擁有大量的客戶行為和價值數(shù)據(jù)。因此,基于行為和價值的客戶細分對電信企業(yè)更具有實際意義。通過數(shù)據(jù)挖掘的聚類分析方法將有助于將客戶群根據(jù)其消費行為和價值的內(nèi)在差異進行合理細分。
三、數(shù)據(jù)挖掘客戶細分在長沙移動增值手機訂票業(yè)務中的應用
1.長沙移動手機訂票精準營銷系統(tǒng)內(nèi)涵。根據(jù)長沙移動對于手機訂購電影票業(yè)務的推廣需求提出的,采用數(shù)據(jù)挖掘技術(shù)和分析方法對網(wǎng)絡數(shù)據(jù)和用戶數(shù)據(jù)進行分析,并對數(shù)據(jù)進行采集及關(guān)聯(lián)分析的解決方案。系統(tǒng)通過采用一系列算法對用戶市場數(shù)據(jù)和用戶網(wǎng)絡數(shù)據(jù)進行關(guān)聯(lián)分析和其他挖掘分析,發(fā)現(xiàn)各種有價值的用戶信息,以幫助長沙移動針對手機訂票業(yè)務開展精準營銷服務。
2.手機訂票精準營銷系統(tǒng)分析方案。該系統(tǒng)主要針對電影票的手機銷售,其總體目標有兩個,分別是:
(1)幫助長沙移動提高手機訂票業(yè)務的用戶滲透率和業(yè)務認知度。
(2)幫助長沙移動提高現(xiàn)有手機訂票業(yè)務的使用普及率和成功率。為達成這個目標,必須對手機用戶進行客戶細分,以識別目標觀影用戶群,排除疑似工作人員和其他人員干擾,并確定目標觀影用戶群的小區(qū)(上接第267頁)分布情況和分時段小區(qū)分布情況,分析目標觀影用戶群的移動性、社會聯(lián)系性和訂票觀影行為特征,同時分析訂票業(yè)務的關(guān)鍵影響因素和訂票流程、用戶短信交互行為,旨在提高嘗試訂票用戶的購買成功率。系統(tǒng)的整體分析方案見表1。
按照業(yè)務問題和數(shù)據(jù)分析要求,必須對采集的海量網(wǎng)絡數(shù)據(jù)進行全面整合和處理,形成有關(guān)網(wǎng)絡和終端用戶的全息數(shù)據(jù)庫。針對具體手機訂票業(yè)務特點,提出業(yè)務精準營銷解決方案框架設計,根據(jù)該業(yè)務框架進行相應數(shù)據(jù)分析,為精準營銷提供數(shù)據(jù)和建議參考。
系統(tǒng)收集業(yè)務需要的部分網(wǎng)絡數(shù)據(jù),并根據(jù)業(yè)務設計的邏輯框架進行數(shù)據(jù)分析,由于數(shù)據(jù)的局限性,僅進行部分專題內(nèi)容分析,完整的業(yè)務分析將有待于進一步開展。
系統(tǒng)數(shù)據(jù)收集范圍顯示了以長沙萬達影院為目標影院,三天系統(tǒng)網(wǎng)絡數(shù)據(jù)收集的情況,數(shù)據(jù)覆蓋大部市區(qū),數(shù)據(jù)量為800G。
系統(tǒng)利用這些數(shù)據(jù),對客戶進行行為分析,以識別觀影用戶、進行營銷手段評估,并分析影響用戶手機購買的關(guān)鍵因素。
3.建立手機訂票精準營銷數(shù)據(jù)分析模型提高購買成功率。為提高目標用戶對業(yè)務的認知度和提高使用用戶的購買成功率,本文提出手機訂票業(yè)務精準營銷數(shù)據(jù)分析模型,從識別觀影用戶、營銷手段評估,影響用戶手機訂票的關(guān)鍵因素分析這三個方面對數(shù)據(jù)進行分析聚類。(1)識別觀影用戶。該部分目的在于幫助運營商深入了解目標客戶群,通過對網(wǎng)絡數(shù)據(jù)中目標觀影用戶的識別,并通過關(guān)聯(lián)技術(shù)手段排除工作人員和其他非觀影人員,確定手機訂票業(yè)務的真正用戶群體。并且對于這部分用戶進行深入分析,建立全面多維的用戶檔案。(2)營銷手段評估。通過對目標用戶的聚集度、社會活躍性和訂票觀影行為的深入分析,對目標用戶群體進行建模,根據(jù)用戶的不同特征特點,對不同的營銷方案進行效果評估,并根據(jù)用戶模型優(yōu)選營銷方案建議。(3)影響用戶手機購買的關(guān)鍵因素分析。通過識別出嘗試進行手機訂票的用戶,并對購票成功影響因素的分析,對用戶行為和訂票流程進行關(guān)聯(lián)分析,確定影響購買的漏斗模型,并提出流程及業(yè)務改進建議,幫助更多的用戶成功購票。
隨著中國電信業(yè)改革不斷深入,電信運營商之間對客戶的爭奪也越來越激烈。為了適應這種競爭,中國移動進行了戰(zhàn)略轉(zhuǎn)型,由“移動通信專家”轉(zhuǎn)型為“移動信息專家”,開展全業(yè)務運營,重點發(fā)展增值業(yè)務等數(shù)據(jù)業(yè)務。而且隨著競爭加劇,電信運營商在爭奪用戶市場的同時必須降低市場營銷成本,那么如何識別潛在客戶,如何選擇有效的營銷手段進行精準營銷就成為市場競爭中獲勝的關(guān)鍵。同時,電信行業(yè)是典型的數(shù)據(jù)密集行業(yè),其業(yè)務數(shù)據(jù)中隱含著大量對企業(yè)有價值的信息,通過基于數(shù)據(jù)挖掘技術(shù)的“精準營銷”可以幫助我們發(fā)現(xiàn)顧客需要、分析顧客行為、評估顧客價值,進而有針對性地制定營銷策略,滿足客戶個性化的需求。
參考文獻:
1.韓家煒.數(shù)據(jù)挖掘:概念與技術(shù).機械工業(yè)出版社,2006
2.范愛民.精細化管理[M].中國紡織出版社,2005
3.彭清圳.基于數(shù)據(jù)挖掘的電信精細化營銷策略研究.北京郵電大學碩士論文,2008
4.林志宏.以精細營銷為目標的移動通信增值業(yè)務客戶行為分析.北京郵電大學碩士論文,2008
5.樊奕.基于數(shù)據(jù)挖掘的電信企業(yè)精確營銷.北京郵電大學碩士論文,2006
6.王春,謝忠,徐士才,張海鷹.3G時代增值業(yè)務運營研究.商業(yè)時代,2009(7)
7.朱海松.4I模型:3G時代的營銷方法與原理.2009