亚洲成色777777女色窝,777亚洲妇女,色吧亚洲日本,亚洲少妇视频

大數(shù)據(jù)技術(shù)

時間:2022-08-23 10:04:32

導(dǎo)語:在大數(shù)據(jù)技術(shù)的撰寫旅程中,學(xué)習(xí)并吸收他人佳作的精髓是一條寶貴的路徑,好期刊匯集了九篇優(yōu)秀范文,愿這些內(nèi)容能夠啟發(fā)您的創(chuàng)作靈感,引領(lǐng)您探索更多的創(chuàng)作可能。

大數(shù)據(jù)技術(shù)

第1篇

關(guān)鍵詞:大數(shù)據(jù);分布集群;高可用;高可靠

中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2016)03-0019-02

1 概述

當(dāng)前,互聯(lián)網(wǎng)的發(fā)展已經(jīng)進(jìn)入到一個全新階段,互聯(lián)網(wǎng)的應(yīng)用已經(jīng)深入到人們的日常生活中,尤其是移動互聯(lián)網(wǎng)技術(shù)的發(fā)展和運用已經(jīng)日益成熟,傳統(tǒng)企業(yè)都已經(jīng)開始自覺地運用移動互聯(lián)網(wǎng)技術(shù)和概念拓展新業(yè)務(wù)和方向[1]。在此背景下,大數(shù)據(jù)技術(shù)應(yīng)運而生,針對大數(shù)據(jù)這一新興概念,麥肯錫全球研究所曾給出這樣的定義:一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價值密度低四大特征。

2 分布集群數(shù)據(jù)庫

組成分布集群數(shù)據(jù)庫系統(tǒng)的每臺計算機可單獨放在一個地方,其中每臺計算機都可能保存一份數(shù)據(jù)庫的完整拷貝副本,或者是部分副本,每臺計算機單元具有自己局部的數(shù)據(jù)庫,位于不同地點。這些計算機之間通過網(wǎng)絡(luò)進(jìn)行連接,共同組成一個完整的、全局的邏輯上集中、物理上分布的大型數(shù)據(jù)庫。

在分布式集群系統(tǒng)中,數(shù)據(jù)庫對用戶來說是一個邏輯上的數(shù)據(jù)庫整體,數(shù)據(jù)庫的一致性、完整性及安全性都是對這一邏輯整體進(jìn)行管理控制的。分布集群服務(wù)器對共享的數(shù)據(jù)進(jìn)行統(tǒng)一的管理,但是非數(shù)據(jù)庫的處理操作可以由客戶機來完成。

在分布式集群系統(tǒng)中,通常采用外部鏈接技術(shù)進(jìn)行數(shù)據(jù)庫的遠(yuǎn)程控制。組成分布式集群的各計算機之間可以通過網(wǎng)絡(luò)進(jìn)行相互通訊,用戶可以遠(yuǎn)程透明地單獨訪問遠(yuǎn)程各數(shù)據(jù)庫單元的數(shù)據(jù),也可以組合多個數(shù)據(jù)庫的數(shù)據(jù)以滿足多工作組、部門的復(fù)雜應(yīng)用需求。遠(yuǎn)程數(shù)據(jù)庫鏈接技術(shù)連接了各分散的數(shù)據(jù)庫單元,邏輯的將他們組合為一個整體,從應(yīng)用視圖的角度來看,分布集中數(shù)據(jù)庫系統(tǒng)就是一個整體的數(shù)據(jù)庫服務(wù)系統(tǒng)。用戶對此系統(tǒng)的單一邏輯的數(shù)據(jù)庫訪問請求都被自動分解、自動尋址、自動轉(zhuǎn)換為網(wǎng)絡(luò)請求,并在相應(yīng)數(shù)據(jù)庫結(jié)點上實現(xiàn)相應(yīng)的操作請求。

分布集群數(shù)據(jù)庫系統(tǒng)支持混合的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),并采用混合的網(wǎng)絡(luò)協(xié)議,自動地進(jìn)行網(wǎng)絡(luò)協(xié)議的轉(zhuǎn)換。在分布集群數(shù)據(jù)庫系統(tǒng)中,在保證海量數(shù)據(jù)存儲的基礎(chǔ)上,混合了高可用集群和高可靠集群,提高了數(shù)據(jù)庫系統(tǒng)的可用性和可靠性,滿足了現(xiàn)代互聯(lián)網(wǎng)應(yīng)用的需求。

物化視圖是從一個或幾個基表導(dǎo)出的表,同視圖相比,它存儲了導(dǎo)出表的真實數(shù)據(jù)。當(dāng)基表中的數(shù)據(jù)發(fā)生變化時,物化視圖所存儲的數(shù)據(jù)將變得陳舊,用戶可以通過手動刷新或自動刷新來對數(shù)據(jù)進(jìn)行同步。物化視圖包括了查詢結(jié)果的數(shù)據(jù)對象,是遠(yuǎn)程數(shù)據(jù)的本地副本快照。物化視圖允許你在本地維護(hù)遠(yuǎn)程數(shù)據(jù)的副本,但是只能讀取這些副本[2]。

3 高可用集群

數(shù)據(jù)庫高可用集群通過緩存交換技術(shù)實現(xiàn),它基于同一份數(shù)據(jù)文件、但提供了多個數(shù)據(jù)庫實例,即數(shù)據(jù)庫服務(wù)進(jìn)程。高可用性首要確保數(shù)據(jù)不丟失,數(shù)據(jù)不丟失是高可靠性的最基本的要求,是必須要保證的;其次是使數(shù)據(jù)庫一直維持在正常的運行狀態(tài),確保不停機,以避免給客戶造成損失。

在大數(shù)據(jù)應(yīng)用環(huán)境下,數(shù)據(jù)庫系統(tǒng)的停機分為兩類,即計劃性停機和非計劃性停機。計劃性停機一般在數(shù)據(jù)庫管理軟件升級、系統(tǒng)維護(hù)或者硬件維護(hù)的情況下進(jìn)行,是有計劃地安排節(jié)點或者系統(tǒng)的停機。非計劃性停機是異常突然停機,具有不可預(yù)見性,這種情況一般是數(shù)據(jù)庫管理系統(tǒng)缺陷或系統(tǒng)故障或硬件故障等[3]。

高可用集群數(shù)據(jù)庫技術(shù)主要包含如下幾點:

1)負(fù)載均衡技術(shù):支持靜態(tài)和動態(tài)負(fù)載均衡技術(shù),實現(xiàn)系統(tǒng)范圍內(nèi)各節(jié)點負(fù)載均勻,避免出現(xiàn)單一節(jié)點或者部分節(jié)點負(fù)載過重而影響整體性能。

2)全局事務(wù)并發(fā)控制技術(shù):通過高速緩存復(fù)制技術(shù),各節(jié)點保持字典數(shù)據(jù)一致,同時能夠看到全局鎖和事務(wù)視圖,使得能夠正常實現(xiàn)事務(wù)的ACID特性。

3)多節(jié)點并發(fā)訪問文件控制技術(shù):由于多個節(jié)點共享同一份數(shù)據(jù),控制好各節(jié)點對同一份數(shù)據(jù)的更新操作,避免出現(xiàn)錯誤的文件讀寫導(dǎo)致的數(shù)據(jù)不一致的問題。

4)動態(tài)增加和移除節(jié)點技術(shù):在高可用集群環(huán)境中,能夠在不中斷服務(wù)的情況下,通過增加節(jié)點來提升系統(tǒng)性能,同時也能夠在節(jié)點出現(xiàn)故障時,從集群中自動移除該節(jié)點,并且不影響整個集群系統(tǒng)對外提供服務(wù)。

4 高可靠集群

一般采用數(shù)據(jù)復(fù)制技術(shù)來保證數(shù)據(jù)庫系統(tǒng)的高可靠性,數(shù)據(jù)復(fù)制同時也是一種分擔(dān)系統(tǒng)訪問壓力、加快異地訪問響應(yīng)速的技術(shù),數(shù)據(jù)復(fù)制具有物理和邏輯之分。通過將一個服務(wù)器實例上的數(shù)據(jù)變更復(fù)制到另外的服務(wù)器實例??梢杂糜诮鉀Q大、中型應(yīng)用中出現(xiàn)的因來自不同地域、不同部門、不同類型的數(shù)據(jù)訪問、請求導(dǎo)致數(shù)據(jù)庫服務(wù)器超負(fù)荷運行、網(wǎng)絡(luò)阻塞、遠(yuǎn)程用戶的數(shù)據(jù)響應(yīng)遲緩的問題。

高可靠集群提供數(shù)據(jù)庫的容災(zāi)、數(shù)據(jù)保護(hù)、故障恢復(fù)等,實現(xiàn)數(shù)據(jù)庫快速切換與災(zāi)難性恢復(fù)。在生產(chǎn)數(shù)據(jù)庫的保證"事務(wù)一致性"時,使用生產(chǎn)庫的物理全備份創(chuàng)建備庫,備庫能夠通過生產(chǎn)庫傳輸過來的歸檔日志或重做條目自動維護(hù)備用數(shù)據(jù)庫。

高可靠集群的數(shù)據(jù)同步技術(shù)有以下優(yōu)勢:

1)數(shù)據(jù)庫自身內(nèi)置的功能;

2)配置管理較簡單,不需要熟悉其他第三方的軟件產(chǎn)品。

3)物理Standby數(shù)據(jù)庫支持任何類型的數(shù)據(jù)對象和數(shù)據(jù)類型;

4)邏輯Standby數(shù)據(jù)庫處于打開狀態(tài),可以在保持?jǐn)?shù)據(jù)同步的同時執(zhí)行查詢等操作。

5)在最大保護(hù)模式下,可確保數(shù)據(jù)的零丟失。

5 MPP技術(shù)的應(yīng)用

MPP 架構(gòu)采用統(tǒng)一的并行操作數(shù)據(jù)庫引擎,將數(shù)據(jù)分散在不同的數(shù)據(jù)庫節(jié)點上,在高速的內(nèi)部網(wǎng)絡(luò)環(huán)境下,對于海量數(shù)據(jù)的并發(fā)查詢可極大地減少 I/O,提高查詢效率。MPP 系統(tǒng)工作起來就像是一臺單獨的計算機,由于采用自動化的并行處理,在分析型數(shù)據(jù)倉庫等 OLAP 應(yīng)用中,查詢性能比傳統(tǒng)的單節(jié)點數(shù)據(jù)庫大大提高。MPP 系統(tǒng)為新一代數(shù)據(jù)倉庫所需的大規(guī)模數(shù)據(jù)和復(fù)雜查詢提供了先進(jìn)的軟件級解決方案,具有業(yè)界先進(jìn)的架構(gòu)和高度的可靠性,能幫助企業(yè)管理好數(shù)據(jù),使之更好地服務(wù)于企業(yè),推動數(shù)據(jù)依賴型企業(yè)的發(fā)展。

6 大數(shù)據(jù)中的應(yīng)用

基于數(shù)據(jù)庫管理系統(tǒng),搭建高可用、高可靠的分布集群數(shù)據(jù)庫系統(tǒng),結(jié)構(gòu)如圖 1所示。

在此環(huán)境中,高可用集群之間可搭建成主備關(guān)系,與任意高可靠集群或任意單機數(shù)據(jù)庫服務(wù)器通過外部鏈接構(gòu)成邏輯上統(tǒng)一的分布集群數(shù)據(jù)庫系統(tǒng)。對于用戶而言,仍然是單一的數(shù)據(jù)庫服務(wù)。

單機數(shù)據(jù)庫服務(wù)器、高可用集群、高可靠集群都可通過外部鏈接作為單獨節(jié)點加入到分布集群數(shù)據(jù)庫系統(tǒng)中,利用數(shù)據(jù)庫系統(tǒng)的分布集群事務(wù)機制,既保留了局部數(shù)據(jù)庫的自治特性,又可以作為全局分布集群系統(tǒng)中的一員參與到整個海量數(shù)據(jù)分析中。

解決了海量規(guī)模數(shù)據(jù)存儲的問題后,針對快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價值密度低問題,數(shù)據(jù)庫技術(shù)還實現(xiàn)了以下功能:

1)物化視圖技術(shù)和高級復(fù)制技術(shù)解決分布集群系統(tǒng)中數(shù)據(jù)流轉(zhuǎn)速度慢的問題。

2)支持面相對象、xml數(shù)據(jù)類型,滿足數(shù)據(jù)類型多樣化的需求。

3)數(shù)據(jù)挖掘技術(shù),是決策分析技術(shù)的一個更高層次,數(shù)據(jù)挖掘技術(shù)采用人工智能的決策分析方法,按照用戶既定的業(yè)務(wù)目標(biāo),對數(shù)據(jù)進(jìn)行篩選,揭示其中的規(guī)律,并進(jìn)一步將其模型化。

7 結(jié)束語

隨著計算機技術(shù)的發(fā)展,數(shù)據(jù)庫管理系統(tǒng)作為處理數(shù)據(jù)的核心之一,在大數(shù)據(jù)中的應(yīng)用不應(yīng)被忽視。因此,加強數(shù)據(jù)庫新技術(shù)的研發(fā),對于各個國家在大數(shù)據(jù)時代的信息戰(zhàn)中都顯得尤為重要。

參考文獻(xiàn):

[1] 齊磊.大數(shù)據(jù)分析場景下分布式數(shù)據(jù)庫技術(shù)的應(yīng)用[J].移動通信,2015(12):58-62.

第2篇

關(guān)鍵詞:大數(shù)據(jù)技術(shù);計算與數(shù)據(jù);協(xié)作機制

引言

在現(xiàn)今信息技術(shù)發(fā)展中,數(shù)據(jù)同計算可以說是信息技術(shù)發(fā)展過程中的兩個重要主題,在這兩個主題的基礎(chǔ)上,信息技術(shù)也逐漸出現(xiàn)了大數(shù)據(jù)技術(shù)概念。從嚴(yán)格意義來說,所謂大數(shù)據(jù)技術(shù),即是針對于海量數(shù)據(jù)的分析、存儲以及技術(shù)。對于這部分海量數(shù)據(jù)來說,我們很難直接對其進(jìn)行應(yīng)用,在獲得數(shù)據(jù)之后,需要在經(jīng)過一定處理后才能夠獲得有用的數(shù)據(jù),如何能夠?qū)崿F(xiàn)大數(shù)據(jù)時代下數(shù)據(jù)同計算的科學(xué)協(xié)作、并能夠?qū)⑵湫纬梢环N機制,則成為了目前非常重要的一項問題。

1 計算同數(shù)據(jù)協(xié)作機制對比

對于面對數(shù)據(jù)系統(tǒng)來說,其一般為分布式系統(tǒng)類型,即通過將計算向數(shù)據(jù)進(jìn)行遷移對系統(tǒng)中數(shù)據(jù)傳遞代價進(jìn)行降低,可以說是一種通過計算對數(shù)據(jù)進(jìn)行尋找的方式。要想對數(shù)據(jù)進(jìn)行計算,實現(xiàn)數(shù)據(jù)的定位可以說是一項重要的前提,而數(shù)據(jù)切分以及存儲方式情況也將對計算的模式以及處理效率產(chǎn)生影響。對此,要想對數(shù)據(jù)同計算間的科學(xué)協(xié)作進(jìn)行實現(xiàn),就需要對數(shù)據(jù)在分布式文件系統(tǒng)中的存儲方式進(jìn)行研究。而由于在分布式系統(tǒng)當(dāng)中,需要對數(shù)據(jù)冗余、節(jié)點失效以及備份等問題進(jìn)行解決,就對數(shù)據(jù)同計算協(xié)作價值的研究帶來了較大的挑戰(zhàn)。在兩者協(xié)作機制研究中,數(shù)據(jù)同計算的一致性可以說是研究重點,需要首先從該方面進(jìn)行討論與解決。

1.1 位置一致性映射模型

對于分布式系統(tǒng)中數(shù)據(jù)同計算的一致性問題,我們可以將其理解為將兩者在同一節(jié)點位置映射,即在數(shù)據(jù)存儲區(qū)域發(fā)起計算。以網(wǎng)格計算系統(tǒng)為例,其到達(dá)客戶節(jié)點的數(shù)據(jù)是計算先于數(shù)據(jù),并根據(jù)客戶端請求將數(shù)據(jù)映射到客戶端中進(jìn)行處理。對于Hadoop系統(tǒng)來說,就是先將數(shù)據(jù)存儲到系統(tǒng)的一個節(jié)點當(dāng)中,當(dāng)系統(tǒng)發(fā)起計算時,再對元數(shù)據(jù)進(jìn)行查詢后對數(shù)據(jù)存儲位置進(jìn)行獲得,并將計算任務(wù)映射到節(jié)點當(dāng)中進(jìn)行處理。根據(jù)此種情況,我們可以將計算同數(shù)據(jù)間的映射比作是數(shù)據(jù)到節(jié)點的映射過程,在該過程中,數(shù)據(jù)片同計算程序在按照一定規(guī)則到節(jié)點進(jìn)行定位之后將兩者注入到節(jié)點當(dāng)中,而到該節(jié)點失效時,數(shù)據(jù)片則會按照相應(yīng)的規(guī)則進(jìn)行數(shù)據(jù)備份以及遷移,并重新按照規(guī)則實現(xiàn)到節(jié)點的對應(yīng)。

在上述模型中,我們可以將計算視作是一種具有特殊特征的數(shù)據(jù)類型,這是因為對于計算而言,其自身就是程序語言設(shè)計的可執(zhí)行程序片,在系統(tǒng)映射過程中,可以將其同數(shù)據(jù)進(jìn)行同等的看待,且在程序中一般也將包括相關(guān)數(shù)據(jù)的邏輯位置信息。在分布式文件中,其中的定位算法也正是數(shù)據(jù)同節(jié)點間的映射功能,即要想對兩者的一致性位置進(jìn)行實現(xiàn),就離不開分布式文件系統(tǒng)的支持。同時,由于在分布式系統(tǒng)中計算遷移、存儲遷移以及數(shù)據(jù)冗余問題的存在,在具體功能實現(xiàn)時,也將對存儲冗余以及均衡調(diào)度等技術(shù)進(jìn)行結(jié)合性的應(yīng)用,以此對兩者科學(xué)協(xié)作、且具有穩(wěn)定健壯特征的系統(tǒng)進(jìn)行實現(xiàn)。映射方式方面,則有哈希映射以及元數(shù)據(jù)映射等。

1.2 元數(shù)據(jù)映射算法

對于該類算法來說,其可以說是最為基礎(chǔ)的對存儲位置同計算一致性進(jìn)行實現(xiàn)的方法,在實際應(yīng)用中,該方式通過數(shù)據(jù)塊存儲位置的查找使該位置能夠同指定的存儲節(jié)點進(jìn)行映射,在其對計算同數(shù)據(jù)的定位實現(xiàn)中,同網(wǎng)絡(luò)路由表原理較為類似,即兩者通過對有路由的查詢保證數(shù)據(jù)能夠同計算被分配到同一個節(jié)點當(dāng)中。對于應(yīng)用該方式的系統(tǒng)來說,其一般為主從結(jié)構(gòu)類型,如果其中出現(xiàn)單點失效情況,則將對整個系統(tǒng)產(chǎn)生較大的影響。對于HDFS以及GFS結(jié)構(gòu)來說,就是以該數(shù)據(jù)方式構(gòu)建的。在實際對數(shù)據(jù)進(jìn)行存儲時,其一般會根據(jù)節(jié)點目前存儲負(fù)載情況進(jìn)行判斷,而為了避免結(jié)構(gòu)對失效情況具有過高的敏感性,也有學(xué)者通過對元數(shù)據(jù)進(jìn)行復(fù)制的方式提升系統(tǒng)可用性。

通過該方式的應(yīng)用,則能夠以較為便利的方式對機群系統(tǒng)目前狀態(tài)進(jìn)行利用,在以其為依據(jù)的基礎(chǔ)上對系統(tǒng)的負(fù)載均衡進(jìn)行實現(xiàn)。此時,系統(tǒng)主節(jié)點則會通過一定調(diào)度算法的應(yīng)用對數(shù)據(jù)計算以及存儲進(jìn)行分配,在對系統(tǒng)負(fù)載均衡進(jìn)行實現(xiàn)的同將分配信息作為元數(shù)據(jù)進(jìn)行保存。目前,很多針對集群負(fù)載均衡算法都能夠在元數(shù)據(jù)方法中進(jìn)行應(yīng)用、并將其作為對柱節(jié)點資源進(jìn)行分配的依據(jù)。在實際應(yīng)用中,雖然該方式在網(wǎng)絡(luò)信息搜索以及大量復(fù)雜均衡算法的應(yīng)用方面具有較好的表現(xiàn),但當(dāng)系統(tǒng)具有較多數(shù)量小文件時,則需要對路由數(shù)據(jù)進(jìn)行大量的維護(hù),并因此對數(shù)據(jù)的查詢效果產(chǎn)生影響。

1.3 哈希映射算法

哈希算法是一種從稀疏到緊密值的映射方式,在計算以及存儲定位時,可以將其視作路由算法的一種,通過該方式的應(yīng)用,則能夠?qū)⒛繕?biāo)定位到節(jié)點位置。對于傳統(tǒng)的哈希算法,其在擴展性以及容錯性方面的表現(xiàn)都一般,并不能夠較為有效的對面向數(shù)據(jù)系統(tǒng)節(jié)點的動態(tài)變化相適應(yīng),1997年,學(xué)者David Karger提出了使用一致性哈希算法對數(shù)據(jù)進(jìn)行定位,并在后續(xù)的改進(jìn)中逐漸使其成為了分布式存儲中的標(biāo)準(zhǔn)技術(shù)類型。當(dāng)系統(tǒng)對該方式進(jìn)行應(yīng)用之后,則不需要對中心節(jié)點元數(shù)據(jù)進(jìn)行維護(hù),可以說對普通元數(shù)據(jù)服務(wù)器性能瓶頸以及單點失效問題進(jìn)行了較好的解決,其實現(xiàn)過程為:首先通過Key值的應(yīng)用將MD5算法變換成一個32位長度的16進(jìn)制數(shù)值,在以該數(shù)值進(jìn)行232取模后將其映射到環(huán)狀哈希空間,并以相同的方式將節(jié)點映射到環(huán)狀哈希空間當(dāng)中,此時Key則會在哈希空間中尋找到節(jié)點值作為路由值。

2 計算同數(shù)據(jù)的流式拓樸協(xié)作機制

2.1 Storm系統(tǒng)

流水線技術(shù)是對高性能數(shù)據(jù)進(jìn)行處理的重要技術(shù)類型,其主要技術(shù)思想即將一個任務(wù)分解成多個具有前后關(guān)系的子任務(wù),在流水線模式中,各個子任務(wù)的啟動同之前順序任務(wù)的完成情況具有依賴,對具有先后相關(guān)性數(shù)據(jù)分析方面具有較好的實用性特征。目前,以分布式系統(tǒng)以及流式技術(shù)為協(xié)作的框架機制已經(jīng)在應(yīng)用中表現(xiàn)出了較好的生命力以及靈活性,在本研究中,將以Storm系統(tǒng)為例進(jìn)行簡單的介紹。

Storm是由Twitter所推出的一種流式分布式系統(tǒng),在該集群中,由多個工作節(jié)點以及一個主節(jié)點組成,其中,主節(jié)點可以說是系統(tǒng)的核心,具有任務(wù)布置、代碼分配以及故障檢測等作用。在該系統(tǒng)中,當(dāng)其要對實時計算任務(wù)進(jìn)行完成時,需要對一個Topology進(jìn)行建立,并由該模塊對數(shù)據(jù)處理進(jìn)行規(guī)劃。在Storm系統(tǒng)中,元組是基本的數(shù)據(jù)流單位,可以將其看作是一個被封裝的數(shù)據(jù)結(jié)構(gòu)類型,在Storm系統(tǒng)中,Topology可以說是最高級別的執(zhí)行單元,其是由很多個節(jié)點所組成的拓?fù)?,在拓?fù)渲?,由不同?jié)點對相應(yīng)的計算邏輯進(jìn)行完成。在該系統(tǒng)中,Spout是系統(tǒng)的數(shù)據(jù)流生成器,而Bolt則為不同的處理位置。對于數(shù)據(jù)流來說,由于Spout為數(shù)據(jù)源頭,在實際運行中,其在對數(shù)據(jù)進(jìn)行讀取之后則會實現(xiàn)向Bolt的傳送,其不僅能夠?qū)Χ鄠€輸入流進(jìn)行接收,且能夠較好的對數(shù)據(jù)進(jìn)行特定處理。在Storm系統(tǒng)對Topology進(jìn)行應(yīng)用之后,其則具有了更為強大以及更為靈活的數(shù)據(jù)處理能力,節(jié)點在根據(jù)Topology邏輯對任務(wù)進(jìn)行分配之后將任務(wù)分配到相應(yīng)物理節(jié)點之上。而從整個架構(gòu)情況看來,在數(shù)據(jù)以及計算協(xié)作處理方面,系統(tǒng)主要是通過Topology進(jìn)行分配,并在按照其描述之后由對應(yīng)的節(jié)點程序進(jìn)行處理,并由主節(jié)點將根據(jù)一個邏輯實現(xiàn)物理節(jié)點的映射。

2.2 流式拓樸映射模型

在Storm系統(tǒng)中,其通過Topology結(jié)構(gòu)的應(yīng)用,則能夠?qū)^為復(fù)雜的分布式數(shù)據(jù)處理任務(wù)進(jìn)行實現(xiàn),在整個過程中,對于不同計算任務(wù),Topology好比是邏輯規(guī)劃,并沒有對相應(yīng)的物理節(jié)點進(jìn)行對應(yīng),在系統(tǒng)主節(jié)點中,可能具有數(shù)量較多的該種結(jié)構(gòu),而對于每一個結(jié)構(gòu)都可以將其視作為對特殊問題進(jìn)行處理的邏輯規(guī)劃,可以說,通過Topology結(jié)構(gòu)的應(yīng)用,則能夠?qū)Υ蠖鄶?shù)問題的處理方式進(jìn)行描述。其整個過程可以抽象如圖1所示。

在圖1中,每一個操作就可以將其是作為Bolt,而數(shù)據(jù)發(fā)生器則為Spout,在該系統(tǒng)中,同樣由主節(jié)點對很多個處理節(jié)點進(jìn)行管理與監(jiān)控,對于每個任務(wù)的邏輯規(guī)劃,主節(jié)點都會在一定策略的基礎(chǔ)上對物理節(jié)點進(jìn)行分配,以此對相關(guān)的計算恩物進(jìn)行完成。如上圖中,主節(jié)點為操作1分配物理節(jié)點1,為操作2分配物理節(jié)點2,為操作3分配物理節(jié)點3,為操作4分配物理節(jié)點1,在以該種方式進(jìn)行分配之后,Topology則能夠被映射為集群物理結(jié)構(gòu),并能夠?qū)ο鄳?yīng)的計算任務(wù)進(jìn)行完成。而作為編程人員,在工作當(dāng)中僅僅需要對Topology的邏輯結(jié)構(gòu)進(jìn)行定義即可,其后續(xù)相關(guān)工作則完全由系統(tǒng)進(jìn)行維護(hù),作為設(shè)計人員,在整個操作過程中也不需要對失效問題進(jìn)行擔(dān)心,這是因為當(dāng)某個節(jié)點出現(xiàn)失效情況時,主節(jié)點將根據(jù)對應(yīng)操作將其對一個好的物理節(jié)點進(jìn)行重新的映射,以此保證整個規(guī)劃能夠得到順利的實現(xiàn)。

通過上述的分析可以了解到,通過流式拓樸映射方法的應(yīng)用,則能夠使系統(tǒng)根據(jù)Topology描述的情況對不同的集群計算結(jié)構(gòu)進(jìn)行自動組合,以此以更為靈活的方式對復(fù)雜問題進(jìn)行處理。在整個過程中,系統(tǒng)的主節(jié)點具有數(shù)據(jù)路由以及計算的作用,并通過Topology的描述對協(xié)作機制的跟蹤定位進(jìn)行實現(xiàn)。

在此,我們以MPS對Topology到物理的映射過程進(jìn)行模擬,在節(jié)點間,將通過Mpi_Send()函數(shù)的應(yīng)用將流數(shù)據(jù)元組注入到節(jié)點當(dāng)中,并在該節(jié)點上對相關(guān)操作進(jìn)行發(fā)起,之后,通過MPI_Recv()函數(shù)的應(yīng)用對前端數(shù)據(jù)進(jìn)行接收,以此對節(jié)點間通訊進(jìn)行實現(xiàn)。對于該種方式來說,其能夠?qū)Σ煌瑪?shù)據(jù)系統(tǒng)僅僅能夠進(jìn)行非實時數(shù)據(jù)批處理的問題進(jìn)行了較好的避免,具有較好的應(yīng)用效果。

3 結(jié)束語

在現(xiàn)今大數(shù)據(jù)時代背景下,數(shù)據(jù)同計算間的協(xié)作具有了更為重要的意義。在上文章,我們對大數(shù)據(jù)技術(shù)中計算與數(shù)據(jù)的協(xié)作機制進(jìn)行了一定的研究,需要能夠聯(lián)系實際進(jìn)行系統(tǒng)模式的選擇與應(yīng)用,以此更好的對數(shù)據(jù)處理任務(wù)進(jìn)行實現(xiàn)。

參考文獻(xiàn)

[1]羅象宏,舒繼武.存儲系統(tǒng)中的糾刪碼研究綜述[J].計算機研究與發(fā)展,2012(1):77-79.

第3篇

關(guān)鍵詞:大數(shù)據(jù) 數(shù)據(jù)挖掘 挖掘技術(shù)

中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9416(2016)05-0000-00

1數(shù)據(jù)挖掘與數(shù)據(jù)挖掘技術(shù)的方法分析

“數(shù)據(jù)海量、信息缺乏”是相當(dāng)多企業(yè)在數(shù)據(jù)大集中之后面臨的尷尬問題,由此而誕生的數(shù)據(jù)挖掘技術(shù)其實就是用以處理這一尷尬問題的技術(shù)。數(shù)據(jù)挖掘?qū)嶋H上是相對比較新型的一門學(xué)科,在幾十年的發(fā)展過程中,已經(jīng)不可同日而語。其實數(shù)據(jù)挖掘技術(shù)的本質(zhì)就是人工智能技術(shù),而數(shù)據(jù)挖掘技術(shù)的利用相對應(yīng)的就是指人工智能技術(shù)的開發(fā)與應(yīng)用,也就是說數(shù)據(jù)挖掘其實是依賴技術(shù)的提升來實現(xiàn)數(shù)據(jù)的整體創(chuàng)新的技術(shù),所以,整個數(shù)據(jù)挖掘技術(shù)實際上是非常具有信息價值的,它能夠幫助決策者更快的得到重要信息并作出決策,提高效率和準(zhǔn)確率,是非常重要的知識憑證,能夠在一定程度上提高當(dāng)下企業(yè)的整體競爭力。

數(shù)據(jù)挖掘技術(shù)的核心就是分析,通過分析方法的不同來解決不同類別的問題,以實現(xiàn)數(shù)據(jù)挖掘的潛在內(nèi)容。簡單來說就是對癥下藥以保證藥到病除。

1.1聚類分析法

簡單來說聚類分析就是通過將數(shù)據(jù)對象進(jìn)行聚類分組,然后形成板塊,將毫無邏輯的數(shù)據(jù)變成了有聯(lián)系性的分組數(shù)據(jù),然后從其中獲取具有一定價值的數(shù)據(jù)內(nèi)容進(jìn)行進(jìn)一步的利用。由于這種分析方法不能夠較好的就數(shù)據(jù)類別、屬性進(jìn)行分類,所以聚類分析法一般都運用在心理學(xué)、統(tǒng)計學(xué)、數(shù)據(jù)識別等方面。

1.2人工神經(jīng)網(wǎng)絡(luò)

人工神經(jīng)網(wǎng)絡(luò)是通過大批量的數(shù)據(jù)進(jìn)行分析,而這種數(shù)據(jù)分析方式本身是建立在一定的數(shù)據(jù)模型基礎(chǔ)上的,因此通常都可以隨時根據(jù)數(shù)據(jù)需求進(jìn)行分類,所以人工神經(jīng)網(wǎng)絡(luò)也是當(dāng)下數(shù)據(jù)挖掘技術(shù)中最常用的一種數(shù)據(jù)分析方式之一。

1.3關(guān)聯(lián)性分析法

有時數(shù)據(jù)本身存在一定的隱蔽性使得很難通過普通的數(shù)據(jù)分析法進(jìn)行數(shù)據(jù)挖掘和利用,這就需要通過關(guān)聯(lián)性分析法完成對于數(shù)據(jù)信息的關(guān)聯(lián)性識別,來幫助人力完成對于數(shù)據(jù)分辨的任務(wù),這種數(shù)據(jù)分析方法通常是帶著某種目的性進(jìn)行的,因此比較適用于對數(shù)據(jù)精準(zhǔn)度相對較高的信息管理工作。

1.4特征性數(shù)據(jù)分析法

網(wǎng)絡(luò)數(shù)據(jù)隨著信息時代的到來變成了數(shù)據(jù)爆炸式,其數(shù)據(jù)資源十分廣泛并且得到了一定的普及,如何就網(wǎng)絡(luò)爆炸式數(shù)據(jù)進(jìn)行關(guān)于特性的分類就成為了當(dāng)下數(shù)據(jù)整理分類的主要內(nèi)容。在上文中提到的人工神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)分析也屬于這其中的一種,此外還有很多方法都是通過計算機來進(jìn)行虛擬數(shù)據(jù)的分類,尋找數(shù)據(jù)之間存在的普遍規(guī)律性完成數(shù)據(jù)的特性分析從而進(jìn)行進(jìn)一步分類。

2大數(shù)據(jù)時代下數(shù)據(jù)挖掘技術(shù)的具體應(yīng)用

數(shù)據(jù)挖掘技術(shù)的具體流程就是先通過對于海量數(shù)據(jù)的保存,然后就已有數(shù)據(jù)中進(jìn)行分析、整理、選擇、轉(zhuǎn)換等,數(shù)據(jù)的準(zhǔn)備工作是數(shù)據(jù)挖掘技術(shù)的前提,也是決定數(shù)據(jù)挖掘技術(shù)效率及質(zhì)量的主要因素。在完成數(shù)據(jù)準(zhǔn)備工作后進(jìn)一步對數(shù)據(jù)進(jìn)行挖掘,然后對數(shù)據(jù)進(jìn)行評估,最后實現(xiàn)運用。因此,數(shù)據(jù)挖掘能夠運用到很多方面。

2.1市場營銷領(lǐng)域

市場營銷其實就是數(shù)據(jù)挖掘技術(shù)最早運用的領(lǐng)域,通常根據(jù)客戶的具體需求,進(jìn)行客戶分析,將不同的消費習(xí)慣和消費特點的客戶進(jìn)行簡單的分類管理,以此來保證商品能夠順利銷售,并提高個人銷售的成功率和業(yè)績。而銷售的范圍也從最初的超市購物擴展到了包括保險、銀行、電信等各個方面。

2.2科學(xué)研究領(lǐng)域

科學(xué)研究與實驗測試等都需要對數(shù)據(jù)進(jìn)行關(guān)系分析為進(jìn)一步的實驗和總結(jié)失敗做準(zhǔn)備,而實驗測試和科學(xué)研究產(chǎn)生的數(shù)據(jù)往往是巨大的,因此數(shù)據(jù)挖掘技術(shù)在科學(xué)研究領(lǐng)域也得以廣泛運用。通常都是通過科學(xué)研究內(nèi)容選擇數(shù)據(jù)挖掘技術(shù)分析法進(jìn)行計算來找到數(shù)據(jù)中存在的規(guī)律,實現(xiàn)數(shù)據(jù)挖掘的部分價值――科學(xué)知識的分析與運用。

2.3電信業(yè)領(lǐng)域

隨著信息化時代的到來,電信產(chǎn)業(yè)也飛速發(fā)展起來,到目前為止,電信產(chǎn)業(yè)已經(jīng)形成了一個巨大的網(wǎng)絡(luò)信息載體,如何將其中信息數(shù)據(jù)進(jìn)行整合就成為電信產(chǎn)業(yè)發(fā)展過程中的重要問題。而數(shù)據(jù)挖掘技術(shù)的運用則在一定程度上解決了這一問題,大量的數(shù)據(jù)通過數(shù)據(jù)挖掘技術(shù)得到了有效分類,并在這個過程中通過運算得出數(shù)據(jù)之間的關(guān)聯(lián)性,運用規(guī)律進(jìn)一步進(jìn)行數(shù)據(jù)分類。

2.4教育教學(xué)領(lǐng)域

教學(xué)評價、教學(xué)資源、學(xué)生個人基本信息等組成了教育教學(xué)領(lǐng)域的數(shù)據(jù)庫,利用數(shù)據(jù)挖掘技術(shù)來實現(xiàn)教學(xué)資源的優(yōu)化配置,對學(xué)生的個人信息整理歸檔,從而保證教育教學(xué)領(lǐng)域中數(shù)據(jù)整理的良好運作。

3結(jié)語

綜上所述,數(shù)據(jù)挖掘技術(shù)對于當(dāng)今社會的發(fā)展有著不可替代的作用,而如何改善當(dāng)下數(shù)據(jù)挖掘技術(shù)中存在的問題,進(jìn)一步提高數(shù)據(jù)挖掘技術(shù)的質(zhì)量和效率就成為了數(shù)據(jù)挖掘技術(shù)進(jìn)步的方向。本文通過對于數(shù)據(jù)挖掘與數(shù)據(jù)挖掘技術(shù)的方法分析和大數(shù)據(jù)時代下數(shù)據(jù)挖掘技術(shù)的具體應(yīng)用兩個方面對于數(shù)據(jù)挖掘技術(shù)進(jìn)行了簡要的闡述和分析,相信在未來伴隨著科學(xué)技術(shù)的進(jìn)一步發(fā)展,數(shù)據(jù)挖掘技術(shù)也將更加強大。

參考文獻(xiàn)

[1]程軍鋒.Web數(shù)據(jù)挖掘研究[J].重慶三峽學(xué)院學(xué)報,2013(03).

第4篇

關(guān)鍵詞:告警數(shù)據(jù) Hadoop Spark

1 引言

隨著電信網(wǎng)絡(luò)的不斷演進(jìn),全省數(shù)據(jù)網(wǎng)、交換網(wǎng)、接入網(wǎng)設(shè)備單月產(chǎn)生告警原始日志近億條。以上告警通過網(wǎng)元網(wǎng)管、專業(yè)綜合網(wǎng)管、智能網(wǎng)管系統(tǒng)[1]三層收斂,監(jiān)控人員每月需處理影響業(yè)務(wù)或網(wǎng)絡(luò)質(zhì)量的告警事件為20萬條,但一些對網(wǎng)絡(luò)可能造成隱患的告警信息被過濾掉。如何從海量告警數(shù)據(jù)中獲取與網(wǎng)絡(luò)性能指標(biāo)、運維效率相關(guān)的有價值的數(shù)據(jù),對于傳統(tǒng)的關(guān)系型數(shù)據(jù)庫架構(gòu)而言,似乎是一個不可能完成的任務(wù)。

在一般告警量情況下,ORACLE數(shù)據(jù)處理能力基本可以滿足分析需求,但當(dāng)告警分析量上升到億級,如果采用傳統(tǒng)的數(shù)據(jù)存儲和計算方式,一方面數(shù)據(jù)量過大,表的管理、維護(hù)開銷過大,要做到每個字段建索引,存儲浪費巨大;另一方面計算分析過程耗時過長,無法滿足實時和準(zhǔn)實時分析需求。因此必須采用新的技術(shù)架構(gòu)來分析處理海量告警信息,支撐主動維護(hù)工作顯得尤為必要,為此我們引入了大數(shù)據(jù)技術(shù)。

2 分析目標(biāo)

(1)數(shù)據(jù)源:電信運營商網(wǎng)絡(luò)設(shè)備告警日志數(shù)據(jù),每天50 G。

(2)數(shù)據(jù)分析目標(biāo):完成高頻翻轉(zhuǎn)類(瞬斷)告警分析;完成自定義網(wǎng)元、自定義告警等可定制告警分析;完成被過濾掉的告警分析、TOPN告警分析;核心設(shè)備和重要業(yè)務(wù)監(jiān)控。

(3)分析平臺硬件配置:云計算平臺分配8臺虛擬機,每臺虛機配置CPU16核;內(nèi)存32 G;硬盤2 T。

3 制定方案

進(jìn)入大數(shù)據(jù)時代,行業(yè)內(nèi)涌現(xiàn)了大量的數(shù)據(jù)挖掘技術(shù),數(shù)據(jù)處理和分析更高效、更有價值。Google、Facebook等公司提供可行的思路是通過類似Hadoop[2]的分布式計算、MapReduce[3]、Spark[4]算法等構(gòu)造而成的新型架構(gòu),挖掘有價值信息。

Hadoop是Apache基金會用JAVA語言開發(fā)的分布式框架,通過利用計算機集群對大規(guī)模數(shù)據(jù)進(jìn)行分布式計算分析。Hadoop框架最重要的兩個核心是HDFS和MapReduce,HDFS用于分布式存儲,MapReduce則實現(xiàn)分布式任務(wù)計算。

一個HDFS集群包含元數(shù)據(jù)節(jié)點(NameNode)、若干數(shù)據(jù)節(jié)點(DataNode)和客戶端(Client)。NameNode管理HDFS的文件系統(tǒng),DataNode存儲數(shù)據(jù)塊文件。HDFS將一個文件劃分成若干個數(shù)據(jù)塊,這些數(shù)據(jù)塊存儲DataNode節(jié)點上。

MapReduce是Google公司提出的針對大數(shù)據(jù)的編程模型。核心思想是將計算過程分解成Map(映射)和Reduce(歸約)兩個過程,也就是將一個大的計算任務(wù)拆分為多個小任務(wù),MapReduce框架化繁為簡,輕松地解決了數(shù)據(jù)分布式存儲的計算問題,讓不熟悉并行編程的程序員也能輕松寫出分布式計算程序。MapReduce最大的不足則在于Map和Reduce都是以進(jìn)程為單位調(diào)度、運行、結(jié)束的,磁盤I/O開銷大、效率低,無法滿足實時計算需求。

Spark是由加州伯克利大學(xué)AMP實驗室開發(fā)的類Hadoop MapReduce的分布式并行計算框架,主要特點是彈性分布式數(shù)據(jù)集RDD[5],中間輸出結(jié)果可以保存在內(nèi)存中,節(jié)省了大量的磁盤I/O操作。Spark除擁有Hadoop MapReduce所具有的優(yōu)點外,還支持多次迭代計算,特別適合流計算和圖計算。

基于成本、效率、復(fù)雜性等因素,我們選擇了HDFS+Spark實現(xiàn)對告警數(shù)據(jù)的挖掘分析。

4 分析平臺設(shè)計

4.1 Hadoop集群搭建

基于CentOS-6.5系統(tǒng)環(huán)境搭建Hadoop集群,配置如表1所示。

4.2 Spark參數(shù)設(shè)置[6]

Spark參數(shù)設(shè)置如表2所示。

4.3 數(shù)據(jù)采集層

數(shù)據(jù)采集:由于需采集的告警設(shè)備種類繁多,故采取分布式的告警采集,數(shù)據(jù)網(wǎng)設(shè)備、交換網(wǎng)設(shè)備、接入網(wǎng)設(shè)備分別通過IP綜合網(wǎng)管、天元綜合網(wǎng)管、PON綜合網(wǎng)管進(jìn)行采集,采集周期5分鐘一次。采集機先將采集到的告警日志文件,通過FTP接口上傳到智能網(wǎng)管系統(tǒng)文件服務(wù)器上,再對文件進(jìn)行校驗,通過Sqoop推送到Hadoop集群上。

4.4 邏輯處理層

(1)建立高頻翻轉(zhuǎn)告警監(jiān)控工作流程

先將海量告警進(jìn)行初步刪選,通過數(shù)量、位置和時間三個維度的分析,得出高頻翻轉(zhuǎn)類告警清單列表,最后由專業(yè)工程師甄別確認(rèn),對某類告警進(jìn)行重點關(guān)注和監(jiān)控。

(2)差異化定制方案

按組網(wǎng)架構(gòu)細(xì)分,針對核心重要節(jié)點的所有告警均納入實時監(jiān)控方案;

按業(yè)務(wù)網(wǎng)絡(luò)細(xì)分,針對不同業(yè)務(wù)網(wǎng)絡(luò)設(shè)計個性化的監(jiān)控方案;

按客戶業(yè)務(wù)細(xì)分,針對客戶數(shù)字出租電路設(shè)計個性化的監(jiān)控方案。

4.5 數(shù)據(jù)分析層

Spark讀取Hive[7]表的告警數(shù)據(jù),然后在Spark引擎中進(jìn)行SQL統(tǒng)計分析。Spark SQL模K在進(jìn)行分析時,將外部告警數(shù)據(jù)源轉(zhuǎn)化為DataFrame[8],并像操作RDD或者將其注冊為臨時表的方式處理和分析這些數(shù)據(jù)。一旦將DataFrame注冊成臨時表,就可以使用類SQL的方式操作查詢分析告警數(shù)據(jù)。表3是利用Spark SQL對告警工單做的一個簡單分析:

5 平臺實踐應(yīng)用

探索運維數(shù)據(jù)分析的新方法,利用大數(shù)據(jù)分析技術(shù),分析可能影響業(yè)務(wù)/設(shè)備整體性能的設(shè)備告警,結(jié)合網(wǎng)絡(luò)性能數(shù)據(jù),找到網(wǎng)絡(luò)隱患,實現(xiàn)主動維護(hù)的工作目標(biāo)。

5.1 高頻翻轉(zhuǎn)類告警監(jiān)控

首先制定了高頻翻轉(zhuǎn)類告警分析規(guī)則,將連續(xù)7天每天原始告警發(fā)生24次以上定義為高頻翻轉(zhuǎn)類告警,并基于大數(shù)據(jù)平臺開發(fā)了相應(yīng)的分析腳本,目前已實現(xiàn)全專業(yè)所有告警類型的分析。表4是全省高頻翻轉(zhuǎn)類TOP10排名。

5.2 核心設(shè)備和重要業(yè)務(wù)監(jiān)控

目前以設(shè)備廠商或?qū)<医?jīng)驗評定告警監(jiān)控級別往往會與實際形成偏差,主要表現(xiàn)在以下幾個方面:監(jiān)控級別的差異化設(shè)定基于已知的告警類型,一旦網(wǎng)絡(luò)重大故障上報未知的告警類型就無法在第一時間有效監(jiān)控到;同一類型的故障告警出現(xiàn)在不同網(wǎng)絡(luò)層面可能影響業(yè)務(wù)的程度是完全不同的;不同保障級別的客戶對故障告警監(jiān)控的實時性要求也是不同的。

通過大數(shù)據(jù)分析平臺對差異化監(jiān)控提供了靈活的定制手段,可根據(jù)告警關(guān)鍵字,分專業(yè)、地市、網(wǎng)管、機房、告警頻次等維度自主定制需要的告警數(shù)據(jù),實現(xiàn)日、周、月、某個時間區(qū)等統(tǒng)計分析。

應(yīng)用案例:省NOC通過大數(shù)據(jù)分析出一條編號為CTVPN80113的中國平安大客戶電路在一段時間內(nèi)頻繁產(chǎn)生線路劣化告警,但用戶未申告,省NOC隨即預(yù)警給政企支撐工程師,政支工程師與用戶溝通后,派維護(hù)人員至現(xiàn)場處理,發(fā)現(xiàn)線路接頭松動,緊急處理后告警消除、業(yè)務(wù)恢復(fù)。

5.3 被過濾告警分析

全省每天網(wǎng)絡(luò)告警數(shù)據(jù)300萬條~500萬條,其中99%都會根據(jù)告警過濾規(guī)則進(jìn)行過濾篩選,把過濾后的告警呈現(xiàn)給網(wǎng)絡(luò)監(jiān)控人員。過濾規(guī)則的準(zhǔn)確性直接影響告警數(shù)據(jù)的質(zhì)量。一般來說告警過濾規(guī)則可以從具有豐富運維經(jīng)驗的網(wǎng)絡(luò)維護(hù)人員獲得,但是這個過程非常繁瑣,而且通過人工途徑獲得的告警過濾規(guī)則在不同的應(yīng)用環(huán)境可能存在差異,無法滿足網(wǎng)絡(luò)維護(hù)的整體需要。采用大數(shù)據(jù)技術(shù)對被過濾的告警進(jìn)行分析可以很好地完善過濾規(guī)則,讓真正急迫需要處理的告警優(yōu)先呈現(xiàn)給維護(hù)人員及時處理,真正做到先于客戶發(fā)現(xiàn)故障。表5是動環(huán)專業(yè)被過濾的告警情況分布。

5.4 動環(huán)深放電分析

動環(huán)網(wǎng)管通過C接口采集蓄電池電壓數(shù)據(jù),在停電告警產(chǎn)生之后,電壓數(shù)據(jù)首次下降到45 V,表示該局站電池出現(xiàn)深放電現(xiàn)象,通過計算這一放電過程的持續(xù)時間,記為深放電時長,該時長可以初步反映電池的放電性能。一個局站每天產(chǎn)生幾十萬條電壓等動環(huán)實時數(shù)據(jù)。

在告警數(shù)據(jù)分析的基礎(chǔ)上,實現(xiàn)對蓄電池電壓變化數(shù)據(jù)的分析,提醒分公司關(guān)注那些深放電次數(shù)過多和放電時長過短的局站,核查蓄電池、油機配置、發(fā)電安排等,并進(jìn)行整治。利用Spark SQL統(tǒng)計了一個月內(nèi)撫州、贛州、吉安三分公司幾十億條動環(huán)數(shù)據(jù),分析了其中深放電的情況如表6所示。

6 結(jié)論

本文利用HDFS+Spark技術(shù),實驗性地解決告警數(shù)據(jù)存儲和分析等相關(guān)問題:一是通過數(shù)據(jù)分析,從海量告警數(shù)據(jù)中發(fā)現(xiàn)潛在的網(wǎng)絡(luò)隱患;二是結(jié)合資源信息和不同專業(yè)的告警,最終為用戶提供綜合預(yù)警;三是轉(zhuǎn)變網(wǎng)絡(luò)監(jiān)控思路和方式,通過數(shù)據(jù)匯聚、數(shù)據(jù)相關(guān)性分析、數(shù)據(jù)可視化展示,提高了網(wǎng)絡(luò)監(jiān)控效率;最后還擴展到對動環(huán)實時數(shù)據(jù)、信令數(shù)據(jù)進(jìn)行分析。

從實際運行效果來看,HDFS和Spark完全可以取代傳統(tǒng)的數(shù)據(jù)存儲和計算方式,滿足電信運營商主動運維的需求。

參考文獻(xiàn):

[1] 中國電信股份有限公司. 中國電信智能網(wǎng)管技術(shù)規(guī)范-總體分冊[Z]. 2015.

[2] Tom white. Hadoop權(quán)威指南[M]. 4版. 南京: 東南大學(xué)出版社, 2015.

[3] RP Raji. MapReduce: Simplified Data Processing on Large Clusters[Z]. 2004.

[4] Spark. Apache Spark?[EB/OL]. [2016-11-27]. http:///.

[5] Matei Zaharia, Mosharaf Chowdhury, Tathagata Das, et al. Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing[J]. Usenix Conference on Networked Systems Design & Implementation, 2012,70(2): 141-146.

[6] S鵬. Apache Spark源碼剖析[M]. 北京: 電子工業(yè)出版社, 2015.

[7] Hive. Apache HiveTM[EB/OL]. [2016-11-27]. http:///.

[8] Holden Karau, Andy Konwinski, Patrick Wendell, et al. Learning Spark: Lightning-Fast Big Data Analysis[M]. Oreilly & Associates Inc, 2015.

[9] 員建廈. 基于動態(tài)存儲策略的數(shù)據(jù)管理系統(tǒng)[J]. 無線電工程, 2014,44(11): 52-54.

第5篇

【關(guān)鍵詞】云計算技術(shù) 大數(shù)據(jù) 數(shù)據(jù)處理

隨著物聯(lián)網(wǎng)、網(wǎng)絡(luò)、移動通信等的快速發(fā)展,特別是互聯(lián)網(wǎng)的普及使得信息傳播的規(guī)模和速度呈現(xiàn)幾何增長,人們獲取信息的途徑和方式開始變得異常豐富,人們事實上已經(jīng)進(jìn)入了“信息大爆炸”時代。與此同時信息傳播的大容量、高效性和準(zhǔn)確性也對現(xiàn)有的數(shù)據(jù)處理體系提出了更高要求。根據(jù)大數(shù)據(jù)摩爾定律,人類世界的數(shù)據(jù)產(chǎn)生量將按照每兩年一倍的速率增長,預(yù)計2020年世界數(shù)據(jù)量將超過35億GB,“大數(shù)據(jù)”時代迫在眉睫?!按髷?shù)據(jù)”具有離散型、隨機性、發(fā)散性、爆發(fā)性等特點。近年來,隨著云技術(shù)的興起全面革新了傳統(tǒng)的數(shù)據(jù)技術(shù),大容量、多樣化、快速處理、信息價值性和準(zhǔn)確性為了云技術(shù)背景下大數(shù)據(jù)處理的五大主要特征。如何利用云計算技術(shù)對大數(shù)據(jù)進(jìn)行高效處理已經(jīng)成為了信息技術(shù)發(fā)展亟待解決的關(guān)鍵問題。

1 大數(shù)據(jù)和云計算的關(guān)系

云計算技術(shù)是指利用集中式遠(yuǎn)程計算資源池,通過按需分配的方式,為終端用戶提供強大而廉價的計算服務(wù)技術(shù)。云計算技術(shù)作為一種數(shù)據(jù)處理方式,其技術(shù)特點包括:一是資源池在物理上是對終端用戶完全透明的;二是能夠為任何行業(yè)提供規(guī)?;嬎惴?wù),其服務(wù)能力可看做是“無限”的;三是其應(yīng)用部署快速便捷,服務(wù)能力和方式是可以完全按照終端客戶要求定制的,具有極強的彈性伸縮能力;四是云端數(shù)據(jù)獲取方便,能夠資源共享,用戶使用成本低廉。

云計算技術(shù)是目前最強大的數(shù)據(jù)存儲、傳輸和處理平臺,它是大數(shù)據(jù)處理的最優(yōu)選擇。云計算能夠為大數(shù)據(jù)提供幾乎“無限”的存儲空間和處理能力,滿足其超大容量存儲和超級復(fù)雜的處理需求,也是傳統(tǒng)存儲方式無法實現(xiàn)的。云計算側(cè)重數(shù)據(jù)的計算處理,而大數(shù)據(jù)需要強大數(shù)據(jù)處理能力,因而它是云計算的處理對象。此外大數(shù)據(jù)所產(chǎn)生的業(yè)務(wù)需求也為云計算的實現(xiàn)提供了更多的形式。

2 基于云計算的大數(shù)據(jù)處理技術(shù)

2.1 大數(shù)據(jù)的采集技術(shù)

目前數(shù)據(jù)采集方式主要分為集中式和分布式兩大類。其中分布式的靈活性較強,而集中式的全局性較好。實際上大數(shù)據(jù)采集的對象通常包括組織內(nèi)部和相互獨立組織間的各類數(shù)據(jù),而云計算恰好具有并行處理的優(yōu)勢,因而可采取混合式采集方式能夠更加有效地完成數(shù)據(jù)采集任務(wù)。即在各個組織內(nèi)部采用集中式數(shù)據(jù)采集方式,通過在組織內(nèi)配置中心服務(wù)器,作為集中式數(shù)據(jù)注冊機構(gòu),用于存儲和共享內(nèi)部的數(shù)據(jù)。在相互獨立組織間,采用云計算的集群技術(shù)、虛擬化技術(shù)等在各獨立組織中心服務(wù)器間采用分布式采集方式實現(xiàn)數(shù)據(jù)采集、組織間對接和共享。大數(shù)據(jù)結(jié)構(gòu)類型包括結(jié)構(gòu)化、半結(jié)構(gòu)和非結(jié)構(gòu)化數(shù)據(jù),因而在應(yīng)用云計算技術(shù)進(jìn)行分布式采集時,可依托其超強的擴展性和容錯力,將數(shù)據(jù)池內(nèi)數(shù)據(jù)進(jìn)行同構(gòu)化,從而實現(xiàn)數(shù)據(jù)進(jìn)行分類存儲。

2.2 大數(shù)據(jù)的存儲技術(shù)

由于超大體量、離散、復(fù)雜的數(shù)據(jù)特點,傳統(tǒng)數(shù)據(jù)存儲模式已經(jīng)難以滿足大數(shù)據(jù)存儲要求。一方面單結(jié)點的數(shù)據(jù)倉庫在容量上難以滿足呈幾何增長的數(shù)據(jù)量,在運行效率上也難以滿足大數(shù)據(jù)的分析處理需求。另一方面?zhèn)鹘y(tǒng)數(shù)據(jù)倉庫按行存儲模式,雖然可以實現(xiàn)大容量索引和視圖,但實際操作中其時間和空間過高。而云計算主要采取列式存儲模式,即區(qū)分?jǐn)?shù)據(jù)不同屬性,不同屬性列都單獨存放。云計算中列式存儲的優(yōu)勢在于在投影數(shù)據(jù)時只需查詢其屬性列,系統(tǒng)處理量和處理效率顯著提升。此外按數(shù)據(jù)屬性進(jìn)行列式存儲,數(shù)據(jù)倉庫中相鄰列數(shù)據(jù)的相似性更高,因而能夠得到更高的數(shù)據(jù)壓縮率,進(jìn)一步減少存儲所需空間。

2.3 大數(shù)據(jù)的挖掘技術(shù)

聯(lián)機分析能夠完成數(shù)據(jù)的復(fù)雜處理,得到直觀結(jié)果,實現(xiàn)決策性分析。云計算并行模式下聯(lián)機分析能夠基于數(shù)據(jù)全局,建立多維分析模型對數(shù)據(jù)進(jìn)行多維度分析,從而盡可能獲得全面的分析結(jié)構(gòu)。由此可見多維度分析是聯(lián)機分析的重要特征,而云計算技術(shù)下數(shù)據(jù)倉庫正好是通過多維數(shù)據(jù)組織的。

聯(lián)機分析對數(shù)據(jù)的處理僅僅只是表面的,其獲取的信息價值并不高,難以得到數(shù)據(jù)深層次的含義與內(nèi)在關(guān)聯(lián)。而數(shù)據(jù)挖掘正是在聯(lián)機分析的基礎(chǔ)上,從超大體量的數(shù)據(jù)倉庫中提取數(shù)據(jù)所蘊含的隱性信息,并將這些信息用規(guī)律、概念或是模型等表現(xiàn)出來?;谠朴嬎愕臄?shù)據(jù)挖掘主要采用分布式并行挖掘技術(shù)。與其他串行方式相比,云計算技術(shù)下并行數(shù)據(jù)挖掘能夠利用機器集群拆分分布式系統(tǒng)中的并行任務(wù),并將拆分后的各個任務(wù)分別交由不同的機器去處理,從而實現(xiàn)大規(guī)模數(shù)據(jù)處理,其時間成本也大大降低。

2.4 大數(shù)據(jù)的可視化技術(shù)

上文所述數(shù)據(jù)挖掘可實現(xiàn)大數(shù)據(jù)的深層次、多維度分析,獲取更多有用信息。而云計算平臺下可視化技術(shù)則能夠?qū)⑸鲜鲂畔⒕唧w化,從而使數(shù)據(jù)及其有關(guān)結(jié)構(gòu)的相關(guān)信息能夠更直觀地表現(xiàn)出來,更容易被發(fā)覺和理解??梢暬夹g(shù)是指在存儲空間中,將數(shù)據(jù)庫及其中數(shù)據(jù)以圖像(圖形)的形式表示出來,并在其中再采用其他的分析手段獲取圖像中所蘊含的未知信息。而原有的數(shù)據(jù)處理僅僅只能夠從數(shù)據(jù)本身入手,分析和觀察數(shù)據(jù)中的內(nèi)在信息。云計算下的可視化技術(shù)不但能夠?qū)崿F(xiàn)非空間數(shù)據(jù)的多維度圖像顯示,而且能夠?qū)崿F(xiàn)檢索過程的直觀圖形顯示,從而幫助人們更好地挖掘和理解信息,信息檢索效率也大大提升。

3 結(jié)語

在數(shù)據(jù)爆炸時代,云計算的出現(xiàn)為大數(shù)據(jù)的存儲和處理提供了可能,也為數(shù)據(jù)處理系統(tǒng)的功能擴展提供了重要保障。以往的數(shù)據(jù)管理將收集和存儲作為重點,而在云計算模式下,大數(shù)據(jù)管理將更多地側(cè)重數(shù)據(jù)分析、挖掘及管理模式的創(chuàng)新。目前數(shù)據(jù)采集和統(tǒng)計技術(shù)已經(jīng)較為成熟,利用云計算進(jìn)一步豐富大數(shù)據(jù)的存儲和處理方式,實現(xiàn)更高層次的數(shù)據(jù)挖掘和可視化將是今后需要解決的問題之一。

參考文獻(xiàn)

[1]孟小峰,慈祥.大數(shù)據(jù)管理:概念,技術(shù)與挑戰(zhàn)[J].計算機研究與發(fā)展,2013,50(1):146+169.

[2]吳雪琴,基于云計算的大數(shù)據(jù)信息檢索技術(shù)研究[J].電腦知識與技術(shù),2014,10(10):38-41.

[3]迪莉婭.基于云計算的電子政務(wù)大數(shù)據(jù)管理研究[J].信息管理與信息學(xué),2013(12):50-51.

第6篇

【關(guān)鍵詞】物聯(lián)網(wǎng);大數(shù)據(jù);審計

一、引言

審計是依照國家相關(guān)法律,對政府、企事業(yè)單位、金融機構(gòu)等進(jìn)行重大項目的和財務(wù)收支情況進(jìn)行事前或事后的獨立性檢查監(jiān)督活動,發(fā)現(xiàn)并糾正違法違規(guī)活動,促進(jìn)各類組織依法經(jīng)營、依法辦事。審計工作圍繞著審計對象的經(jīng)營活動展開,與大量的數(shù)據(jù)和關(guān)系打交道,尤其是大范圍跨組織的審計工作,錯綜復(fù)雜,耗時耗力。而信息技術(shù)的發(fā)展以及經(jīng)營活動的電子化,實現(xiàn)了數(shù)據(jù)信息的電子承載,計算機運算,其可關(guān)聯(lián)、可追蹤和智能化的特性大大提高了審計的效率。而進(jìn)入物聯(lián)網(wǎng)時代,物物相連,信息交互進(jìn)入微觀層面,審計工作可以通過基于物聯(lián)網(wǎng)的大數(shù)據(jù)技術(shù)做得跟家深入和透徹。

二、大數(shù)據(jù)對審計工作的影響

信息通信技術(shù)的發(fā)展促進(jìn)了生產(chǎn)生活的聯(lián)網(wǎng)化和信息化,如電子商務(wù)、生活服務(wù)O2O、快捷支付等等。越來越多的產(chǎn)品和服務(wù)交易活動通過電子訂單和電子支付的形式保存成海量的電子信息記錄,而每一次交易又可以在各類終端上的各種賬戶相互綁定的關(guān)聯(lián)。大數(shù)據(jù)時代下的審計工作因為信息處理的高效率而變得簡單,但同時也因為數(shù)據(jù)的可靠性降低而加大了驗證和識別的難度。

大數(shù)據(jù)的實時性、移動性和智能化使得審計工作發(fā)生了顛覆性變化,包括持續(xù)性和不定期審計成為審計工作的常態(tài)、作業(yè)模式發(fā)生革命性變化、內(nèi)部審計管理自動化和智能化。首先企業(yè)和組織的業(yè)務(wù)信息化后,每天的業(yè)務(wù)經(jīng)營活動都能夠通過管理信息系統(tǒng)或者ERP系統(tǒng)轉(zhuǎn)化為結(jié)構(gòu)化的數(shù)據(jù),并且通過系統(tǒng)軟件智能化地刷新和統(tǒng)計。同時數(shù)據(jù)的實時可查看、檢索和共享,為持續(xù)性和不定期審計提供了能力支撐。企業(yè)和組織內(nèi)部、外部獨立審計可以進(jìn)行動態(tài)審計管理,提高審計頻率,將風(fēng)險的發(fā)生概率降低到最??;對信息的實時全面掌握,以及計算機智能化運算統(tǒng)計技術(shù)的運用,極大地改變了審計的作業(yè)模式。審計的對象從業(yè)務(wù)模塊風(fēng)險排序?qū)m椚嫦到y(tǒng)性審計、審計依據(jù)從“經(jīng)驗+風(fēng)險評估”專項量化數(shù)據(jù)估算、工作方式也從人工審核轉(zhuǎn)向信息化+智能化的工作方式;而對于企業(yè)和組織內(nèi)部審計管理而言,通過審計工作的流程化和自動化,能夠?qū)嵤┕芸貥I(yè)務(wù)和資源配置,通過智能管理系統(tǒng)與審計要求相匹配。進(jìn)而大大提升了內(nèi)部審計的日?;椭悄芑?。

大數(shù)據(jù)給審計工作帶來巨大改進(jìn)的同時,也帶來了巨大挑戰(zhàn)。企業(yè)和組織的經(jīng)營活動數(shù)據(jù)化,涉及到各種實體活動與信息的匹配、數(shù)字憑證的可靠性和真實性、數(shù)據(jù)本身的真實性、審計相關(guān)法律法規(guī)的適應(yīng)性等問題。業(yè)務(wù)的數(shù)據(jù)化并不能百分之百真實反映實際的業(yè)務(wù)活動,例如電子商務(wù)中的在線訂單信息有可能與實際貨物流轉(zhuǎn)信息不匹配,資金來往與物權(quán)轉(zhuǎn)移不匹配,尤其是中小企業(yè)和一人企業(yè)的業(yè)務(wù)信息錯亂尤為嚴(yán)重;大數(shù)據(jù)時代的企業(yè)經(jīng)營新的商業(yè)模式和交易手段層出不窮,但審計的相關(guān)法律法規(guī)的更新速度遠(yuǎn)遠(yuǎn)跟不上企業(yè)和組織經(jīng)營的信息化變革,因此通過大數(shù)據(jù)進(jìn)行審計經(jīng)常會遇到缺少匹配法規(guī)依據(jù)而企業(yè)又無實物審計對象的窘境。

三、物聯(lián)網(wǎng)技術(shù)下的大數(shù)據(jù)特征

物聯(lián)網(wǎng)是通過射頻、紅外、全球定位、激光、電氣感應(yīng)燈技術(shù),按照通信協(xié)議約定,將任何物品接入互聯(lián)網(wǎng),實現(xiàn)微觀物與物的識別和鏈接。物聯(lián)網(wǎng)技術(shù)的基礎(chǔ)是感應(yīng)識別技術(shù)與互聯(lián)網(wǎng)技術(shù),物聯(lián)網(wǎng)技術(shù)將微觀實物信息化和數(shù)字化,以便實現(xiàn)更加豐富的應(yīng)用。物聯(lián)網(wǎng)技術(shù)下的大數(shù)據(jù)與傳統(tǒng)大數(shù)據(jù)相比,具有更多的獨特性。

首先,物聯(lián)網(wǎng)技術(shù)下實物對象的數(shù)字標(biāo)簽與實體的關(guān)聯(lián)性更強。傳統(tǒng)大數(shù)據(jù)中代表實物的數(shù)據(jù)僅僅只是一個符號,例如庫存數(shù)據(jù)、產(chǎn)品位置信息等等,數(shù)據(jù)表面并不一定代表著實體對象的形態(tài)和位置。而物聯(lián)網(wǎng)技術(shù)下的大數(shù)據(jù),微觀實物具備了智能識別標(biāo)簽,普通的實體與能夠像手機一樣,能夠通過位置的識別碼以及實時定位信號進(jìn)行準(zhǔn)確的識別和定位。實體對象的任何狀態(tài)變化都能夠反映在物聯(lián)網(wǎng)管理平臺中,即數(shù)據(jù)記載與實體對象的真實情況的一致性大大強加了。其次,物聯(lián)網(wǎng)技術(shù)下的大數(shù)據(jù)能夠真實反映個體、企業(yè)和組織的行為規(guī)律。物聯(lián)網(wǎng)將人與物、物與物互相真實地關(guān)聯(lián)起來,實物的狀態(tài)變化與人的行為聯(lián)動,因此通過物聯(lián)網(wǎng)大數(shù)據(jù)能夠反映萬事萬物的狀態(tài)變化信息,也就反映了彼此之前的關(guān)系和影響。

物聯(lián)網(wǎng)大數(shù)據(jù)的挖掘不僅能夠反映現(xiàn)實世界的各種活庸媛桑還能指導(dǎo)我們通過控制實物的規(guī)模、形態(tài)、位置等因素,來影響人的行為和心理。因此,從企業(yè)和組織而言,物聯(lián)網(wǎng)大數(shù)據(jù)必然是未來經(jīng)營管理的“核武器”。目前物聯(lián)網(wǎng)已經(jīng)應(yīng)用于智能交通、智慧城市、智慧環(huán)境、智慧農(nóng)業(yè)等多個領(lǐng)域。隨著企業(yè)和組織、以及個人越來越多地參與到物聯(lián)網(wǎng)技術(shù)的應(yīng)用中,將會逐漸提高數(shù)據(jù)與實物的關(guān)聯(lián)性,也就提升了數(shù)據(jù)信息的真實性和可靠性。對于審計工作而言,物聯(lián)網(wǎng)大數(shù)據(jù)進(jìn)一步為審計工作提供了強有力的武器,并能夠解決很多因為信息真實性導(dǎo)致的審計阻礙。

四、基于物聯(lián)網(wǎng)技術(shù)的大數(shù)據(jù)審計

從審計的手段方法角度看,一是物聯(lián)網(wǎng)大數(shù)據(jù)為驗證實物資產(chǎn)的存在性提供了快捷的工具。實物資產(chǎn)盤點是審計中核實信息真實性以及比對數(shù)據(jù)記錄的重要工作,但由于工作量大導(dǎo)致實際審計工作中給審計帶來巨大的人力物力負(fù)擔(dān),同時也容易出現(xiàn)忽視和錯誤。而物聯(lián)網(wǎng)技術(shù)運用到實物資產(chǎn)識別中以后,實物資產(chǎn)具有唯一的電子標(biāo)簽,并且能夠通過感應(yīng)、掃碼等技術(shù)快速地識別和統(tǒng)計實物信息,并且與審計系統(tǒng)中的各種賬目進(jìn)行比對,從而極大提升了審計的效率。二是遠(yuǎn)程聯(lián)網(wǎng)審計實現(xiàn)實時全面的審計,尤其是對于跨區(qū)域的大型項目的審計的作用更加突出。例如政府工程審計設(shè)計的地理區(qū)域、主體、資產(chǎn)類型、交易模式等等錯綜復(fù)雜,傳統(tǒng)工程審計需要奔波于各個現(xiàn)場進(jìn)行觀察、測量和統(tǒng)計分析。而通過物聯(lián)網(wǎng)技術(shù),可以通過食物識別、定位、視頻航拍、掃描測量等技術(shù)進(jìn)行遠(yuǎn)程聯(lián)動審計。例如無錫市濱湖區(qū)在2010年就引入了物聯(lián)網(wǎng)技術(shù)對某工程項目進(jìn)行審計,工作時間縮短了70%,工作效率提高了近6倍。

從審計績效提升角度看,物聯(lián)網(wǎng)大數(shù)據(jù)讓審計對經(jīng)濟社會發(fā)展的推動作用大大提升。審計的工作的目標(biāo)是為了推動經(jīng)濟活動能夠嚴(yán)格按照政策、法規(guī)等要求健康有序地開展。而傳統(tǒng)審計工作由于工作量大、審計結(jié)果的實時性和可視化程度不高,因此審計的對象及結(jié)果影響還不夠突出。而物聯(lián)網(wǎng)技術(shù)下的大數(shù)據(jù)審計,能夠真實可視化地反映更多審計對象的運營狀況,并且能夠更加全面和立體化地開展審計工作。例如對城市管理績效的審計,通過物聯(lián)網(wǎng)技術(shù)能夠動態(tài)反映城市的交通、環(huán)保、能耗等工作的現(xiàn)實,并且能夠?qū)栴}精準(zhǔn)地定位到特定區(qū)域、特定主體、特定原因。如對于企業(yè)排污的審計,通過排污管道的智能監(jiān)控、對排污出口環(huán)境數(shù)據(jù)的實時監(jiān)測,并通過定位系統(tǒng)實現(xiàn)網(wǎng)絡(luò)化實時物聯(lián)網(wǎng)數(shù)據(jù)展現(xiàn),能夠精準(zhǔn)地監(jiān)控各個企業(yè)的排污情況,包括排污的體量、污染物類型和比例以、以及對環(huán)境帶來的影響大小。即基于物聯(lián)網(wǎng)技術(shù)的審計,能夠深入到經(jīng)濟社會發(fā)展的發(fā)發(fā)面面,每一個主體的每一次活動,從而做到“天網(wǎng)恢恢,疏而不漏”。

從審計工作的科學(xué)性上,物聯(lián)網(wǎng)技術(shù)的大數(shù)據(jù)審計的可靠性更高。傳統(tǒng)審計工作時基于對法規(guī)的理解,從經(jīng)驗上和風(fēng)險評估上進(jìn)行定性和定量結(jié)合的考量方式,由于人為影響較大,因此審計結(jié)果和改進(jìn)措施的科學(xué)性和嚴(yán)謹(jǐn)性受到限制。而基于物聯(lián)網(wǎng)技術(shù)的大數(shù)據(jù)審計是基于個體識別而產(chǎn)生的信息,基于數(shù)據(jù)的量化分析挖掘,真夠最大程度地真實反映現(xiàn)實情況,并通過對模型化的智能演算,能夠推演出影響和結(jié)果的發(fā)生概率和大小,以及各個影響因子的作用。因此,通過物聯(lián)網(wǎng)大數(shù)據(jù)審計,能夠提升審計結(jié)果的可靠性和科學(xué)性,改進(jìn)措施建議的指導(dǎo)性也更強。

五、結(jié)語

基于物聯(lián)網(wǎng)技術(shù)的大數(shù)據(jù)審計,不僅需要物聯(lián)網(wǎng)在各行各業(yè)的應(yīng)用落地,還需要物聯(lián)網(wǎng)相關(guān)法規(guī)的建立,例如電子標(biāo)簽的法律規(guī)定以及市場要求,提升電子抱歉與實物之間的綁定關(guān)系。另外,審計部門需要加快基于物聯(lián)網(wǎng)的審計平臺和工具建設(shè),以匹配物聯(lián)網(wǎng)大數(shù)據(jù)的發(fā)展步伐,提升自身的工作能力。

⒖嘉南祝

[1]陳偉,SMIELIAUSKAS Wally.大數(shù)據(jù)環(huán)境下的電子數(shù)據(jù)審計:機遇、挑戰(zhàn)與方法[J].計算機科學(xué).2016(01) .

[2]楊凱茜.淺談大數(shù)據(jù)審計的特點及實現(xiàn)――以審計署對2012年中石油的審計結(jié)果為例 [J].財經(jīng)界(學(xué)術(shù)版).2015(12).

第7篇

[關(guān)鍵詞]大數(shù)據(jù);信息技術(shù);數(shù)據(jù)處理

[中圖分類號]TP274[文獻(xiàn)標(biāo)識碼]A

20世紀(jì)中葉計算機的誕生標(biāo)志著電子時代正式開始,從此人類社會開始生產(chǎn)并存儲各類型的數(shù)據(jù)。經(jīng)過數(shù)次計算機技術(shù)革命,單位面積所能存儲的數(shù)據(jù)量大大提高。近年來,由于WEB2.0應(yīng)用的全面爆發(fā),網(wǎng)絡(luò)參與者同時也成了網(wǎng)絡(luò)信息的制造者,由WEB2.0帶來的大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)開始呈現(xiàn)出幾何增長。因此,麥肯錫公司在2011年的報告《Big Data:the Next Frontier for Innovation》[1]中,對這種密集型數(shù)據(jù)爆炸的現(xiàn)象成為“大數(shù)據(jù)”時代的到來。

1大數(shù)據(jù)的概念

大數(shù)據(jù)的概念并不是憑空出現(xiàn)的,它的前身是海量數(shù)據(jù)。但兩者之間有所區(qū)別。海量數(shù)據(jù)強調(diào)了數(shù)據(jù)量的規(guī)模之大,并沒有對其特性進(jìn)行定義。而大數(shù)據(jù)的概念包含了大數(shù)據(jù)的體積、傳播速率、特征等內(nèi)容。雖然截至目前還沒有對大數(shù)據(jù)有統(tǒng)一的定義,但被廣泛接受的定義為:大數(shù)據(jù)是無法在一定時間內(nèi)用通常的軟件工具進(jìn)行收集、分析、管理的大量數(shù)據(jù)的集合[2]。大數(shù)據(jù)的特點一般歸納為四點:一是數(shù)據(jù)總量大,目前大數(shù)據(jù)的最小單位一般被認(rèn)為是10~20TB的量級;二是數(shù)據(jù)類型多,包括了結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù);三是數(shù)據(jù)的價值密度很低;四是數(shù)據(jù)產(chǎn)生和處理的速度非???。這四個特點又被稱作大數(shù)據(jù)的4 V理念,即:Volume,Variety,Value,Velocity[3]。

2大數(shù)據(jù)的技術(shù)

依據(jù)大數(shù)據(jù)生命周期的不同階段,可以將與大數(shù)據(jù)處理相關(guān)的技術(shù)分為相應(yīng)的三個方面:

2.1大數(shù)據(jù)存儲

從海量數(shù)據(jù)時代開始,大規(guī)模數(shù)據(jù)的長期保存、數(shù)據(jù)遷移一直都是研究的重點。從20世紀(jì)90年代末至今,數(shù)據(jù)存儲始終是依據(jù)數(shù)據(jù)量大小的不斷變化和不斷優(yōu)化向前發(fā)展的。其中主要有:DAS(Direct Attached Storage),直接外掛存儲;NAS(Network Attached Storage),網(wǎng)絡(luò)附加存儲;SAN(Storage Area Network),存儲域網(wǎng)絡(luò)和SAN IP等存儲方式[4]。這幾種存儲方式雖然是不同時代的產(chǎn)物,但各自的優(yōu)缺點都十分鮮明,數(shù)據(jù)中心往往是根據(jù)自身的服務(wù)器數(shù)量和要處理的數(shù)據(jù)對象進(jìn)行選擇。

此外,這兩年數(shù)據(jù)存儲的虛擬化從研究走向現(xiàn)實。所謂虛擬化,就是將原有的服務(wù)器進(jìn)行軟件虛擬化,將其劃分為若干個獨立的服務(wù)空間,如此可以在一臺服務(wù)器上提供多種存儲服務(wù),大大提高了存儲效率,節(jié)約存儲成本,是異構(gòu)數(shù)據(jù)平臺的最佳選擇。從技術(shù)角度來講,虛擬化可以分為存儲虛擬化和網(wǎng)絡(luò)虛擬化,網(wǎng)絡(luò)虛擬化是存儲虛擬化的輔助,能夠大幅度提升數(shù)據(jù)中心的網(wǎng)絡(luò)利用率和傳輸速率。目前IBM、浪潮、思科等公司紛紛發(fā)力虛擬化市場,可以預(yù)見虛擬化會成為未來大數(shù)據(jù)存儲的一個主流技術(shù)。

2.2大數(shù)據(jù)挖掘

在大數(shù)據(jù)的處理技術(shù)中,超大規(guī)模的數(shù)據(jù)挖掘一直是難點,也是重點。面對上百TB,甚至PB級別的異構(gòu)數(shù)據(jù),常規(guī)的處理工具往往難以擔(dān)當(dāng)重任。需要考慮到的是大數(shù)據(jù)是個不斷生長的有機體,因此在挖掘過程中還要考慮到未來數(shù)據(jù)繼續(xù)增長所帶來的影響。

因此,大數(shù)據(jù)的挖掘需要采用分布式挖掘和云計算技術(shù)。Google公司一直是分布式挖掘技術(shù)的領(lǐng)導(dǎo)者,它研發(fā)了MapReduce分布式挖掘工具[5],英特爾公司在此基礎(chǔ)上開發(fā)了Hadoop分布式挖掘工具。這兩個工具都具有高效、高擴展、高可靠性和高容錯率的特點,并提供免費版本,適用于各種類型的大數(shù)據(jù)挖掘。

2.3大數(shù)據(jù)分析

從內(nèi)容來說,大數(shù)據(jù)的分析分為技術(shù)和方法兩種類型。從技術(shù)上講,主要是分布式的數(shù)據(jù)分析和非結(jié)構(gòu)化數(shù)據(jù)處理等。從方法上講,主要是利用常用的數(shù)理統(tǒng)計方法來進(jìn)行數(shù)據(jù)分析,例如使用可視化的數(shù)據(jù)分析工具。但兩者是一個有機的整體。大數(shù)據(jù)處理的最終目的是為了將數(shù)據(jù)之間的關(guān)系以可視化的方式呈現(xiàn)在用戶面前,包括了處理的全部過程和展現(xiàn)的過程。在數(shù)據(jù)分析過程中,不僅僅是需要計算機進(jìn)行自動化的分析,更需要人工進(jìn)行數(shù)據(jù)選擇和參數(shù)的設(shè)定,兩個是辯證的關(guān)系。

隨著大數(shù)據(jù)行業(yè)的興起,產(chǎn)生了一個新的職業(yè),被稱作數(shù)據(jù)科學(xué),而從事該行業(yè)的人員被稱作數(shù)據(jù)科學(xué)家。這類科學(xué)家的一個特點就是能夠藝術(shù)性地將數(shù)據(jù)進(jìn)行可視化分析,簡單明了而且能夠展現(xiàn)出數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系。

3大數(shù)據(jù)的應(yīng)用

麥肯錫在大數(shù)據(jù)的研究報告中指出,大數(shù)據(jù)的應(yīng)用已經(jīng)滲透到每一個行業(yè)和業(yè)務(wù)職能領(lǐng)域,逐漸成為了重要的生產(chǎn)因素[6]。按照專業(yè)領(lǐng)域劃分,信息技術(shù)、互聯(lián)網(wǎng)行業(yè)、商業(yè)、遙感探測已經(jīng)開始應(yīng)用大數(shù)據(jù)技術(shù)來進(jìn)行研究和生產(chǎn)效益;生物信息技術(shù)、科研情報所、圖書情報領(lǐng)域已經(jīng)對大數(shù)據(jù)展開了研究,并進(jìn)行了規(guī)劃;其他專業(yè)和行業(yè)對大數(shù)據(jù)可能仍處于了解階段,但大數(shù)據(jù)的浪潮很快就會波及大部分的行業(yè)領(lǐng)域。

從大數(shù)據(jù)的應(yīng)用效果來看,總體趨勢與上述的三類專業(yè)呈現(xiàn)出一致性。百度、淘寶等公司作為信息技術(shù)、互聯(lián)網(wǎng)和商業(yè)領(lǐng)域的杰出代表,已經(jīng)對大數(shù)據(jù)開始了深度應(yīng)用,馬云在卸任阿里巴巴CEO時更是闡述了大數(shù)據(jù)時代將改變互聯(lián)網(wǎng)商業(yè)的面貌,誰提前開始大數(shù)據(jù)的應(yīng)用,就可以獲得未來行業(yè)發(fā)展的優(yōu)勢。大數(shù)據(jù)的普及需要一個過程,首先從重點應(yīng)用行業(yè)開始,例如信息技術(shù)領(lǐng)域行業(yè),逐漸擴展到其他行業(yè)。美國已經(jīng)由白宮頒布了大數(shù)據(jù)開發(fā)與利用的國家級戰(zhàn)略,由美國國防部和國土安全局牽頭開展全面推廣大數(shù)據(jù)的應(yīng)用。我國目前對大數(shù)據(jù)的研究并不多,應(yīng)用更是缺乏。如果要推動大數(shù)據(jù)的應(yīng)用,應(yīng)當(dāng)由國家層面進(jìn)行大數(shù)據(jù)的平臺建設(shè)。在今年的國家自然科學(xué)基金和社會科學(xué)基金的課題指南中,已經(jīng)提出了很多設(shè)計大數(shù)據(jù)的課題,相信在未來幾年內(nèi)國家會對大數(shù)據(jù)的研究、開發(fā)與利用提供政策和資金支持。

總而言之,大數(shù)據(jù)的技術(shù)與應(yīng)用還是處于起步階段,其應(yīng)用的前景不可估量。各個行業(yè)應(yīng)當(dāng)把握時代脈搏,充分認(rèn)識到大數(shù)據(jù)所能帶來的革命性改變,只有這樣才能夠保持創(chuàng)新與進(jìn)步,從而站在行業(yè)的最前沿。

參考文獻(xiàn):

[1]Manyika J,McKinsey Global Insti? tute,Chui M,et al. Big data: The next fron? tier for innovation,competition,and produc? tivity[M]. McKinsey Global Institute,2011.

[2]盧勝軍,王忠軍,栗琳.賽博空間與大數(shù)據(jù)雙重視角下的錢學(xué)森情報思想[J].情報理論與實踐,2013,36(004): 1-5.

[3]Hirt C W,Nichols B D. Volume of fluid(VOF)method for the dynamics of free boundaries[J].Journalofcomputational physics,1981,39(1): 201-225.

[4]Chirillo J,Blaul S. Storage Security: Protecting,SANs,NAS and DAS[M].John Wiley & Sons,Inc.,2002.

[5]Dean J,Ghemawat S. MapReduce: simplified data processing on large clusters[J]. Communications of the ACM,2008,51(1): 107-113.

[6]鄭玲微.大步跨入“大數(shù)據(jù)”時代[J].信息化建設(shè),2013(1).

第8篇

(一)外審領(lǐng)域信息技術(shù)的發(fā)展催生“大數(shù)據(jù)”

現(xiàn)代審計范圍不斷擴大,隨著云計算、互聯(lián)網(wǎng)等信息技術(shù)的發(fā)展,財務(wù)軟件、ERP管理系統(tǒng)、SAP管理系統(tǒng)、審計軟件等的應(yīng)用,注冊會計師可以從眾多渠道、更容易地獲取大量的數(shù)據(jù)和信息,不斷積累的數(shù)據(jù)已在體量上形成“大數(shù)據(jù)”。

注冊會計師所收集的數(shù)據(jù),可能包含企業(yè)自成立到審計時幾年、幾十年的相關(guān)信息,也可能包含行業(yè)的、類似企業(yè)的比較數(shù)據(jù),這些數(shù)據(jù)既可能與財務(wù)相關(guān),也可能與財務(wù)無關(guān),但都是必要的,沒有多余的信息。唐代的韓愈在《進(jìn)學(xué)解》中說:“玉札丹砂,赤箭青芝,牛溲馬勃,敗鼓之皮,俱收并蓄,待用無遺者,醫(yī)師之良也?!弊詴嫀熥鳛橥獠繉徲嫷摹傲坚t(yī)”、“良工”,需要的是對這些“數(shù)據(jù)”俱收并蓄、善加利用。

(二)風(fēng)險在哪里?“大數(shù)據(jù)”來告訴你

對于注冊會計師來說,大數(shù)據(jù)就像是一座金礦,有用的信息就蘊含在其中,需要審計人員采用大數(shù)據(jù)技術(shù)去分析和提煉。大數(shù)據(jù)技術(shù)告訴我們只有掌握足夠大的數(shù)據(jù)樣本,運用大數(shù)據(jù)理念進(jìn)行分析和挖掘,才能發(fā)現(xiàn)用其他方法很難或無法發(fā)現(xiàn)的規(guī)律、趨勢和異常;且大數(shù)據(jù)只會告訴我們分析的結(jié)果,而不會告訴我們原因,即只知其然而不知其所以然。對我們的審計工作來說,知道風(fēng)險所在、異常記錄,揭示了錯報風(fēng)險領(lǐng)域就已經(jīng)達(dá)到了風(fēng)險評估的目的,完成了這一階段的任務(wù)。

(三)運用“大數(shù)據(jù)”,構(gòu)建數(shù)據(jù)庫是前提

國務(wù)院《關(guān)于加強審計工作的意見》中提出:“推進(jìn)有關(guān)部門、金融機構(gòu)和國有企事業(yè)單位等與審計機關(guān)實現(xiàn)信息共享,加大數(shù)據(jù)集中力度,構(gòu)建國家審計數(shù)據(jù)系統(tǒng)。” [2]隨著國家審計數(shù)據(jù)系統(tǒng)、“國家政府信息開放統(tǒng)一平臺和基礎(chǔ)數(shù)據(jù)資源庫”的構(gòu)建和完善,以及政府?dāng)?shù)據(jù)資源共享開放工程的推進(jìn),將對注冊會計師利用大數(shù)據(jù)技術(shù)進(jìn)行審計提供極大的便利。同時加強注冊會計師行業(yè)內(nèi)的信息化建設(shè)與共享,對于外部審計領(lǐng)域成功應(yīng)用大數(shù)據(jù)具有重要作用。廣大的會計師事務(wù)所從業(yè)人員,也期望注冊會計師協(xié)會作為行業(yè)的管理者和引領(lǐng)者,能夠整合注冊會計師掌握的海量原始數(shù)據(jù)、政府部門及其他來源的數(shù)據(jù),在已經(jīng)運行的法律法規(guī)庫和經(jīng)濟數(shù)據(jù)庫的基礎(chǔ)上,構(gòu)建行業(yè)內(nèi)的更大規(guī)模的審計數(shù)據(jù)系統(tǒng)。

當(dāng)然,大量的數(shù)據(jù)還是依靠注冊會計師和會計事務(wù)所的長期搜集、整理和積累,事實上國內(nèi)外許多知名會計事務(wù)所早已建有自己的數(shù)據(jù)系統(tǒng),在提供審計、管理咨詢等服務(wù)時,發(fā)揮了重要作用。

二、在實質(zhì)性程序階段,運用大數(shù)據(jù)改進(jìn)審計方法

(一)以詳細(xì)審計、整體審計,取代抽樣審計

從世界審計史的發(fā)展來看,在審計發(fā)展的早期階段――19世紀(jì)末以前,審計師大都運用詳細(xì)審計技術(shù)對財務(wù)資料或其他記錄進(jìn)行逐筆審查。當(dāng)時,企業(yè)規(guī)模較小,經(jīng)濟業(yè)務(wù)不很復(fù)雜,審計師有能力做到這一點。但是,隨著社會生產(chǎn)力的發(fā)展,企業(yè)規(guī)模越來越大,經(jīng)營活動日趨復(fù)雜,會計記錄成倍增長,致使審計師無論從專業(yè)能力,還是花費的時間、費用來看,都無法繼續(xù)運用詳細(xì)審計。[3]在這種情況下,抽樣審計就應(yīng)運而生了,并逐漸取代了詳細(xì)審計。但抽樣審計無論抽樣方法設(shè)計的多么科學(xué),始終都是對部分樣本的審查,是以部分推測整體,它提供的只能是合理保證;甚至是以偏概全、審計失敗,這樣的案例并不少見??梢哉f,抽樣審計是在經(jīng)濟、科技發(fā)展水平限制下的無奈之舉。

在社會經(jīng)濟、科學(xué)技術(shù)高度發(fā)展的今天,“互聯(lián)網(wǎng)+”、云計算、大數(shù)據(jù)技術(shù)紛紛出現(xiàn),深刻地改變了人們做事的思維和方法。大數(shù)據(jù)技術(shù)的出現(xiàn)、審計科學(xué)的發(fā)展,使審計師能夠快速獲取、分析并審查一個跨國的、擁有眾多分支的龐大商業(yè)帝國海量的財務(wù)和非財務(wù)數(shù)據(jù),采用詳細(xì)審計的技術(shù)條件、物質(zhì)條件已經(jīng)具備。運用大數(shù)據(jù)技術(shù)進(jìn)行詳細(xì)審計,檢查所有的樣本,顯然能夠避免抽樣審計以偏概全的弊端,使所有異常記錄都無處遁形,對于保證審計質(zhì)量、避免審計風(fēng)險,具有重要乃至革命性的作用。

(二)仰之彌高的“大數(shù)據(jù)”,如何“入吾彀中”、為我所用

唯有創(chuàng)新電子審計技術(shù),充分運用互聯(lián)網(wǎng)、云計算等信息處理技術(shù),開發(fā)和完善審計軟件、數(shù)據(jù)分析軟件等輔助工具,才能促使大數(shù)據(jù)審計技術(shù)落地。大數(shù)據(jù)是經(jīng)濟、科技發(fā)展的產(chǎn)物,其運用也必須以電子技術(shù)、信息處理技術(shù)等作為支撐和基礎(chǔ)。財務(wù)核算軟件、ERP管理系統(tǒng)、SAP管理系統(tǒng)等為越來越多的企業(yè)所采用,企業(yè)信息生成越來越電子化、自動化、數(shù)據(jù)化。這就要求注冊會計師審計也必須適應(yīng)這種變化,充分運用電子、信息等技術(shù)手段,實現(xiàn)審計數(shù)據(jù)采集、分析、處理的自動化、智能化,提高審計手段的科技含量。

在手工記帳時代,財務(wù)數(shù)據(jù)的采集、各種審計明細(xì)表的填列,耗費了注冊會計師大量寶貴時間,往往填列一個較復(fù)雜表格就需耗費半天甚至一天的時間。而企業(yè)采用財務(wù)軟件實行電算化后,注冊會計師借助各種審計軟件的“取數(shù)工具”,可在數(shù)分鐘內(nèi)完成一年甚至多年財務(wù)數(shù)據(jù)的采集,大大簡化了審計工作流程、提高了審計工作效率。

現(xiàn)在,隨著“互聯(lián)網(wǎng)+”、云計算等信息處理技術(shù)的發(fā)展,“財務(wù)云”、“審計云”的出現(xiàn),審計數(shù)據(jù)在技術(shù)上已經(jīng)可以實現(xiàn)實時傳輸,審計模式也正在由集中審計向分散審計、實時審計發(fā)展,這必將推動審計由事后審計向事前審計、事中審計發(fā)展,大大提高審計成果的時效性。

數(shù)據(jù)采集的便利化、實時化,為大數(shù)據(jù)技術(shù)的運用創(chuàng)造了前提條件。但如果依靠人工去分析、核查這些海量數(shù)據(jù),無疑是“無法完成的任務(wù)”。這就要求創(chuàng)新電子審計技術(shù),開發(fā)適應(yīng)大數(shù)據(jù)審計所需的審計軟件、“尖端數(shù)據(jù)分析工具”,以配合注冊會計師的人工分析、職業(yè)判斷。大數(shù)據(jù)審計技術(shù)的運用,可以將審計人員從繁雜、重復(fù)的“低級”工作中解放出來,使之能夠?qū)⒂邢薜臅r間和精力放到更有價值的審計分析和職業(yè)判斷上。這必將大大提高注冊會計師的審計工作能力和效率,解放和提升審計“生產(chǎn)力”,促進(jìn)外部審計領(lǐng)域的供給側(cè)改革。

三、在審計報告階段,利用大數(shù)據(jù)形成綜合性審計成果

注冊會計師在運用大數(shù)據(jù)技術(shù)進(jìn)行審計的過程中,通過采集、分析、挖掘、判斷大量數(shù)據(jù)信息,不但可以獲取有關(guān)審計結(jié)論的證據(jù),還可以發(fā)現(xiàn)企業(yè)在經(jīng)營管理、內(nèi)部控制等方面存在的問題,以及揭示企業(yè)的發(fā)展趨勢、面臨的風(fēng)險等。

第9篇

“智慧中國(Smarter China)”是以信息化為龍頭,以科技為支撐,以創(chuàng)新為驅(qū)動,以環(huán)境為載體,以智慧為本位,涵蓋城鄉(xiāng)管理生產(chǎn)、生活、環(huán)境、文化等方面的智能化?!爸腔壑袊⊿marter China)”是“數(shù)字中國(Digital China)”發(fā)展的高級階段。形象地講:數(shù)字中國+物聯(lián)網(wǎng)+云計算+大數(shù)據(jù)+……=智慧中國。因之,智慧中國離不開大數(shù)據(jù)技術(shù),我們必須用大數(shù)據(jù)技術(shù)來建設(shè)智慧中國。

大數(shù)據(jù)的定義及特征

聯(lián)合國資料顯示,全球互聯(lián)網(wǎng)流量累計達(dá)到1EB(即10億GB或1000PB)的時間在2001年是一年,在2004年是一個月,在2007年是一周,而2013年僅需一天。未來10年里預(yù)計數(shù)字信息總量將從2009年到2020年增長44倍,全球數(shù)據(jù)使用量將達(dá)到大約35.2ZB(1ZB=10億TB)。

大數(shù)據(jù)(Big data)泛指P(1000個T)級以上的數(shù)據(jù)(包括E(100萬個T)、Z(10億個T)級大數(shù)據(jù))。維基百科把大數(shù)據(jù)定義為一個大而復(fù)雜的、難以用現(xiàn)有數(shù)據(jù)庫管理工具處理的數(shù)據(jù)集。廣義上,大數(shù)據(jù)有三層內(nèi)涵:一是數(shù)據(jù)量巨大、來源多樣和類型多樣的數(shù)據(jù)集;二是新型的數(shù)據(jù)處理和分析技術(shù);三是運用數(shù)據(jù)分析形成價值。因之,業(yè)界將大數(shù)據(jù)的特征概括為4V:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)和“1秒定律”。

大數(shù)據(jù)技術(shù)包括信息的采集技術(shù)、整理加工技術(shù)、存儲技術(shù)、管理技術(shù)、傳輸技術(shù)、搜索技術(shù)等各個方面,涉及到數(shù)據(jù)庫、網(wǎng)絡(luò)、人工智能、通信、地理信息系統(tǒng)、多媒體、仿真等信息技術(shù)的各個專業(yè)領(lǐng)域,其核心技術(shù)是數(shù)據(jù)挖掘(DM)和數(shù)據(jù)分析技術(shù),其本質(zhì)是知識發(fā)現(xiàn)(KDD)。

物聯(lián)網(wǎng)、云計算、移動互聯(lián)網(wǎng)、車聯(lián)網(wǎng)、手機、平板電腦、PC以及遍布地球各個角落的各種各樣的傳感器,無一不是數(shù)據(jù)來源或者承載的方式。在智慧中國建設(shè)中,大數(shù)據(jù)將會如基礎(chǔ)設(shè)施一樣,有數(shù)據(jù)提供方、管理者、監(jiān)管者,數(shù)據(jù)的交叉復(fù)用將大數(shù)據(jù)變成智慧中國的一大產(chǎn)業(yè)。據(jù)統(tǒng)計,目前大數(shù)據(jù)所形成的市場規(guī)模在51億美元左右,而到2017年,此數(shù)據(jù)預(yù)計會上漲到530億美元

大數(shù)據(jù)對智慧中國建設(shè)的推動作用

大數(shù)據(jù)將對智慧中國的科學(xué)研究、經(jīng)濟建設(shè)、社會發(fā)展和文化生活等各個領(lǐng)域產(chǎn)生革命性的影響;對培育數(shù)據(jù)產(chǎn)業(yè),服務(wù)智慧中國,促進(jìn)經(jīng)濟結(jié)構(gòu)調(diào)整和產(chǎn)業(yè)轉(zhuǎn)型,將產(chǎn)生巨大的推動作用。

大數(shù)據(jù)將改變智慧中國的治理模式、企業(yè)業(yè)務(wù)流程和個人生活方式。大數(shù)據(jù)時代網(wǎng)民和消費者的界限正在消弭,企業(yè)的疆界變得模糊,數(shù)據(jù)成為核心的資產(chǎn),并將深刻影響企業(yè)的業(yè)務(wù)模式,甚至重構(gòu)其文化和組織。因此,利用大數(shù)據(jù)更加貼近消費者、深刻理解需求、高效分析信息并作出預(yù)判,將對智慧中國治理模式、對企業(yè)的決策、組織和業(yè)務(wù)流程、對個人生活方式都將產(chǎn)生巨大的影響。

大數(shù)據(jù)將引發(fā)智慧中國新一輪信息化投資和建設(shè)熱潮。據(jù)麥肯錫預(yù)測未來智慧中國大數(shù)據(jù)產(chǎn)品的潛在市場規(guī)模有望達(dá)到1.57萬億元,給IT行業(yè)開拓了一個新的黃金時代。數(shù)據(jù)處理技術(shù)和設(shè)備提供商、IT系統(tǒng)咨詢和ERP/CRM/BI改造服務(wù)商、智能化和人機交互應(yīng)用以及信息安全提供商將獲巨大需求,相應(yīng)公司將獲得機會。

大數(shù)據(jù)為智慧中國擁有數(shù)據(jù)資產(chǎn)的企業(yè)提供發(fā)展機遇。預(yù)計今明兩年將是大數(shù)據(jù)市場的培育期,2015年以后大數(shù)據(jù)產(chǎn)品將會形成業(yè)績。由于國際巨頭在硬件層和基礎(chǔ)軟件層壟斷優(yōu)勢明顯,本土企業(yè)將主要依靠對客戶需求的了解和客戶資源優(yōu)勢,以及本地化服務(wù)的優(yōu)勢,在應(yīng)用軟件層分得蛋糕,擁有大數(shù)據(jù)處理、挖掘技術(shù)、數(shù)據(jù)分析人才以及數(shù)據(jù)資產(chǎn)的公司值得看好,將在智慧中國建設(shè)中迎來難得的發(fā)展機遇。

大數(shù)據(jù)反映智慧中國的輿情和民意。網(wǎng)民在網(wǎng)上產(chǎn)生的海量數(shù)據(jù),記錄著他們的思想、行為乃至情感,這是信息時代現(xiàn)實社會與網(wǎng)絡(luò)空間深度融合的產(chǎn)物,蘊含著豐富的內(nèi)涵和很多規(guī)律性信息。根據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心統(tǒng)計,2013年底我國網(wǎng)民數(shù)已超過8億,手機網(wǎng)民已超過6億,通過分析相關(guān)數(shù)據(jù),可以了解智慧中國的大眾需求、訴求和意見。

大數(shù)據(jù)將對智慧中國社會發(fā)展帶來巨大推動作用。企業(yè)和政府的信息系統(tǒng)每天源源不斷產(chǎn)生大量數(shù)據(jù),根據(jù)賽門鐵克公司的調(diào)研報告,全球企業(yè)的信息存儲總量年增67%。醫(yī)院、學(xué)校和銀行等也都會收集和存儲大量信息。政府可以部署傳感器等感知單元,收集環(huán)境和社會管理所需的信息。智慧中國倘若能夠更有效地組織和使用大數(shù)據(jù),國家將得到更多的機會發(fā)揮科學(xué)技術(shù)對社會發(fā)展的巨大推動作用。

選擇重點領(lǐng)域推進(jìn)智慧中國大數(shù)據(jù)建設(shè)。

用大數(shù)據(jù)技術(shù)建設(shè)智慧中國要重點選擇以下八個具有大數(shù)據(jù)基礎(chǔ)的領(lǐng)域和具有迫切需求的行業(yè),探索“數(shù)據(jù)、平臺、應(yīng)用、終端”四位一體的新型商業(yè)模式,推進(jìn)大數(shù)據(jù)產(chǎn)業(yè)發(fā)展,促進(jìn)大數(shù)據(jù)技術(shù)成果惠及廣大民眾。

城市規(guī)劃。根據(jù)全國城鎮(zhèn)化建設(shè)工作會議的戰(zhàn)略部署,重新搞好各地的城鎮(zhèn)建設(shè)規(guī)劃;通過對城鄉(xiāng)地理、氣象等自然數(shù)據(jù)和經(jīng)濟、社會、文化、人口等人文社會信息的挖掘,為城鎮(zhèn)規(guī)劃提供強大的決策支持,強化城鎮(zhèn)規(guī)劃的科學(xué)性和前瞻性;盡快實施數(shù)字化城市管理新模式,使城市管理實現(xiàn)快捷有序科學(xué)化。

智慧交通。針對交通規(guī)劃、綜合交通決策、跨部門協(xié)同管理、個性化的公眾信息服務(wù)等需求,建設(shè)全方位交通大數(shù)據(jù)服務(wù)平臺。整合城鄉(xiāng)道路交通、公共交通的大數(shù)據(jù)資源,匯聚氣象、環(huán)境、人口、土地等行業(yè)數(shù)據(jù),逐步建設(shè)交通大數(shù)據(jù)庫,提供道路交通狀況判別及預(yù)測,輔助交通決策管理,支撐智慧出行服務(wù),加快交通大數(shù)據(jù)服務(wù)模式創(chuàng)新。針對現(xiàn)代物流業(yè)務(wù)的需求,建設(shè)物流大數(shù)據(jù)平臺。匯聚整合城鄉(xiāng)貨物、運輸車輛等數(shù)據(jù),融合多源物聯(lián)網(wǎng)、北斗導(dǎo)航等數(shù)據(jù),實現(xiàn)貨運數(shù)據(jù)共享服務(wù),建立基于大數(shù)據(jù)的現(xiàn)代貨運物流服務(wù)體系。

醫(yī)療衛(wèi)生。針對臨床質(zhì)量分析、醫(yī)療資源分配、醫(yī)療輔助決策、科研數(shù)據(jù)服務(wù)、個性化健康引導(dǎo)的需求,建設(shè)全民醫(yī)療健康公共服務(wù)平臺。在健康信息網(wǎng)已有數(shù)據(jù)的基礎(chǔ)上,匯聚整合醫(yī)療、藥品、氣象和社交網(wǎng)絡(luò)等大數(shù)據(jù)資源,形成智能臨床診治模式、自助就醫(yī)模式等服務(wù)模式創(chuàng)新,為民眾、醫(yī)生、政府提供醫(yī)療資源配置、流行病跟蹤與分析、臨床診療精細(xì)決策、疫情監(jiān)測及處置、疾病就醫(yī)導(dǎo)航、健康自我檢查等服務(wù)。建設(shè)完善涵蓋城鄉(xiāng)所有患者的電子診療檔案庫,形成PB級的醫(yī)療健康大數(shù)據(jù)資源,實現(xiàn)支撐城鄉(xiāng)主治醫(yī)生同時在線診療的輔助能力。

食品安全。針對食品安全和管理的需求,建設(shè)食品安全大數(shù)據(jù)服務(wù)平臺。匯聚政府各部門的食品安全監(jiān)管數(shù)據(jù)、食品檢驗監(jiān)測數(shù)據(jù)、食品生產(chǎn)經(jīng)營企業(yè)索證索票數(shù)據(jù)、食品安全投訴舉報數(shù)據(jù),建成食品安全大數(shù)據(jù)資源庫,進(jìn)行食品安全預(yù)警,發(fā)現(xiàn)潛在的食品安全問題,促進(jìn)政府部門間聯(lián)合監(jiān)管,為企業(yè)、第三方機構(gòu)、公眾提供食品安全大數(shù)據(jù)服務(wù)。

數(shù)字生活。針對日益增長的現(xiàn)代化生活需求,建設(shè)數(shù)字生活大數(shù)據(jù)服務(wù)系統(tǒng)。收集整合流行時尚、行業(yè)發(fā)展指數(shù)、用戶消費習(xí)慣、收視記錄、社交媒體、地理位置等大數(shù)據(jù),充分挖掘用戶的消費習(xí)慣和興趣偏好,提升企業(yè)輔助決策能力,形成有市場競爭力的創(chuàng)新商業(yè)模式,面向所有消費者提供個性化衣食住行生活互動信息。

制造業(yè)。針對科學(xué)評價生產(chǎn)系統(tǒng)規(guī)劃、降低產(chǎn)品缺陷率等需求,建立制造業(yè)大數(shù)據(jù)系統(tǒng)。整合已有的車間制造、質(zhì)量體系、工序數(shù)據(jù)、成本核算等建模數(shù)據(jù),為工廠生產(chǎn)、實際建設(shè)提供決策依據(jù)。收集產(chǎn)品生產(chǎn)過程各環(huán)節(jié)的實時質(zhì)量數(shù)據(jù),實現(xiàn)敏捷的一體化質(zhì)量監(jiān)測和管控,并支持產(chǎn)品質(zhì)量追溯,形成基于大數(shù)據(jù)的一貫過程質(zhì)量控制及分析系統(tǒng),并向第三方提供服務(wù)。

公共安全。針對治安防控、反恐維穩(wěn)、情報研判、案情偵破等實戰(zhàn)需求,建設(shè)基于大數(shù)據(jù)的公共安全管理和應(yīng)用平臺。匯聚融合涉及公共安全的人口、警情、網(wǎng)吧、賓館、視頻、人臉、指紋等海量業(yè)務(wù)數(shù)據(jù),建設(shè)公共安全領(lǐng)域的大數(shù)據(jù)資源庫,全面提升公共安全突發(fā)事件監(jiān)測預(yù)警、快速響應(yīng)和高效打擊犯罪等能力。

科技服務(wù)。針對科技服務(wù)數(shù)據(jù)整合、交互式服務(wù)、發(fā)展趨勢預(yù)測、戰(zhàn)略決策支持等需求,探索科技服務(wù)鏈整合、眾包分包、供需對接的交互式平臺型服務(wù)模式,建立科技服務(wù)業(yè)資源共享體系,建設(shè)跨領(lǐng)域科技服務(wù)與工程創(chuàng)新平臺。匯聚科技成果、項目、人才、服務(wù)、互聯(lián)網(wǎng)創(chuàng)新創(chuàng)意等大數(shù)據(jù)資源,支撐研發(fā)設(shè)計、技術(shù)轉(zhuǎn)化、創(chuàng)新創(chuàng)業(yè)、科技咨詢等方面的科技服務(wù)。打造“科聯(lián)工程”,形成跨領(lǐng)域的大數(shù)據(jù)服務(wù)模式。

依托統(tǒng)計部門為全國大數(shù)據(jù)采集應(yīng)用探索新路。

統(tǒng)計部門是城鄉(xiāng)大數(shù)據(jù)采集應(yīng)用的主導(dǎo)部門,在業(yè)務(wù)工作中要不斷明確工作重點,有條不紊地落實和推進(jìn)大數(shù)據(jù)應(yīng)用工作,為全國大數(shù)據(jù)采集應(yīng)用探索新路。一在專業(yè)突破方面,以價格統(tǒng)計和貿(mào)易統(tǒng)計為例,逐步研究采集互聯(lián)網(wǎng)信息特別是電商交易數(shù)據(jù)和價格數(shù)據(jù)以補充完善調(diào)查樣本,研究建立商場、超市和電商企業(yè)向統(tǒng)計部門提供完整電子化交易記錄的制度。二在企業(yè)電子化記錄應(yīng)用方面,要與有關(guān)高校和科研部門協(xié)作,積極研究開發(fā)企業(yè)電子化生產(chǎn)經(jīng)營記錄自動導(dǎo)入統(tǒng)計聯(lián)網(wǎng)直報系統(tǒng)的技術(shù),爭取2014年在聯(lián)網(wǎng)直報平臺正式加載自動導(dǎo)入軟件。三在應(yīng)用政府部門電子化行政記錄方面,進(jìn)一步加強與民政、工商等部門的協(xié)作配合,推進(jìn)電子化行政記錄和統(tǒng)計信息的共享。在居民收入、勞動工資等統(tǒng)計中,要不斷研究通過對稅務(wù)、銀行等部門行政記錄的分析,評估公民收入、工資、家庭資產(chǎn)等統(tǒng)計數(shù)據(jù),特別是評估與校驗高收入階層的相關(guān)數(shù)據(jù)。四在利用大數(shù)據(jù)開展經(jīng)濟走勢預(yù)測方面,各級統(tǒng)計部門要與網(wǎng)絡(luò)公司、科研單位和咨詢機構(gòu)等開展合作,探索利用網(wǎng)絡(luò)搜索數(shù)據(jù)建立相關(guān)統(tǒng)計分析和計量模型,進(jìn)行經(jīng)濟形勢分析預(yù)測,為各級政府決策提供服務(wù)。

用大數(shù)據(jù)建設(shè)智慧中國應(yīng)采取的對策

大數(shù)據(jù)的應(yīng)用與分析對做出科學(xué)決策具有重要意義,我們從現(xiàn)在開始就應(yīng)該為數(shù)據(jù)收集和數(shù)據(jù)分析做好充分準(zhǔn)備,以確保智慧中國快速建設(shè)。

建設(shè)“大數(shù)據(jù)”寬帶高速通道。大數(shù)據(jù)如同節(jié)假日高速公路上的汽車,如果路面狹窄就會發(fā)生嚴(yán)重?fù)矶?。該文原載于中國社會科學(xué)院文獻(xiàn)信息中心主辦的《環(huán)球市場信息導(dǎo)報》雜志http://總第535期2014年第03期-----轉(zhuǎn)載須注名來源對此,我國電信、移動、聯(lián)通、廣電等電信企業(yè)要積極落實“國家寬帶工程戰(zhàn)略”,爭取在“十二五”末建成融合3G(第三代移動通信)、4G(第四代移動通信)、WLAN(無線局域網(wǎng))、寬帶固網(wǎng)及NGB(下一代廣播電視網(wǎng))等城域高速網(wǎng)絡(luò),實現(xiàn)高速安全、多層次、立體化網(wǎng)絡(luò)覆蓋;實施“寬帶中國”戰(zhàn)略,全面實現(xiàn)“百兆到戶,千兆到企”的寬帶接入能力,城域網(wǎng)全面支持IPv6(國際互聯(lián)網(wǎng)協(xié)議第6版)訪問與解析;WLAN熱點覆蓋廣泛,城鄉(xiāng)無線寬帶網(wǎng)絡(luò)覆蓋率達(dá)到90%;力爭實現(xiàn)TD-LTE(分時長期演進(jìn))網(wǎng)絡(luò)全面商用,極大滿足智慧中國建設(shè)的需求,為大數(shù)據(jù)的廣泛應(yīng)用拓寬通道。

實施“三網(wǎng)融合”和數(shù)字家庭試點。推動基于互聯(lián)網(wǎng)、通信網(wǎng)、廣播電視網(wǎng)的產(chǎn)業(yè)轉(zhuǎn)型和資源融合,重點發(fā)展基于廣電網(wǎng)的電信增值業(yè)務(wù)、互聯(lián)網(wǎng)接入業(yè)務(wù)和電信運營商的IPTV(交互式網(wǎng)絡(luò)電視)業(yè)務(wù);開展“三網(wǎng)融合”數(shù)字家庭試點示范,普及家庭高清互動娛樂、視頻通信、節(jié)能管理、安全監(jiān)控、遠(yuǎn)程教育、家庭醫(yī)療保健等智能化信息應(yīng)用。到“十二五”末,形成全國統(tǒng)一有線廣播電視網(wǎng),建成IPTV、手機電視集成播控平臺和綜合業(yè)務(wù)管理平臺,全面實現(xiàn)廣電和電信業(yè)務(wù)雙向進(jìn)入,使數(shù)字、圖像、視頻等大數(shù)據(jù)公開使用,暢通無阻。

構(gòu)建各級政府大數(shù)據(jù)中心。建設(shè)和完善人口、法人、空間地理和宏觀經(jīng)濟等基礎(chǔ)信息數(shù)據(jù)庫,以及市場監(jiān)管、社會信用等專題信息數(shù)據(jù)庫,制定管理辦法,完善信息動態(tài)更新機制,依托各級云計算中心建設(shè)政府大數(shù)據(jù)中心,提高從大量數(shù)據(jù)中采集、訪問、組織、分析和可視化處理信息的水平。到“十二五”末,各級要建成多層次的空間信息云服務(wù)體系,建成宏觀經(jīng)濟數(shù)據(jù)庫,為貯存、計算、處理、分析大數(shù)據(jù),滿足城鄉(xiāng)管理、企業(yè)生產(chǎn)經(jīng)營、公民生活需求和政府智慧決策提供服務(wù)。

建立政府和社會聯(lián)動的大數(shù)據(jù)形成和應(yīng)用機制。各級政府部門和各行業(yè)要全面實施信息公開制度,推動公共數(shù)據(jù)資源的開發(fā)利用,提高信息資源社會價值和經(jīng)濟價值。積極推行政府網(wǎng)上辦事,收集分析挖掘社會政務(wù)服務(wù)需求,推進(jìn)公共服務(wù)個性化和政府決策智能化。支持公共服務(wù)機構(gòu)和商業(yè)機構(gòu)開放與社會民生密切相關(guān)的公共數(shù)據(jù)。推進(jìn)國民經(jīng)濟各行業(yè)和企業(yè)數(shù)據(jù)開發(fā),發(fā)展商業(yè)智能。鼓勵開展服務(wù)大眾的大數(shù)據(jù)應(yīng)用,提升智慧生活品質(zhì)。

制定實施大數(shù)據(jù)的有關(guān)政策措施。大數(shù)據(jù)就是資源,建設(shè)智慧中國離不開大數(shù)據(jù)的開發(fā)應(yīng)用,必須制定有關(guān)政策措施,確保大數(shù)據(jù)這一科技生產(chǎn)力發(fā)揮作用,以推動智慧中國建設(shè)。

創(chuàng)新體系建設(shè)。各省市要成立“大數(shù)據(jù)產(chǎn)業(yè)技術(shù)創(chuàng)新戰(zhàn)略聯(lián)盟”,設(shè)立“大數(shù)據(jù)科學(xué)實驗室”、建設(shè)“數(shù)據(jù)工程技術(shù)研究中心”等,以大數(shù)據(jù)技術(shù)創(chuàng)新及產(chǎn)業(yè)應(yīng)用為目標(biāo)、以聯(lián)盟為紐帶促進(jìn)形成若干引領(lǐng)大數(shù)據(jù)產(chǎn)業(yè)技術(shù)創(chuàng)新的企業(yè)聯(lián)合實體;以合同契約為保障有效整合產(chǎn)、學(xué)、研、用等各方資源,以技術(shù)創(chuàng)新為驅(qū)動力、市場剛性需求為推動力,發(fā)展擁有自主知識產(chǎn)權(quán)且符合國內(nèi)外產(chǎn)業(yè)發(fā)展需求的共性應(yīng)用技術(shù)、產(chǎn)業(yè)標(biāo)準(zhǔn)和產(chǎn)品規(guī)范。

培養(yǎng)專業(yè)人才。開展數(shù)據(jù)專業(yè)領(lǐng)域人才的培養(yǎng),培訓(xùn)一批資深數(shù)據(jù)工程師,培育跨界復(fù)合型人才,與國內(nèi)外數(shù)據(jù)專家形成持續(xù)穩(wěn)定的協(xié)作關(guān)系。鼓勵高等院校和企業(yè)合作,開展數(shù)據(jù)科學(xué)和大數(shù)據(jù)專業(yè)學(xué)歷教育,依托社會化教育資源,提高大數(shù)據(jù)產(chǎn)業(yè)人員的業(yè)務(wù)水平,發(fā)揮大數(shù)據(jù)高層次引進(jìn)人才的重要作用,開展大數(shù)據(jù)專業(yè)培訓(xùn),形成人才梯隊。

完善制度法規(guī)。研究大數(shù)據(jù)產(chǎn)業(yè)相關(guān)的政策法規(guī),提出數(shù)據(jù)資源權(quán)益、隱私保護(hù)等方面的法規(guī)細(xì)則建議,制定大數(shù)據(jù)相關(guān)標(biāo)準(zhǔn),并提出技術(shù)解決手段,在保護(hù)數(shù)據(jù)資源的同時,促進(jìn)數(shù)據(jù)資源合理有序地開發(fā)利用。在人才、財稅、科技金融等方面設(shè)計有利于數(shù)據(jù)人才和數(shù)據(jù)產(chǎn)業(yè)發(fā)展的政策,逐步建立有利于各地大數(shù)據(jù)研究與發(fā)展、并保障大數(shù)據(jù)安全的制度法規(guī)體系。