亚洲成色777777女色窝,777亚洲妇女,色吧亚洲日本,亚洲少妇视频

數(shù)據(jù)分析設(shè)計

時間:2023-06-12 16:20:26

導(dǎo)語:在數(shù)據(jù)分析設(shè)計的撰寫旅程中,學(xué)習(xí)并吸收他人佳作的精髓是一條寶貴的路徑,好期刊匯集了九篇優(yōu)秀范文,愿這些內(nèi)容能夠啟發(fā)您的創(chuàng)作靈感,引領(lǐng)您探索更多的創(chuàng)作可能。

數(shù)據(jù)分析設(shè)計

第1篇

關(guān)鍵詞:互聯(lián)網(wǎng)+;中職英語;闖關(guān)模式;數(shù)據(jù)分析

一、引言

隨著“互聯(lián)網(wǎng)+”時代的到來,各行各業(yè)都發(fā)生了巨大變化。把互聯(lián)網(wǎng)平臺、云數(shù)據(jù)、信息通信技術(shù)與教育行業(yè)結(jié)合,或許可以在教育領(lǐng)域里創(chuàng)造一種新生態(tài)。[1]在互聯(lián)網(wǎng)信息技術(shù)支持下,職業(yè)教育手段多樣,學(xué)習(xí)途徑也可以變得簡單方便。信息化的教學(xué)手段不僅可以激發(fā)學(xué)生的學(xué)習(xí)興趣,更可以使學(xué)生利用零散時間學(xué)習(xí),打破傳統(tǒng)教學(xué)時間和地域的限制。除此外,利用平臺反饋的各種數(shù)據(jù),教師可以隨時掌握學(xué)生的學(xué)習(xí)進展和學(xué)習(xí)效果,因地制宜規(guī)劃教學(xué)任務(wù)、改進教學(xué)方法、調(diào)節(jié)教學(xué)進度等。另一方面,基于闖關(guān)模式的信息化教學(xué)平臺也在逐漸走入中職院校的教學(xué)課堂。由于目前大多數(shù)中職院校的英語教學(xué)主要采用傳統(tǒng)的課堂教學(xué)手段,即“填鴨式”的教學(xué)方法。在這種教學(xué)情形下,學(xué)生學(xué)習(xí)的主動性不高,師生課堂互動少,學(xué)生缺乏學(xué)習(xí)成就感,厭學(xué)情緒強烈,導(dǎo)致教學(xué)效果不理想。因此,“互聯(lián)網(wǎng)+”背景下的闖關(guān)模式教學(xué)正是利用中職學(xué)生愛玩游戲的天性,在模擬闖關(guān)游戲的情境下,在教學(xué)平臺上進行游戲式英語教學(xué)。[2]讓學(xué)生在游戲中主動學(xué)習(xí),在學(xué)習(xí)中感受到游戲帶來的樂趣,達到在輕松氛圍中掌握知識的目的。與此同時,闖關(guān)模式的教學(xué)進度和教學(xué)成果的數(shù)據(jù)分析功能也尤為重要,通過數(shù)據(jù)分析教師可以更好的反思自己教學(xué)方式需要改進的地方,從而進一步優(yōu)化教學(xué)內(nèi)容。文章通過研究闖關(guān)模式的教學(xué)意義、教學(xué)流程以及教學(xué)數(shù)據(jù)分析在中職英語教學(xué)的應(yīng)用,可為現(xiàn)階段基于闖關(guān)模式的中職英語教學(xué)實踐提供有效的方法,具有中職英語教學(xué)借鑒價值。

二、闖關(guān)模式在中職英語的應(yīng)用

職業(yè)教育是以學(xué)生服務(wù)為核心的服務(wù)型教育,目的在于培育學(xué)生在步入社會工作時擁有一技之長,而不僅僅是一紙證書。大部分傳統(tǒng)課堂教學(xué)有師資、授課時間和地點的要求,由于課時和課外精力有限,教師往往以急于完成教學(xué)大綱要求,采取“滿堂灌”“一刀切”的教學(xué)方法。由于中職院校學(xué)生的基礎(chǔ)較差,學(xué)習(xí)主動性不強,學(xué)生彼此能力不一,教師對學(xué)生的基礎(chǔ)及進步空間不了解,“教師灌輸,學(xué)生厭學(xué)”的教學(xué)方式使得教學(xué)效果很不理想。英語作為基礎(chǔ)學(xué)科具有一定的特殊性。在中職英語教學(xué)過程中,師生互動和生生互動是非常重要的學(xué)習(xí)過程,學(xué)生敢于表達是學(xué)好英語最有效的方法。所以,在教學(xué)過程中,首先應(yīng)激發(fā)學(xué)生的學(xué)習(xí)興趣,提高學(xué)生的學(xué)習(xí)自信心,讓學(xué)生敢于用英語表達,樂于用英語進行互動。使學(xué)生于交流表達互動中,逐步掌握英語的詞匯、語法等。闖關(guān)模式是基于游戲設(shè)置,通過合理設(shè)計“游戲關(guān)卡”來逐層加深知識的難易程度,整個闖關(guān)游戲所有的關(guān)卡設(shè)置內(nèi)容既包含理論知識所需要掌握的知識要點,又包含具體應(yīng)用的實操技能訓(xùn)練環(huán)節(jié),形式多樣。闖關(guān)模式的實質(zhì)是利用游戲激發(fā)學(xué)生的學(xué)習(xí)興趣,在游戲成功闖關(guān)后讓學(xué)生獲得學(xué)習(xí)成就感,增強學(xué)習(xí)信心與動力,從而愛上學(xué)習(xí)英語,變被動學(xué)習(xí)為主動學(xué)習(xí)。[3]闖關(guān)模式設(shè)置時一定嚴格按照教學(xué)大綱的內(nèi)容,并且時刻注意學(xué)生學(xué)習(xí)過程中反饋的各種數(shù)據(jù),根據(jù)數(shù)據(jù)分析掌握學(xué)生學(xué)情。

(一)闖關(guān)模式在中職英語學(xué)習(xí)中的設(shè)置

闖關(guān)模式按照學(xué)習(xí)內(nèi)容的難易程度設(shè)置成不同等級的關(guān)卡,以移動終端的網(wǎng)絡(luò)平臺為支撐,學(xué)生以個人或小組的形式進行闖關(guān)。闖關(guān)模式的目的在于吸引學(xué)生主動參與學(xué)習(xí),通過這種教學(xué)模式提高了學(xué)生應(yīng)用英語的整體水平,同時也提升了教師的英語教學(xué)技能和研究能力。所以,游戲是手段,不能只注重學(xué)習(xí)過程,而忽視教學(xué)成果。學(xué)生要想闖關(guān)成功,就必須要掌握融入到闖關(guān)游戲中的各種英語知識和相關(guān)表達。闖關(guān)模式教學(xué)內(nèi)容的設(shè)定是核心工作,是教師應(yīng)“三思而后行”的任務(wù)。教師應(yīng)依據(jù)教學(xué)任務(wù),首先將教材內(nèi)容進行分析梳理,按照教學(xué)流程(單詞-語句-閱讀)或者所學(xué)內(nèi)容的難以程度進行梯度劃分,將梯度設(shè)置成“關(guān)口”。[4]在每一次闖關(guān)之前,教師可以將教學(xué)任務(wù)中布置的闖關(guān)相關(guān)詞匯和句型進行講解,建立所謂的“闖關(guān)須知”,學(xué)生要想闖關(guān)成功,必須先學(xué)會相關(guān)的詞匯和句型。開始闖關(guān)后,可將闖關(guān)任務(wù)分解,以個人或團體的形式闖關(guān)。教師可以將全部的學(xué)習(xí)任務(wù)放入“通關(guān)錦囊”中,供闖關(guān)失敗的學(xué)生參考,為下一次闖關(guān)做儲備。在闖關(guān)任務(wù)完成后,教師應(yīng)及時通過后臺數(shù)據(jù)了解學(xué)生的學(xué)習(xí)情況,如答題速度,思考時間,正確率,易錯選項等數(shù)據(jù),及時對學(xué)生的闖關(guān)結(jié)果進行考核與評價,以最快的速度了解學(xué)生學(xué)情,進而對教學(xué)內(nèi)容和教學(xué)進度進行調(diào)整,以適應(yīng)學(xué)生的學(xué)習(xí)步伐。教師在考核評價完成后應(yīng)將闖關(guān)結(jié)果及時反饋給學(xué)生,學(xué)生在收到教師根據(jù)數(shù)據(jù)發(fā)表的相關(guān)評價后及時進行學(xué)結(jié),為以后的闖關(guān)打好基礎(chǔ)。下面以“MyInterest”主題教學(xué)任務(wù)為例,按照上述流程教師可將該主題分解成“興趣詞匯”“興趣對話”“興趣展示與比拼”等幾個游戲環(huán)節(jié),按照對應(yīng)內(nèi)容依次設(shè)立成“基礎(chǔ)詞匯關(guān)”“提升句型關(guān)”“終極表達關(guān)”“興趣展示關(guān)”等難度不一的關(guān)卡,再根據(jù)教學(xué)任務(wù)要求,將和MyInterest有關(guān)的詞匯、句型和片段閱讀放入“闖關(guān)須知”中,讓學(xué)生進行闖關(guān)前預(yù)習(xí),以便于他們掌握通關(guān)的基本技能,降低闖關(guān)難度。闖關(guān)過程中,教師也可結(jié)合學(xué)生闖關(guān)的情況,隨時發(fā)現(xiàn)學(xué)生的學(xué)習(xí)問題,隨時記錄,以便后期問題的講解。任務(wù)結(jié)束后,將教學(xué)大綱中的主題相關(guān)課程講解放在“通關(guān)錦囊”中,幫助學(xué)生學(xué)結(jié)。

(二)闖關(guān)模式教學(xué)設(shè)置的注意事項

首先,闖關(guān)設(shè)置的教學(xué)內(nèi)容應(yīng)遵循教學(xué)大綱規(guī)定。按照大綱規(guī)定的課程學(xué)習(xí)內(nèi)容進行選擇,并且要注重理論與實際的結(jié)合。闖關(guān)任務(wù)的設(shè)置應(yīng)將教學(xué)目標自然地融入關(guān)卡中,緊密結(jié)合實訓(xùn)課程的能力目標,注意關(guān)卡中知識的環(huán)環(huán)相扣,知識點的引入要全面且不超綱。其次,教師要明確設(shè)置的關(guān)卡難度,根據(jù)教學(xué)內(nèi)容的由淺入深,闖關(guān)所需掌握的知識也應(yīng)按逐級增加的原則設(shè)置,這樣學(xué)生才會有闖關(guān)的成就感,有繼續(xù)闖關(guān)的勇氣,在逐級過關(guān)后積累知識。[5]例如闖關(guān)時設(shè)為一顆星難度、兩顆星難度、三顆星難度等類推。每一次闖關(guān)都要明確必備知識,時間限制和過關(guān)要求等等。以上文提到的“MyInterest”話題為例,具體任務(wù)分解可參照一下表格:在學(xué)生完成任務(wù)后,教師可以要求學(xué)生寫出完成任務(wù)后的困惑、感想及感悟等,同要求掌握的詞匯和句型一并放到“通關(guān)錦囊”中,作為闖關(guān)失敗重新闖關(guān)或者后面闖關(guān)同學(xué)的闖關(guān)指南。最后,闖關(guān)設(shè)置任務(wù)切勿本末倒置。闖關(guān)的是為了提高學(xué)生的學(xué)習(xí)興趣,使學(xué)生在輕松愉快的環(huán)境中完成學(xué)習(xí)。闖關(guān)不是目的,達到教學(xué)目標讓學(xué)生掌握必備的英語技能才是最終目的。因此,在闖關(guān)后,教師應(yīng)該針對學(xué)生闖關(guān)過程中表現(xiàn)出來的學(xué)習(xí)情況、能力表現(xiàn)等進行客觀、真實地評價。利用平臺數(shù)據(jù)的反饋建立相應(yīng)的學(xué)生測評報告,將實訓(xùn)成績納入學(xué)生期中期末的總成績中,激發(fā)學(xué)生的競爭意識。筆者曾針對中職英語教學(xué)現(xiàn)狀和中職英語闖關(guān)模式教學(xué)現(xiàn)狀對學(xué)生進行過問卷調(diào)查,問卷調(diào)查的對象分別是筆者所在的南靖第一職業(yè)技術(shù)學(xué)校2015級隨機抽取的60名學(xué)生,共發(fā)放60份問卷,收回60份問卷,回收率100%。雖然該調(diào)查具有局限性,但是在一定程度上也反映了目前中職學(xué)生英語學(xué)習(xí)的現(xiàn)狀對比情況。從問卷調(diào)查結(jié)果中可以看出:闖關(guān)模式教學(xué)可以提高學(xué)生的學(xué)習(xí)興趣,有助于提高學(xué)生的英語學(xué)習(xí)成績,并且有效提高了英語課堂的學(xué)習(xí)氣氛,提高了學(xué)生的學(xué)習(xí)主動性。

三、闖關(guān)模式教學(xué)中數(shù)據(jù)分析的重要性

互聯(lián)網(wǎng)帶動了云數(shù)據(jù)的發(fā)展,使人們無論在何時何地都能用數(shù)據(jù)進行總結(jié)分析和預(yù)測。在中職英語的闖關(guān)模式教學(xué)中,教師除了設(shè)置闖關(guān)教學(xué)內(nèi)容外,還要重視平臺反饋的數(shù)據(jù),要對數(shù)據(jù)進行收集整理和分析,從數(shù)據(jù)中采集學(xué)生學(xué)情等信息。利用闖關(guān)模式教學(xué)的目的在于激發(fā)學(xué)生的學(xué)習(xí)興趣,如何驗證教學(xué)模式的有效性?闖關(guān)模式的平臺可以設(shè)置諸多數(shù)據(jù),仍以上文提到的“MyInterest”學(xué)習(xí)主題的第一關(guān)基礎(chǔ)詞匯關(guān)為例,可以根據(jù)單詞的闖關(guān)測試設(shè)置拼寫速度、反應(yīng)時間、正確率、歷史錯誤率等數(shù)據(jù)。學(xué)生每闖過一關(guān),教師就可以在后臺收集相應(yīng)的數(shù)據(jù),收集所有學(xué)生的數(shù)據(jù)后,進行分析,為每一學(xué)生建立測評報告。通過測評報告,教師可以了解學(xué)生知識掌握情況,結(jié)合線下教學(xué),幫助學(xué)生補短板,提高整體英語學(xué)習(xí)水平。除了學(xué)生的個人測評報告,教師還應(yīng)建立闖關(guān)模式教學(xué)任務(wù)的整體測評報告。例如:對于錯誤率較高的單個知識點找到學(xué)生犯錯的共性,利用線下教學(xué)面授優(yōu)勢,為學(xué)生細心巧妙講解,突破重點難點。同時教師利用闖關(guān)模式平臺數(shù)據(jù)可以直擊學(xué)生學(xué)習(xí)難點,有效地指導(dǎo)學(xué)生學(xué)習(xí),利用數(shù)據(jù)結(jié)果提高備課速度,不斷優(yōu)化設(shè)定的教學(xué)內(nèi)容??傊瑧?yīng)用闖關(guān)模式等其他互聯(lián)網(wǎng)平臺作為新型教學(xué)手段,改革傳統(tǒng)中職英語的教學(xué)模式,可不斷提升中職學(xué)生對英語的學(xué)習(xí)興趣和能力,同時通過平臺中的數(shù)據(jù)反饋與分析還可以大大提升中職英語的教學(xué)成果,可實現(xiàn)為企業(yè)輸送優(yōu)秀的英語人才。

參考文獻:

[1]張聰.基于“互聯(lián)網(wǎng)+”積件式資源建設(shè)的中職英語教學(xué)探索[J].考試周刊,2016(32).

[2]王彩云.“互聯(lián)網(wǎng)+”時代背景下的中職英語教學(xué)初探[J].教育(文摘版),2016(2).

[3]曾麗婷.闖關(guān)式翻轉(zhuǎn)課堂教學(xué)模式構(gòu)建與實施[J].中國教育信息化,2015(12).

[4]陳寅,張玉珊.互聯(lián)網(wǎng)+環(huán)境下英語教育改革與創(chuàng)新思考:兼評《英語語言教學(xué)改革與創(chuàng)新二互聯(lián)網(wǎng)+教育探討》[J].中國高教研究,2016(2).

第2篇

關(guān)鍵詞:價格預(yù)測;分布式網(wǎng)絡(luò)爬蟲;數(shù)碼產(chǎn)品網(wǎng)站;大數(shù)據(jù);數(shù)學(xué)建模

中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2017)17-0269-02

1概述

據(jù)《中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告》顯示,截至2016年6月,我國網(wǎng)絡(luò)購物用戶規(guī)模達到4.48億,可見通過網(wǎng)上獲取信息的人很多。在互聯(lián)網(wǎng)+和大數(shù)據(jù)時代下,IT行業(yè)逐步成為人們熱議的焦點,其發(fā)展也得到愈來愈多的人關(guān)注。而目前國內(nèi)的IT類資訊網(wǎng)站大多沒有預(yù)測產(chǎn)品價格這個功能,本文將著重研究價格預(yù)測的實現(xiàn)功能的實現(xiàn)。

2網(wǎng)站設(shè)計與開發(fā)的可行性與適應(yīng)性分析

2.1從技術(shù)角度看

開發(fā)一個基于大數(shù)據(jù)的分析的數(shù)碼產(chǎn)品價格預(yù)測網(wǎng)站需要大量的數(shù)據(jù)做支撐,這些數(shù)據(jù)可以通過各大電商平臺進行獲取。各大電商平臺往往會將這些數(shù)據(jù)按照一定的格式展現(xiàn)在網(wǎng)站上,我們可以通過分布式數(shù)據(jù)爬蟲技術(shù)將這些數(shù)據(jù)實時采集。數(shù)據(jù)爬蟲是一種非常流行的數(shù)據(jù)采集程序,目前互聯(lián)網(wǎng)上擁有大量的爬蟲框架供我們使用,我們只需編寫簡單的代碼便可以開始獲取數(shù)據(jù)。當擁有海量數(shù)據(jù)后我們可以對各個商品進行建模,基于hadoop框架進行分布式運算,設(shè)計相關(guān)預(yù)測算法對數(shù)碼產(chǎn)品價格進行分析并預(yù)測出價格的未來走勢。

2.2從資源角度看

對于數(shù)碼產(chǎn)品,互聯(lián)網(wǎng)可以提供各種各樣的信息,比如各大手機生產(chǎn)企業(yè)會在他們的網(wǎng)站上數(shù)碼產(chǎn)品的配置信息、評測信息等。在網(wǎng)站建立的初期我們可以從這些網(wǎng)站獲取大量的數(shù)據(jù)來填充我們的數(shù)據(jù)庫。對于部分具有版權(quán)的數(shù)據(jù),我們將采用外鏈的方式將原網(wǎng)站提供給用戶瀏覽,這樣可以節(jié)約開發(fā)資源,并讓網(wǎng)站專注于價格預(yù)測的實現(xiàn)。

2.3從商業(yè)價值角度看

一個可以有效預(yù)測價格變化的網(wǎng)站是比較有市場前景的,目前互聯(lián)網(wǎng)上充斥著各種各樣的歷史價格查看網(wǎng)站,但是大多沒有可以對價格進行預(yù)測的網(wǎng)站。如果我們可以成功的預(yù)測價格走勢,我們就可以引導(dǎo)消費,幫助消費者省錢,這也便是網(wǎng)站最大的商業(yè)價值。

3網(wǎng)站概述

網(wǎng)站以用戶需求為出發(fā)點,利用網(wǎng)絡(luò)爬蟲、PHP、HTML5、JAVASCRIPT、MYSQL等技術(shù)設(shè)計開發(fā)。在網(wǎng)站里可以查詢到參數(shù)、評測、價格和圖片等關(guān)于數(shù)碼產(chǎn)品的詳細信息。網(wǎng)站的功能包括數(shù)碼產(chǎn)品價格預(yù)測(預(yù)測到某款數(shù)碼產(chǎn)品在未來一段時間內(nèi)的價格)、信息查詢(含有數(shù)碼產(chǎn)品名稱、各項參數(shù)、各角度拍攝圖片等信息)、價格對比(及參數(shù)對比、圖片對比和綜合對比)等,目的是為人們提供一個簡單易操作、具有現(xiàn)實意義的數(shù)碼產(chǎn)品信息查詢平臺。網(wǎng)站技術(shù)框架如下圖所示:

4網(wǎng)站設(shè)計

4.1網(wǎng)站主要功能設(shè)計

4.1.1產(chǎn)品價格預(yù)測模塊設(shè)計

產(chǎn)品降價預(yù)測模塊是網(wǎng)站的重點功能。用戶可以通過網(wǎng)站查詢某個產(chǎn)品的基本信息,并且能夠得知該產(chǎn)品的歷史價格走勢和該產(chǎn)品在未來一段時間的價格走勢,這對于比較注重價格的用戶來說,便可以綜合各類信息和自身需求,更加理性和有計劃地選擇性價比較高的產(chǎn)品。

網(wǎng)站利用分布式爬蟲采集互聯(lián)網(wǎng)各大平臺的IT產(chǎn)品價格數(shù)據(jù),形成一個較全面的價格走勢圖,再通過對產(chǎn)品價格進行建模,從建模結(jié)果中得到IT產(chǎn)品在未來一段時間的價格走勢。需要說明的是,因為價格容易受到社會、經(jīng)濟條件以及國際等多種因素的影響,所以預(yù)測的價格走勢會有一定的波動。另外,對于不同時期的價格預(yù)測也不同,短期內(nèi)影響因素主要是數(shù)碼產(chǎn)品的市場供應(yīng),一般采用指數(shù)平滑法。這種方法預(yù)測主要是靠歷史價格數(shù)據(jù)逐步往后推導(dǎo)預(yù)測價格。對于較長時間,則采用二次指數(shù)平滑法較好,因為對于一些時間序列變化可能存在線性的趨勢,這種方法的好處在于能減少預(yù)測值的滯后性。如果數(shù)據(jù)的變化受季節(jié)影響,預(yù)測方法應(yīng)當采用溫特線性季節(jié)性指數(shù)平滑較好,因為這個預(yù)測方法是根據(jù)季節(jié)的變化來進行價格預(yù)測,這樣預(yù)測的價格更為準確。

4.1.2產(chǎn)品基本搜索功能設(shè)計

產(chǎn)品的搜索功能也是網(wǎng)站的基本功能之一。產(chǎn)品的搜索功能不僅僅只是簡單的產(chǎn)品搜索,它是一個包括商品搜索、查看熱門產(chǎn)品、查看最新產(chǎn)品、今日推薦等多模塊組合成的一個大模塊。用戶通過這些搜索信息并結(jié)合自己需求,可以理性謹慎地對產(chǎn)品進行對比選購。換言之,產(chǎn)品搜索模塊將完成對商品的導(dǎo)購功能。

4.1.3產(chǎn)品詳情模塊設(shè)計

產(chǎn)品詳情頁面包括很多內(nèi)容,其子頁面也非常多。其中包括:概覽頁面、具體參數(shù)頁面、報價頁面、點評頁面、圖片頁面以及競品對比頁面等等,每一個頁面的功能都不同,設(shè)計時將合理安排功能的布局,以方便用戶獲取自己所需要的資料。

4.2價格的采集與預(yù)測

4.2.1分布式網(wǎng)絡(luò)爬蟲

實現(xiàn)價格預(yù)測的前提是有大量的歷史價格數(shù)據(jù),所以W站利用分布式網(wǎng)絡(luò)爬蟲技術(shù)從各大網(wǎng)站采集數(shù)據(jù),爬蟲主要由兩個模塊組成:

爬蟲引擎:分布式運行且完成下載網(wǎng)站頁面內(nèi)容,并將數(shù)據(jù)存入數(shù)據(jù)庫的工作。

數(shù)據(jù)清洗:將下載下來的價格信息進行清洗處理,剔除無效信息和冗余信息。

分布式爬蟲技術(shù)實現(xiàn)需要對于特定的網(wǎng)頁編寫用于分析其網(wǎng)站源碼和獲取信息的腳本代碼,數(shù)據(jù)或許后再通過數(shù)據(jù)清洗去除掉不必要的數(shù)據(jù)信息,最后把需要的數(shù)據(jù)存放到數(shù)據(jù)庫中保存。

4.2.2預(yù)測價格

在比較多種預(yù)測方法后,我們發(fā)現(xiàn)時間序列法較適合預(yù)測數(shù)碼產(chǎn)品的價格。時間序列即是某些序列按照時間的先后順序排列而成的一種特殊序列。若利用這組數(shù)列,應(yīng)用數(shù)理統(tǒng)計方法加以處理,以解決實際問題,則稱為時間序列分析法。時間序列分析是以時間序列為研究對象,分析序列的本質(zhì)波動,探究其真實規(guī)律的一種定量分析法。在實際中,通常被用于預(yù)測未來現(xiàn)象或指標的波動情況。由于數(shù)據(jù)量龐大、涉及的商品較多,為了提高計算速度,預(yù)測模型需要構(gòu)架在Hadoop等分布式平臺之上。

5網(wǎng)站的開發(fā)

5.1數(shù)據(jù)爬蟲程序

開發(fā)一個數(shù)據(jù)爬蟲,需要用到scrapy框架,該框架是基于python語言編寫的,用python語言開發(fā)程序最大的特點那就是簡單易讀。Scrapy框架非常的簡單易用只需編寫爬蟲規(guī)則就可以開始高效獲取數(shù)據(jù),并且該框架是可分布式運行,速度可控,支持JavaScript,非常適合用來采集各大網(wǎng)站的數(shù)碼產(chǎn)品數(shù)據(jù),最重要的是該框架是免費而且開源的,故運用scrapy框架進行開發(fā)滿足網(wǎng)站需要的爬蟲系統(tǒng)。

5.2價格數(shù)據(jù)分析系統(tǒng)

對于海量的數(shù)據(jù)傳統(tǒng)程序沒辦法很好的處理,傳統(tǒng)的win-dows系統(tǒng)也很難有效的承載。故我們選用hadoop生態(tài)體系進行數(shù)據(jù)分析,該程序可以高可靠的運行在多臺電腦上。為了程序可以長期穩(wěn)定地運行,我們選擇在linux上進行數(shù)據(jù)分析,這樣的好處是系統(tǒng)穩(wěn)定性強,硬件資源可以高效利用。

5.3網(wǎng)站搭建

和大多數(shù)網(wǎng)站一樣,本網(wǎng)站采用BS(Browser/Server)架構(gòu),該架構(gòu)具備以下幾個特點:客戶端電腦負荷大大簡化、系統(tǒng)維護和升級成本低、同時也降低了用戶的總體成本。

我們運用HTML、CSS、JavaScript開發(fā)網(wǎng)站前臺頁面,用PHP開發(fā)網(wǎng)站后臺,MySQL作為后臺數(shù)據(jù)庫。網(wǎng)站運行在Linux系統(tǒng)下的Apache軟件下,網(wǎng)站的所有軟件均為免費軟件,實現(xiàn)成本較低,也符合當下流行趨勢。

第3篇

關(guān)鍵詞: 大數(shù)據(jù)分析; 選課; 模型設(shè)計; 信息融合

中圖分類號: TN911?34; TP391 文獻標識碼: A 文章編號: 1004?373X(2017)14?0030?03

Abstract: In order to improve the optimal allocation performance in students′course selection and utilization efficiency of curriculum resources, a design method of a course selection model based on large data analysis is proposed. The overall structure model of student optimal course selection model is constructed firstly. A large data analysis method is used to conduct information fusion and optimal access design of student course resource database to get comprehensive decision model of student course selection by combining adaptive equilibrium with grey correlation analysis. The program development is performed in Linux kernel. The cross compile environment for student elective system is established based on X86 architecture. A script menu is collocated in the virtual file system. HTTP server and telnet server functions are integrated in the network module to realize data sharing and remote transmission of the curriculum information. The system software development and debugging analysis results show that the course selection scheme model has good data analysis ability and strong reliability, and can realize the optimization configuration and selection of courses.

Keywords: big data analysis; course selection; model design; information fusion

S著高等教育深化改革和發(fā)展,為了更好地發(fā)揮高等院校的教學(xué)資源優(yōu)勢,結(jié)合學(xué)生的課程和專業(yè)的差異性,采用選課制進行課程搭配設(shè)計。這樣既尊重了學(xué)生的個性化學(xué)習(xí)需求,也更科學(xué)地搭配高校的教學(xué)資源。選課制,也稱課程選修制,允許學(xué)生對學(xué)校所開設(shè)的課程有一定的選擇自由,對任課教師、上課時間以及進度僅有一定組合的選課機制,采用選課制教學(xué),更有利于擴充學(xué)生的知識面,更好地整合高等教育的教學(xué)資源。然而,學(xué)生在進行選課中具有一定的盲目性和自發(fā)性,需要有效的信息系統(tǒng)進行指導(dǎo),設(shè)學(xué)生選課方案優(yōu)化信息管理系統(tǒng),在大數(shù)據(jù)信息時代,對更好地利用高校的教學(xué)資源具有積極重要的意義。

1 學(xué)生最優(yōu)選課方案設(shè)計總體構(gòu)架

為了實現(xiàn)對大數(shù)據(jù)處理環(huán)境下的學(xué)生最優(yōu)選課方案模型的優(yōu)化設(shè)計,首先分析軟件系統(tǒng)的總體結(jié)構(gòu)模型,基于大數(shù)據(jù)分析的學(xué)生最優(yōu)選課方案模型是建立在學(xué)生選課資源數(shù)據(jù)庫的信息融合和優(yōu)化訪問設(shè)計基礎(chǔ)上的,結(jié)合數(shù)據(jù)信息處理模型進行學(xué)生最優(yōu)選課方案模型設(shè)計,采用LabWindows/CVI進行大數(shù)據(jù)處理環(huán)境的選課方案分析[1?2],結(jié)合均衡博弈思想進行選課資源的優(yōu)化配置。學(xué)生最優(yōu)選課方案模型系統(tǒng)建立在嵌入式操作系統(tǒng)Linux基礎(chǔ)上,本文設(shè)計基于大數(shù)據(jù)分析的學(xué)生最優(yōu)選課方案模型主要元件包括如下幾個方面:

(1) 最優(yōu)選課方案的特征采集計算元件(CE)。選課方案中對教育資源信息的采樣頻率大于200 Hz,寄存器基器件采用IEEE?488協(xié)議進行課程信息緩存和多線程輸出,在集成控制中樞單元對課程信息進行特征提取和網(wǎng)格計算[3]。

第4篇

關(guān)鍵詞 分析化驗;業(yè)務(wù)域;POSC Epicentre邏輯模型;業(yè)務(wù)活動

中圖分類號:TP311 文獻標識碼:A 文章編號:1671-7597(2014)04-0017-02

1 業(yè)務(wù)對象分析

庫房中儲存的樣品主要是巖石樣和流體樣,根據(jù)取樣方式的不同可以把巖石樣分為巖心樣、壁心樣、巖屑樣和露頭樣,把流體樣分為常溫常壓流體樣和高溫高壓(統(tǒng)稱PVT)樣,根據(jù)流體相態(tài)又可以把流體樣分為油樣、氣樣和水樣。

分析化驗所使用的樣品是小樣,也叫做實驗用樣,是大塊巖石樣或大桶流體樣中的一部分。根據(jù)實驗的目的和要求,可以把小樣分為水平樣和垂直樣。

2 分析化驗項目分析

根據(jù)樣品的類型可以把分析化驗分為流體樣實驗、巖石樣實驗和巖石樣-流體相共存實驗3種。

2.1 流體樣實驗

流體樣實驗是對從井筒或地面上取得的流體樣進行分析的,研究井筒中流體的特性,為油氣田開發(fā)前期設(shè)計提供參考依據(jù),為生產(chǎn)井提能分配或井下作業(yè)提供基本數(shù)據(jù)支持。

根據(jù)流體取樣方式的不同,把流體樣實驗分為常溫常壓流體實驗和PVT實驗,由于流體相可以分為油相、氣相和水相,所以流體實驗又細分為常溫常壓油樣實驗、常溫常壓氣樣實驗、常溫常壓水樣實驗、原油PVT實驗、易揮發(fā)油PVT實驗和凝析氣PVT實驗。

2.2 巖石樣實驗

巖石樣實驗是對鉆井過程中取到的巖石所進行的分析或鑒定,是地層巖石特性最直接、最準確的表現(xiàn)。

根據(jù)實驗的目的不同,把巖石實驗分為常規(guī)巖心分析、特殊巖心分析、巖石地化分析等。

2.3 巖石樣-流體相共存實驗

巖石樣-流體相共存實驗是分析巖石在以不同的流體相作用下,所呈現(xiàn)出來的巖石的潤濕性和聯(lián)通性等,主要有毛管壓力實驗和相對滲透率實驗等。

根據(jù)流體相作用方式的不同可以分為壓汞法和驅(qū)替法,驅(qū)替實驗分為油驅(qū)替水、水驅(qū)替油和氣驅(qū)替水等。

3 業(yè)務(wù)分析

業(yè)務(wù)分析是數(shù)據(jù)庫設(shè)計的基石,只有業(yè)務(wù)分析好,才能設(shè)計出滿足需要的業(yè)務(wù)模型。根據(jù)工作內(nèi)容可以把業(yè)務(wù)分析分為業(yè)務(wù)調(diào)研、業(yè)務(wù)劃分、業(yè)務(wù)活動分析和數(shù)據(jù)分析。

3.1 業(yè)務(wù)調(diào)研

確定分析化驗業(yè)務(wù)域的業(yè)務(wù)調(diào)研范圍和調(diào)研內(nèi)容,形成業(yè)務(wù)調(diào)研清單,并制定業(yè)務(wù)調(diào)研模板。業(yè)務(wù)調(diào)研模板是業(yè)務(wù)調(diào)研的依據(jù),必須要包含業(yè)務(wù)名稱、業(yè)務(wù)流程和數(shù)據(jù)應(yīng)用情況等。在執(zhí)行調(diào)研時,按照業(yè)務(wù)調(diào)研模板內(nèi)容,詳細了解分析化驗業(yè)務(wù)現(xiàn)狀、數(shù)據(jù)庫現(xiàn)狀、應(yīng)用現(xiàn)狀和數(shù)據(jù)管理機制等,并收集相關(guān)資料(報表、數(shù)據(jù)、業(yè)務(wù)規(guī)范等)。

3.2 業(yè)務(wù)劃分

根據(jù)業(yè)務(wù)調(diào)研情況對分析化驗業(yè)務(wù)域進行業(yè)務(wù)劃分,劃分為一級業(yè)務(wù)和業(yè)務(wù)活動,一級業(yè)務(wù)主要有常規(guī)巖心分析、特殊巖心分析、巖石地化分析、油氣地化分析、巖礦分析、同位素分析、巖石力學(xué)分析、古生物分析、油氣水分析和流體PVT分析等。

業(yè)務(wù)活動是對一級業(yè)務(wù)進行細分,直至劃分到不能再分為止。如一級業(yè)務(wù)常規(guī)巖心分析包含有巖石物性分析、巖心伽瑪測定和巖心CT掃描等。

3.3 業(yè)務(wù)活動分析

根據(jù)業(yè)務(wù)劃分得到一個個業(yè)務(wù)活動,每一個業(yè)務(wù)活動都有自己的業(yè)務(wù)含義和業(yè)務(wù)范圍。業(yè)務(wù)活動分析就是要詳細分析每一個業(yè)務(wù)活動流程,如業(yè)務(wù)活動的時間、地點、參與人員、業(yè)務(wù)規(guī)則、輸入數(shù)據(jù)、輸出數(shù)據(jù)、相關(guān)的標準規(guī)范等。如巖石物性分析是實驗員(who)收到分析化驗任務(wù)后(when),在實驗室(where)根據(jù)樣品基本信息和檢測任務(wù)單的要求對巖心樣品(which)進行巖石孔隙度、滲透率、含油飽和度、密度、碳酸鹽巖含量的分析化驗,形成巖石物性分析成果數(shù)據(jù)表和業(yè)務(wù)分析報告(what),為表征巖石孔隙的發(fā)育程度、儲集流體的通過能力和巖石滲流特征提供重要參數(shù),為儲量計算、采收率確定等提供參數(shù)依據(jù)(why)。

3.4 數(shù)據(jù)分析

數(shù)據(jù)分析是對業(yè)務(wù)活動數(shù)據(jù)集和現(xiàn)有專業(yè)數(shù)據(jù)庫物理表進行詳細分析,業(yè)務(wù)活動數(shù)據(jù)集分析是對業(yè)務(wù)活動的輸入數(shù)據(jù)和輸出數(shù)據(jù)進行分析,規(guī)范業(yè)務(wù)活動輸入數(shù)據(jù)集和輸出數(shù)據(jù)集,形成業(yè)務(wù)活動數(shù)據(jù)集;現(xiàn)有專業(yè)數(shù)據(jù)庫物理表分析是對現(xiàn)有在用專業(yè)數(shù)據(jù)庫物理數(shù)據(jù)表進行分析,分析出專業(yè)數(shù)據(jù)庫物理數(shù)據(jù)表的實際業(yè)務(wù)含義,具體是哪個業(yè)務(wù)活動產(chǎn)生的,對應(yīng)于業(yè)務(wù)活動的哪個數(shù)據(jù)集,形成專業(yè)數(shù)據(jù)庫物理數(shù)據(jù)表對業(yè)務(wù)活動數(shù)據(jù)集的映射關(guān)系。

數(shù)據(jù)分析表如下:

業(yè)務(wù)活動 輸入數(shù)據(jù) 輸出數(shù)據(jù) 業(yè)務(wù)活動數(shù)據(jù)集 專業(yè)數(shù)據(jù)庫

巖石物性分析 檢測任務(wù)單 巖石物性

分析報告 巖石物性分析報告 文檔數(shù)據(jù)庫

實驗樣品信息 巖石物性分析

成果數(shù)據(jù) 分析化驗數(shù)據(jù)庫

4 數(shù)據(jù)模型設(shè)計

數(shù)據(jù)模型設(shè)計是實現(xiàn)業(yè)務(wù)分析到物理模型設(shè)計的所有過程,主要分為業(yè)務(wù)模型設(shè)計、采集模型設(shè)計、邏輯模型設(shè)計和物理模型設(shè)計。

4.1 業(yè)務(wù)模型設(shè)計

根據(jù)業(yè)務(wù)調(diào)研和分析成果,對業(yè)務(wù)模型進行標準化梳理,對數(shù)據(jù)流進行詳細分析,完成從業(yè)務(wù)分析到業(yè)務(wù)模型的轉(zhuǎn)換,形成業(yè)務(wù)模型。

4.2 采集模型設(shè)計

制定業(yè)務(wù)模型中數(shù)據(jù)集合并原則,根據(jù)這些原則分析業(yè)務(wù)模型中需要合并的數(shù)據(jù)集,通過專業(yè)工具完成業(yè)務(wù)模型數(shù)據(jù)集的合并工作,實現(xiàn)從業(yè)務(wù)模型到采集模型的轉(zhuǎn)換。業(yè)務(wù)模型數(shù)據(jù)集合并原則:首先是業(yè)務(wù)活動場景相同;其次是業(yè)務(wù)活動產(chǎn)生的數(shù)據(jù)項相似。

4.3 邏輯模型設(shè)計

通過對POSC Epicentre邏輯模型和PPDM模型的研究,結(jié)合石油企業(yè)業(yè)務(wù)實際,采用面向?qū)ο蟮脑O(shè)計方法設(shè)計分析化驗邏輯模型。邏輯模型主要分為對象模型、活動模型和屬性模型。對象模型是對分析化驗業(yè)務(wù)域中所涉及到的業(yè)務(wù)進行抽象,提取出一個個業(yè)務(wù)對象,用前綴OOE_表示,如巖心的對象模型是OOE_Core等;活動模型是對分析化驗業(yè)務(wù)域中所有業(yè)務(wù)場景進行抽象,形成業(yè)務(wù)活動編目,存儲在OOE_Activity實體里,具體的業(yè)務(wù)分析活動只是業(yè)務(wù)活動編目的具體實例。如巖石物性分析是業(yè)務(wù)活動,***井巖心常規(guī)分析報告是業(yè)務(wù)活動實例;屬性模型是業(yè)務(wù)活動數(shù)據(jù)集中的相同數(shù)據(jù)項的抽象,提取出一個個屬性對象,使用前綴OOP_表示,如孔隙度的屬性模型是OOP_Porosity。

4.4 物理模型設(shè)計

設(shè)計從邏輯模型到物理模型的投影規(guī)則,依據(jù)投影規(guī)則實現(xiàn)邏輯模型到物理模型的轉(zhuǎn)換,投影出不同版本的數(shù)據(jù)庫,以支持不同的數(shù)據(jù)存儲和管理需求。常用的投影規(guī)則有直接投影、復(fù)制投影和合并投影,不同的實體具有不同的投影規(guī)則。在投影時,為了保證物理模型的最優(yōu)化設(shè)計和數(shù)據(jù)存儲的最少冗余,要求分析所有實體對應(yīng)的最優(yōu)投影規(guī)則,根據(jù)最優(yōu)投影規(guī)則一次投影出物理模型。

5 總結(jié)

分析化驗對象數(shù)據(jù)庫的設(shè)計是依據(jù)國際先進的POSC Epicentre模型,根據(jù)對象設(shè)計方法設(shè)計的,具有對象的特征,能很好的滿足業(yè)務(wù)人員的使用習(xí)慣,為今后的勘探開發(fā)設(shè)計提供強有力的支持。

第5篇

〔關(guān)鍵詞〕圖書館;決策分析;大數(shù)據(jù)清洗;系統(tǒng)設(shè)計

DOI:10.3969/j.issn.1008-0821.2016.09.018

〔中圖分類號〕G25076〔文獻標識碼〕A〔文章編號〕1008-0821(2016)09-0107-05

〔Abstract〕The librarys era of big data is coming,data quality issues will result very important influence on big data applications of libraries,big data cleaning is one of the important methods to improve libraries data quality.This paper introduced the types of dirty data and reasons in libraries,and designed of big data cleaning system for library based on big data decision analysis needs,the system not only improved the efficiency and accuracy of big data cleaning,but also greatly reduced the complexity of big data decision analysis for library.

〔Key words〕library;decision analysis;big data cleaning;system design

當前,圖書館已進入大數(shù)據(jù)時代。隨著移動互聯(lián)網(wǎng)、云計算和物聯(lián)網(wǎng)技術(shù)在圖書館中的廣泛應(yīng)用,圖書館可通過監(jiān)控和采集服務(wù)器運行數(shù)據(jù)、讀者個體特征、閱讀行為數(shù)據(jù)、閱讀關(guān)系數(shù)據(jù)、閱讀終端數(shù)據(jù)等,實現(xiàn)了對圖書館服務(wù)模式和讀者閱讀需求的全面感知與預(yù)測,大幅度提升了圖書館的服務(wù)能力和讀者閱讀滿意度。但是,隨著圖書館服務(wù)復(fù)雜度和服務(wù)模式多樣化的發(fā)展,其大數(shù)據(jù)環(huán)境呈現(xiàn)出“4V+1C”的特點(分別是數(shù)據(jù)體量巨大(Volume)、數(shù)據(jù)類型繁多(Variety)、價值密度低(Value)、處理速度快(Velocity)和具有較強的復(fù)雜性(Complexity)),圖書館采集與存儲的原始大數(shù)據(jù)中混雜著許多不完整、錯誤和重復(fù)的“不清潔”數(shù)據(jù),導(dǎo)致圖書館大數(shù)據(jù)存在著不一致、不完整性、低價值密度、不可控和不可用的特性[1]。圖書館如果一味強調(diào)提升IT基礎(chǔ)設(shè)施的大數(shù)據(jù)處理性能、數(shù)據(jù)分析方法的科學(xué)性、數(shù)據(jù)分析師的大數(shù)據(jù)素養(yǎng),而不通過大數(shù)據(jù)清洗有效提升數(shù)據(jù)的質(zhì)量和可用性,將會導(dǎo)致圖書館大數(shù)據(jù)應(yīng)用的收益率和數(shù)據(jù)決策科學(xué)性下降。

據(jù)美國普化永道會計事務(wù)所(Price Waterhouse Coopers Consulting,PWC)的研究表明,75%的被調(diào)查公司存在著因不清潔數(shù)據(jù)問題而導(dǎo)致經(jīng)濟損失的現(xiàn)象,只有35%的被調(diào)查公司對自己的數(shù)據(jù)質(zhì)量充滿信心;在很多涉及數(shù)據(jù)倉庫的項目中,數(shù)據(jù)清洗在開發(fā)時間和整體預(yù)算方面所占的比例大概在30%~80%,而將不同數(shù)據(jù)源的數(shù)據(jù)進行抽取和整合時,可能會產(chǎn)生一些新的不清潔數(shù)據(jù)[2]。因此,如何制定和執(zhí)行安全、高效的數(shù)據(jù)清洗策略,實現(xiàn)對圖書館大數(shù)據(jù)資源的檢測、校驗、修正、整合與分解,及時發(fā)現(xiàn)并糾正大數(shù)據(jù)中存在的錯誤、缺失、異常和可疑數(shù)據(jù),確保圖書館大數(shù)據(jù)資源結(jié)構(gòu)完整、正確和無重復(fù),是關(guān)系圖書館大數(shù)據(jù)應(yīng)用與決策安全、科學(xué)、高效、經(jīng)濟和可控的重要問題。

1圖書館大數(shù)據(jù)清洗的需求與挑戰(zhàn)

11大數(shù)據(jù)環(huán)境下數(shù)據(jù)清洗的需求發(fā)生變化

大數(shù)據(jù)時代,圖書館數(shù)據(jù)的結(jié)構(gòu)、類型、規(guī)模和復(fù)雜度發(fā)生了巨大變化,其大數(shù)據(jù)內(nèi)容主要由IT服務(wù)系統(tǒng)運營日志與參數(shù)數(shù)據(jù)、用戶服務(wù)數(shù)據(jù)、讀者個體特征數(shù)據(jù)、讀者行為監(jiān)測與社會關(guān)系數(shù)據(jù)、閱讀終端運行數(shù)據(jù)、視頻監(jiān)測數(shù)據(jù)和傳感器網(wǎng)絡(luò)數(shù)據(jù)等組成,這些數(shù)據(jù)具有海量、多類型、高價值和處理速度快的大數(shù)據(jù)“4V”特點,因此,與“小數(shù)據(jù)”時代圖書館的數(shù)據(jù)清洗需求有本質(zhì)區(qū)別。

大數(shù)據(jù)時代,非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)占據(jù)圖書館大數(shù)據(jù)總量的85%以上,圖書館數(shù)據(jù)清洗的重點已從“小數(shù)據(jù)”時代的標準化文本、數(shù)字、符號等結(jié)構(gòu)化數(shù)據(jù)為主,轉(zhuǎn)變?yōu)橐匀奈谋?、圖像、聲音、影視、超媒體等非結(jié)構(gòu)化復(fù)雜數(shù)據(jù)為核心[3]。其次,“小數(shù)據(jù)”時代圖書館數(shù)據(jù)清洗的主要對象是實例層的數(shù)據(jù),依據(jù)函數(shù)依賴等完整性約束條件對數(shù)據(jù)記錄進行處理,而“大數(shù)據(jù)”時代則重點關(guān)注處理模式中數(shù)據(jù)屬性之間的語義關(guān)系。第三,圖書館數(shù)據(jù)清洗工具的效率、互操作性和可擴展性,以及數(shù)據(jù)清洗工具描述性語言能否滿足數(shù)據(jù)清理中關(guān)鍵詞大致匹配的需要,是關(guān)系圖書館大數(shù)據(jù)清洗科學(xué)、高效、精確和經(jīng)濟的關(guān)鍵。

12圖書館大數(shù)據(jù)采集方式多樣性易導(dǎo)致數(shù)據(jù)結(jié)構(gòu)不完整當前,為了提升讀者服務(wù)的科學(xué)性、實時性、可預(yù)測性和個性化水平,圖書館大數(shù)據(jù)應(yīng)用采取了全面采集、實時分析、動態(tài)決策和評估反饋的原則,有效提升了圖書館大數(shù)據(jù)資源的價值密度、分析科學(xué)性和服務(wù)可靠性。圖書館大數(shù)據(jù)來源主要包括Web服務(wù)器日志數(shù)據(jù)、視頻監(jiān)控數(shù)據(jù)、用戶管理系統(tǒng)數(shù)據(jù)、傳感器網(wǎng)絡(luò)數(shù)據(jù)和讀者滿意度反饋數(shù)據(jù)等,這些數(shù)據(jù)的數(shù)據(jù)采集來源、采集方式和數(shù)據(jù)模式標準不同,導(dǎo)致所采集的元數(shù)據(jù)存在著字段缺失、字段名和數(shù)據(jù)結(jié)構(gòu)前后不一致、數(shù)據(jù)被異常破壞等現(xiàn)象,嚴重影響了圖書館大數(shù)據(jù)結(jié)構(gòu)的完整性。其次,這些不完整大數(shù)據(jù)如涉及讀者的個體ID標示、數(shù)據(jù)價值關(guān)鍵字段、信息集成模式的匹配,則會導(dǎo)致數(shù)據(jù)資源不可用或者大數(shù)據(jù)決策錯誤。因此,如何科學(xué)、高效和準確地發(fā)現(xiàn)圖書館大數(shù)據(jù)中的缺失字段,并在規(guī)定的時間內(nèi)對缺失字段進行修復(fù),是圖書館確保大數(shù)據(jù)結(jié)構(gòu)完整的重要措施[4]。第三,圖書館對大數(shù)據(jù)資源庫查詢請求的科學(xué)、完整和可控性,是關(guān)系數(shù)據(jù)查詢結(jié)果清潔性的關(guān)鍵。因此,如何完善、修補不同來源和不同類型的缺失數(shù)據(jù)字段,并有效挖掘其中蘊含的知識,是關(guān)系圖書館從不完整大數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)價值信息和保障知識服務(wù)效率的重要問題。

13海量、重復(fù)的大數(shù)據(jù)嚴重降低了數(shù)據(jù)決策效率

為了提升大數(shù)據(jù)的價值總量,圖書館會利用多數(shù)據(jù)采集源多方位、多角度和不間斷地進行相關(guān)大數(shù)據(jù)的采集。讀者個體特征和行為數(shù)據(jù),是圖書館進行讀者閱讀需求預(yù)測、服務(wù)模式制定、服務(wù)滿意度評估和服務(wù)過程優(yōu)化的關(guān)鍵數(shù)據(jù),為了保證相關(guān)大數(shù)據(jù)采集的全面性、完整性、可用性和可靠性,圖書館會通過視頻監(jiān)控設(shè)備、服務(wù)器日志、傳感器網(wǎng)絡(luò)、移動基站監(jiān)測設(shè)備、閱讀終端監(jiān)測設(shè)備等,盡可能全面地采集讀者相關(guān)大數(shù)據(jù),并描繪一幅完整、精確的讀者閱讀行為自畫像。多個不同類型終端設(shè)備全方位、不間斷地采集同一讀者的個體大數(shù)據(jù),會導(dǎo)致讀者個體大數(shù)據(jù)采集過程低效率、重復(fù)和識別精度低,這大幅度增加了圖書館大數(shù)據(jù)處理、分析和決策的復(fù)雜度與系統(tǒng)資源損耗。因此,如何刪除圖書館采集的海量、重復(fù)大數(shù)據(jù),是關(guān)系圖書館大數(shù)據(jù)決策可用性和經(jīng)濟性的關(guān)鍵。

其次,隨著圖書館服務(wù)智能化和個性化水平的提升,機器人等人工智能技術(shù)已廣泛運用到圖書館的管理與讀者服務(wù)中去。機器人通過深度學(xué)習(xí)技術(shù),可為讀者提供諸如閱讀導(dǎo)航、服務(wù)推薦、問題解答、微博更新和聊天等服務(wù),實現(xiàn)了機器人與讀者的實時互動與交流。但是,這些機器人產(chǎn)生的數(shù)據(jù)除具有動態(tài)生成、海量、多類型和低相關(guān)性的特點外,還存在著數(shù)據(jù)重復(fù)采集、標示多樣和部分錯誤的現(xiàn)象,因此,如何有效區(qū)分、清洗機器人產(chǎn)生的大數(shù)據(jù),將對圖書館在服務(wù)中實施讀者閱讀行為跟蹤、讀者閱讀需求分析、用戶精確畫像和科學(xué)服務(wù)決策產(chǎn)生極大影響[5]。

14圖書館對錯誤大數(shù)據(jù)的識別與修正需求

圖書館大數(shù)據(jù)主要由數(shù)據(jù)中心IT服務(wù)系統(tǒng)配置參數(shù)與運營數(shù)據(jù)、用戶與服務(wù)管理數(shù)據(jù)、讀者個體行為與閱讀數(shù)據(jù)、傳感器網(wǎng)絡(luò)數(shù)據(jù)、服務(wù)資源數(shù)據(jù)、讀者閱讀反饋與滿意度評估數(shù)據(jù)等組成,這些數(shù)據(jù)的產(chǎn)生具有多數(shù)據(jù)來源、多采集模式、編碼與存儲復(fù)雜、數(shù)據(jù)清洗難度大的特點,大幅增加了圖書館對錯誤大數(shù)據(jù)識別與修正的難度。

隨著圖書館組織結(jié)構(gòu)和內(nèi)部業(yè)務(wù)關(guān)系復(fù)雜度的增長,圖書館員在向業(yè)務(wù)系統(tǒng)錄入元數(shù)據(jù)時,可能存在著濫用縮寫詞與慣用語、數(shù)據(jù)錄入錯誤、數(shù)據(jù)中內(nèi)嵌信息錯誤、重復(fù)記錄、丟失數(shù)據(jù)字段、拼寫錯誤、計量單位錯誤和過時的數(shù)字編碼等問題。同時,圖書館當前業(yè)務(wù)管理系統(tǒng)數(shù)據(jù)糾錯的智能水平較低,不能完全識別與糾錯數(shù)據(jù)錄入中存在的數(shù)據(jù)錯輸成全角數(shù)字字符、字符串數(shù)據(jù)后面存在空格符、日期格式錯誤與日期越界等。其次,OCR(光學(xué)字符識別)軟件在對印刷體文字轉(zhuǎn)換成為黑白點陣的圖像文件,以及通過識別軟件將圖像中的文字轉(zhuǎn)換成文本格式時,OCR軟件的拒識率、誤識率、識別速度、用戶界面友好性、產(chǎn)品穩(wěn)定性和易用性等,也是關(guān)系圖書館數(shù)字化文獻資源加工正確率的重要因素。第三,近年來,射頻識別(RFID)技術(shù)因其快速掃描、體積小、可重復(fù)使用、無線穿透性和無屏障閱讀等優(yōu)勢,已廣泛應(yīng)用到智慧圖書館的構(gòu)建和讀者智慧服務(wù)中,有效實現(xiàn)了圖書館無線門禁的進出管理、人員精確定位、區(qū)域定位管理、安全防衛(wèi)和圖書智能化存取等功能。由于RFID硬件設(shè)備易受數(shù)據(jù)傳輸距離、環(huán)境噪聲、地理環(huán)境、無線干擾等影響,導(dǎo)致RFID閱讀器存在著漏讀、多讀和不清潔讀等現(xiàn)象,如何識別與糾正RFID閱讀器在大數(shù)據(jù)采集過程中丟失、重復(fù)、模糊和錯誤的數(shù)據(jù),已成為關(guān)系RFID應(yīng)用有效的關(guān)鍵[6]。

15圖書館大數(shù)據(jù)清洗需制定科學(xué)的行業(yè)規(guī)范和標準圖書館大數(shù)據(jù)具有海量、多類型、高價值和處理快速的4“V”特征,據(jù)統(tǒng)計,其結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)占據(jù)大數(shù)據(jù)總量的85%以上,且隨著圖書館服務(wù)模式多樣化和數(shù)據(jù)環(huán)境復(fù)雜度的不斷增長,其非結(jié)構(gòu)化數(shù)據(jù)占據(jù)大數(shù)據(jù)的總比例將快速上升,因此,大數(shù)據(jù)海量、多類型和結(jié)構(gòu)復(fù)雜的特點給圖書館的數(shù)據(jù)管理帶來了很大困難。

不同類型的圖書館在大數(shù)據(jù)采集源的結(jié)構(gòu)和數(shù)據(jù)庫類型上差別巨大,導(dǎo)致不同圖書館在大數(shù)據(jù)的采集方式、組織結(jié)構(gòu)、存取方法和數(shù)據(jù)庫構(gòu)建類型上有較大區(qū)別,即使是同一種數(shù)據(jù)的存儲也存在著多種不同標準和數(shù)據(jù)庫關(guān)系結(jié)構(gòu)。因此,制定統(tǒng)一的數(shù)據(jù)庫建設(shè)和數(shù)據(jù)管理、存取標準,提升數(shù)據(jù)清洗工具與數(shù)據(jù)庫系統(tǒng)在數(shù)據(jù)端口、清洗規(guī)則和配置參數(shù)上的兼容性,是關(guān)系圖書館大數(shù)據(jù)高效清洗和多用戶共享的前提。

在實際的工程操作中,數(shù)據(jù)清洗通常會占據(jù)數(shù)據(jù)分析全過程50%~80%的時間,因此,依據(jù)國家標準構(gòu)建圖書館界的數(shù)據(jù)行業(yè)規(guī)范,是關(guān)系圖書館大數(shù)據(jù)開放性和降低大數(shù)據(jù)決策成本的重要問題。圖書館內(nèi)部不同部門之間也存在著大數(shù)據(jù)重復(fù)采集和數(shù)據(jù)標準、類型不統(tǒng)一的問題,我國圖書館界與其它行業(yè)或第三方運營商,在數(shù)據(jù)庫建設(shè)規(guī)范、數(shù)據(jù)傳輸接口、相關(guān)應(yīng)用程序上也存在較大差異,給大數(shù)據(jù)的清洗、共享和分析帶來了額外的負擔[7]。此外,圖書館對所屬大數(shù)據(jù)的安全性管理、讀者隱私大數(shù)據(jù)保護、大數(shù)據(jù)價值和可用性保證等,也大幅增加了圖書館大數(shù)據(jù)清洗過程的復(fù)雜度和成本投入。

2圖書館大數(shù)據(jù)清洗平臺的構(gòu)建與大數(shù)據(jù)清洗關(guān)鍵問題21圖書館大數(shù)據(jù)清洗平臺的構(gòu)建

圖書館數(shù)據(jù)除具備大數(shù)據(jù)的4“V”特性外,還存在著諸如不清潔數(shù)據(jù)來源多元化、隨機產(chǎn)生、隱匿性強和噪聲過濾難度大的特點。因此,在圖書館大數(shù)據(jù)清洗系統(tǒng)的設(shè)計中,作者依據(jù)圖書館業(yè)務(wù)導(dǎo)向和大數(shù)據(jù)的信息流程,重點突出了大數(shù)據(jù)源分類存儲、不清潔數(shù)據(jù)識別與發(fā)現(xiàn)、不清潔數(shù)據(jù)清洗和數(shù)據(jù)清洗流程控制等4個系統(tǒng)功能與流程的設(shè)計,實現(xiàn)了從數(shù)據(jù)產(chǎn)生與存儲、不清潔數(shù)據(jù)發(fā)現(xiàn)與清洗、清洗有效性評估、評估結(jié)果對清洗流程的反饋控制等4個過程的大數(shù)據(jù)生命周期質(zhì)量管理[8]。所設(shè)計的圖書館大數(shù)據(jù)清洗系統(tǒng)功能結(jié)構(gòu)如圖1所示:圖1圖書館大數(shù)據(jù)清洗系統(tǒng)功能結(jié)構(gòu)圖

為了保證圖書館大數(shù)據(jù)存儲系統(tǒng)安全、高效、經(jīng)濟和可控,系統(tǒng)底層的大數(shù)據(jù)存儲庫依據(jù)大數(shù)據(jù)的來源、類型、應(yīng)用對象和不清潔數(shù)據(jù)特點,劃分為客戶管理元數(shù)據(jù)庫、系統(tǒng)配置與運行數(shù)據(jù)庫、讀者服務(wù)數(shù)據(jù)庫和主數(shù)據(jù)庫等,這些數(shù)據(jù)庫的不清潔數(shù)據(jù)主要存在結(jié)構(gòu)不完整、數(shù)據(jù)重復(fù)、錯誤和不一致的問題。

不清潔數(shù)據(jù)發(fā)現(xiàn)系統(tǒng)平臺主要由大數(shù)據(jù)的獲取、數(shù)據(jù)完整性檢測、數(shù)據(jù)重復(fù)性檢測和錯誤數(shù)據(jù)檢測4個功能模塊組成,通過對大數(shù)據(jù)變量的取值范圍、相關(guān)性、無效性、缺失值和重復(fù)值的判定,將從大數(shù)據(jù)源中發(fā)現(xiàn)、提取出的不清潔數(shù)據(jù)傳輸至不清潔數(shù)據(jù)清洗模塊。

不清潔數(shù)據(jù)清洗系統(tǒng)平臺是大數(shù)據(jù)清洗系統(tǒng)的核心,數(shù)據(jù)管理員在對不清潔數(shù)據(jù)產(chǎn)生的原因、存在形式和數(shù)據(jù)結(jié)構(gòu)復(fù)雜度進行分析后,制定出科學(xué)的不清潔數(shù)據(jù)定義、評估、清洗和規(guī)則反饋優(yōu)化程序,依據(jù)數(shù)據(jù)清洗的實時性需求,控制系統(tǒng)實現(xiàn)不清潔數(shù)據(jù)的離線清洗和在線清洗,并對清洗后數(shù)據(jù)的完整性、有效性、一致性、準確性和相關(guān)性等進行判定,如果清洗結(jié)果不達標則進行不清潔數(shù)據(jù)的二次清洗[9]。

不清潔數(shù)據(jù)清洗管理平臺由圖書館元數(shù)據(jù)管理、大數(shù)據(jù)清洗模型管理、數(shù)據(jù)清洗安全性管理和質(zhì)量管理4個模塊組成,負責(zé)元數(shù)據(jù)存取、大數(shù)據(jù)清洗流程控制、數(shù)據(jù)清洗過程的數(shù)據(jù)安全性和不清潔數(shù)據(jù)清洗質(zhì)量的管理,可有效保證不清潔數(shù)據(jù)清洗過程安全、高效、經(jīng)濟、高價值和可用。

22關(guān)系圖書館大數(shù)據(jù)清洗質(zhì)量和數(shù)據(jù)可用性的關(guān)鍵問題221有針對性地選取圖書館大數(shù)據(jù)的清洗對象

大數(shù)據(jù)是圖書館IT系統(tǒng)構(gòu)建、讀者管理和服務(wù)模式變革的直接決策依據(jù),大數(shù)據(jù)的價值總量、密度和清潔度等,直接關(guān)系圖書館大數(shù)據(jù)決策的科學(xué)性、效率、經(jīng)濟性和可用性。圖書館大數(shù)據(jù)具有海量和總量級數(shù)遞增的特點,但是,不同類型的大數(shù)據(jù)在數(shù)據(jù)價值總量、價值密度、分析可用性和與決策對象的相關(guān)性上差異較大,導(dǎo)致不同大數(shù)據(jù)在圖書館決策的科學(xué)性、精確度、可靠性和經(jīng)濟性上的影響度不同。因此,圖書館應(yīng)根據(jù)大數(shù)據(jù)決策的對象、內(nèi)容、精確度和經(jīng)濟性需求,有選擇地開展大數(shù)據(jù)的清洗活動。

個性化智慧服務(wù)是未來圖書館讀者服務(wù)的重要目標,而精確地判定讀者需求、圖書館未來服務(wù)資源總量和讀者閱讀情景,則是確保圖書館讀者個性化智慧服務(wù)內(nèi)容實時、精準投放的前提。因此,圖書館對大數(shù)據(jù)清洗對象的選擇上,在保證大數(shù)據(jù)獲取難度可控、數(shù)據(jù)覆蓋率廣泛和具備一定的數(shù)據(jù)規(guī)模前提下,應(yīng)選取與讀者個性化智慧服務(wù)決策相關(guān)性較大的數(shù)據(jù),并重點清洗與讀者個性化智慧服務(wù)決策相關(guān)性較大的諸如讀者個體特征、閱讀歷史行為、閱讀實時興趣、個體移動路徑、閱讀終端模式、讀者服務(wù)評價與滿意度反饋、系統(tǒng)未來服務(wù)資源總量與服務(wù)負載等數(shù)據(jù),才能在較小大數(shù)據(jù)清洗成本投入和降低清洗復(fù)雜度的前提下,大幅度提升圖書館大數(shù)據(jù)的價值密度與數(shù)據(jù)可用性。

222依據(jù)大數(shù)據(jù)決策實時性需求制定數(shù)據(jù)清洗策略

圖書館大數(shù)據(jù)決策可劃分為實時決策和離線決策兩部分。實時決策主要應(yīng)用于圖書館安全與服務(wù)即時管理、讀者在線服務(wù)需求實時判定、實時服務(wù)策略制定與服務(wù)推送、服務(wù)系統(tǒng)的實時評估與優(yōu)化等方面,要求大數(shù)據(jù)應(yīng)用平臺在較短的時間內(nèi)獲取、清洗和分析實時數(shù)據(jù),為大數(shù)據(jù)實時、動態(tài)決策提供科學(xué)數(shù)據(jù)支持。實時決策對大數(shù)據(jù)獲取、傳輸、清洗、分析和決策過程的時效性要求較高,數(shù)據(jù)總量偏小、低清潔度和價值有限的實時大數(shù)據(jù)可能會影響圖書館實時決策的科學(xué)性和可用性。離線決策主要應(yīng)用于圖書館的宏觀戰(zhàn)略方案制定、用戶服務(wù)模式變革、服務(wù)有效性評估和服務(wù)市場競爭環(huán)境分析等方面,這些離線決策雖然因為海量大數(shù)據(jù)的復(fù)雜分析而降低了決策的時效性,但決策結(jié)果具有較高的科學(xué)性、準確度和可靠性。因此,圖書館必須依據(jù)大數(shù)據(jù)決策實時性需求制定相關(guān)的大數(shù)據(jù)清洗策略。

大數(shù)據(jù)清洗策略的制定應(yīng)以圖書館服務(wù)效率的提升和讀者閱讀滿意度為依據(jù),結(jié)合圖書館數(shù)據(jù)中心大數(shù)據(jù)應(yīng)用系統(tǒng)的資源總量和大數(shù)據(jù)清洗的負載量,依據(jù)決策內(nèi)容實現(xiàn)大數(shù)據(jù)清洗實時性、算法復(fù)雜度、精確度和可靠性的完美結(jié)合。大數(shù)據(jù)在線清洗對實時性的要求較強,因此,圖書館應(yīng)完全記錄用戶服務(wù)流程線上的實際數(shù)據(jù),依據(jù)決策對象的重要性、實時性、相關(guān)性和服務(wù)收益需求,對需要清洗的數(shù)據(jù)進行優(yōu)先級別劃分和系統(tǒng)資源分配,確保在線清洗結(jié)果的時效性、準確性、可用性和可靠性綜合評估最優(yōu)。在離線大數(shù)據(jù)清洗策略的制定中,圖書館對數(shù)據(jù)清洗優(yōu)先級別的劃分,重點應(yīng)放在決策對象的重要性、服務(wù)的收益率、系統(tǒng)資源的損耗和實時性需求上,科學(xué)分配二級子指標的權(quán)重比例,并依據(jù)讀者需求和圖書館服務(wù)模式變革進行動態(tài)反饋調(diào)控,不斷提升宏觀決策的科學(xué)性和可行性。

223圖書館大數(shù)據(jù)清洗質(zhì)量評估標準的幾個重要維度

圖書館對不清潔數(shù)據(jù)清洗質(zhì)量評估的科學(xué)性,既是關(guān)系圖書館數(shù)據(jù)價值保證和大數(shù)據(jù)決策可用性的關(guān)鍵,也是圖書館對數(shù)據(jù)清洗系統(tǒng)進行反饋控制、優(yōu)化和完善的重要依據(jù),因此,必須選擇科學(xué)、全面、完整和可操作的大數(shù)據(jù)清洗質(zhì)量評估維度,才能確保大數(shù)據(jù)清洗過程高效、優(yōu)質(zhì)、快捷、經(jīng)濟和可控。

圖書館大數(shù)據(jù)清洗質(zhì)量評估體系的構(gòu)建應(yīng)堅持評估指標覆蓋面廣泛、指標因子權(quán)重分配合理、評估系統(tǒng)開放和易于操作的原則,所設(shè)計的圖書館大數(shù)據(jù)清洗質(zhì)量評估維度如表1所示:表1圖書館大數(shù)據(jù)清洗質(zhì)量評估維度表

編號維度內(nèi)容大數(shù)據(jù)清洗評估維度的描述1規(guī)范性數(shù)據(jù)的存在性、質(zhì)量及存儲標準2完整性與準確性數(shù)據(jù)結(jié)構(gòu)完整度、準確性和可用性3重復(fù)性數(shù)據(jù)在字段、記錄內(nèi)容或數(shù)據(jù)集外重復(fù)4一致性和同步性在不同數(shù)據(jù)庫、應(yīng)用和系統(tǒng)中的一致和同步5及時性和可用性非實時數(shù)據(jù)的清洗和價值可用性測量6可識別和相關(guān)性數(shù)據(jù)可理解、價值可測量和可相融程度7易用性和可維護性數(shù)據(jù)可訪問、使用、更新、維護和管理的程度8數(shù)據(jù)價值覆蓋度數(shù)據(jù)在決策中的價值、對象和內(nèi)容覆蓋程度

此外,對圖書館大數(shù)據(jù)清洗質(zhì)量的評估,應(yīng)根據(jù)大數(shù)據(jù)決策過程對數(shù)據(jù)清潔度、價值密度和可用性的需求,動態(tài)調(diào)整大數(shù)據(jù)清洗質(zhì)量評估維度表中各指標的權(quán)重因子,增強大數(shù)據(jù)評估結(jié)果對大數(shù)據(jù)清洗系統(tǒng)的反饋控制與優(yōu)化功能,才能確保大數(shù)據(jù)清洗過程安全、高效、經(jīng)濟和可控。

224圖書館大數(shù)據(jù)清洗流程的設(shè)計

大數(shù)據(jù)清洗流程的科學(xué)性、數(shù)據(jù)流可控性和評估標準有效性,是關(guān)系圖書館大數(shù)據(jù)清洗流程安全、高效、快速和經(jīng)濟的重要問題。因此,本文在圖書館大數(shù)據(jù)清洗流程的設(shè)計中,堅持在保持大數(shù)據(jù)價值總量不變的前提下,以提升大數(shù)據(jù)的價值密度、可用性、決策實時性和降低大數(shù)據(jù)應(yīng)用成本為根本目標,有效保證了大數(shù)據(jù)決策的科學(xué)性、可靠性、實時性和經(jīng)濟性。圖書館大數(shù)據(jù)清洗流程如圖2所示:

圖書館大數(shù)據(jù)清洗系統(tǒng)首先對所接收的大數(shù)據(jù)進行預(yù)處理,并將擬清洗的大數(shù)據(jù)導(dǎo)入數(shù)據(jù)清洗系統(tǒng),檢查元數(shù)據(jù)諸如字段解釋、數(shù)據(jù)來源、代碼表等內(nèi)容描述是否正確,初步統(tǒng)計擬清洗數(shù)據(jù)的類型、結(jié)構(gòu)、實時性需求和存在模式問題[10]。其次,在大數(shù)據(jù)的清洗中,應(yīng)根據(jù)大數(shù)據(jù)清洗的復(fù)雜度、大數(shù)據(jù)總量多少和流程相關(guān)性,按照去除和修補缺失大數(shù)據(jù)、去除重復(fù)和邏輯錯誤大數(shù)據(jù)、異常大數(shù)據(jù)的檢測與處理、非需求大數(shù)據(jù)清洗、大數(shù)據(jù)的關(guān)聯(lián)性驗證等步驟進行,最后對已清洗大數(shù)據(jù)的質(zhì)量和可用性進行評估,并將不符合大數(shù)據(jù)決策需求的不清潔數(shù)據(jù)傳輸至數(shù)據(jù)清洗輸入接口進行二次清洗。

3結(jié)語

圖書館大數(shù)據(jù)具有多數(shù)據(jù)來源、多維度、多采集方法和多存儲模式的特點,導(dǎo)致大數(shù)據(jù)中不可避免地存在著錯誤、粗糙和不合時宜的非清潔數(shù)據(jù)。這些非清潔數(shù)據(jù)的存在,增加了圖書館大數(shù)據(jù)應(yīng)用的復(fù)雜度和數(shù)據(jù)決策成本,降低了圖書館對讀者閱讀需求的感知和對未來服務(wù)發(fā)展趨勢的預(yù)測能力,嚴重影響了圖書館服務(wù)決策從主觀經(jīng)驗主義向大數(shù)據(jù)決策的轉(zhuǎn)變。因此,如何通過科學(xué)、高效、經(jīng)濟和實時的數(shù)據(jù)清洗,將非清潔數(shù)據(jù)轉(zhuǎn)化為高質(zhì)量的干凈數(shù)據(jù),是圖書館增強大數(shù)據(jù)可用性、提升大數(shù)據(jù)決策效率和提升知識服務(wù)水平的關(guān)鍵。

圖書館大數(shù)據(jù)清洗是一個涉及面廣泛和影響力深遠的工程,不科學(xué)的清洗流程和方法會導(dǎo)致數(shù)據(jù)清洗收益率下降,甚至產(chǎn)生新的不清潔數(shù)據(jù)而影響圖書館大數(shù)據(jù)決策科學(xué)性。因此,圖書館在大數(shù)據(jù)的采集、傳輸、存儲、標準化處理、分析和決策中,首先應(yīng)將數(shù)據(jù)質(zhì)量管理和數(shù)據(jù)清潔引入圖書館大數(shù)據(jù)生命周期的不同階段,從制度上規(guī)劃保證數(shù)據(jù)質(zhì)量管理有效和防止不清潔數(shù)據(jù)的產(chǎn)生。其次,應(yīng)加強對大數(shù)據(jù)融合、集成和演化流程的監(jiān)控與檢測,防止因為大數(shù)據(jù)的產(chǎn)生、流入或數(shù)據(jù)更改而產(chǎn)生新的不清潔數(shù)據(jù)。第三,數(shù)據(jù)清洗過程會消耗大量的系統(tǒng)資源和大數(shù)據(jù)應(yīng)用成本,因此,圖書館數(shù)據(jù)清洗目標的制定應(yīng)以大數(shù)據(jù)決策需求為依據(jù),不能人為制定過高的數(shù)據(jù)清洗清潔度目標而導(dǎo)致大數(shù)據(jù)決策綜合收益下降。

參考文獻

[1]王曰芬,章成志,張蓓蓓,等.數(shù)據(jù)清洗研究綜述[J].現(xiàn)代圖書情報技術(shù),2007,(12):50-56.

[2]吳向軍,姜云飛,凌應(yīng)標.基于STRIPS的領(lǐng)域知識提取策略[J].軟件學(xué)報,2007,18(3):490-504.

[3]劉喜文,鄭昌興,王文龍,等.構(gòu)建數(shù)據(jù)倉庫過程中的數(shù)據(jù)清洗研究[J].圖書與情報,2013,(5):22-28.

[4]蔣勛,劉喜文.大數(shù)據(jù)環(huán)境下面向知識服務(wù)的數(shù)據(jù)清洗研究[J].圖書與情報,2013,(5):16-21.

[5]王永紅.定量專利分析的樣本選取與數(shù)據(jù)清洗[J].情報理論與實踐,2007,30(1):93-96.

[6]The Economist.Data,data,everywhere-A special report on managing information[EB/OL].http:∥/node/15557443,2016-05-16.

[7]黃沈濱,王海潔,朱振華.大數(shù)據(jù)云清洗系統(tǒng)的設(shè)計與實現(xiàn)[J].智能計算機與應(yīng)用,2015,5(3):88-90.

[8]FAN W,LI J,MA S,et al.Yu.CerFix:A system for cleaning data with certain fixes[J].PVLDB,2011,4(12):1375-1378.

第6篇

關(guān)鍵詞:老齡化社區(qū);Eucalyptus;數(shù)據(jù)分析;云計算

中圖分類號:TP311 文獻標識碼:A 文章編號:2095-1302(2016)12-00-03

0 引 言

隨著科學(xué)技術(shù)的快速發(fā)展和老齡化程度不斷加深及其服務(wù)需求的不斷增多,中國的養(yǎng)老服務(wù)正面臨著巨大的挑戰(zhàn)。中國社區(qū)養(yǎng)老模式起步較慢,其傳統(tǒng)養(yǎng)老主要是基于社會服務(wù)的家庭照顧方式,關(guān)注老年人身體和心理健康,給予有困難的三無老人、“空巢”老人和殘疾老人幫助[1]。

國外許多社區(qū)養(yǎng)老模式已發(fā)展成熟,“智能化養(yǎng)老”由英國一個生命信托基金會首次正式提出,該基金會提出的理念是建設(shè)能夠使老年人在家中養(yǎng)老并提高生活質(zhì)量的全智能化老年公寓。美國是世界范圍內(nèi)最先開始研究適老化相關(guān)技術(shù)的國家,它根據(jù)老年人的生理狀況、年齡和喜好建設(shè),可照顧社區(qū)內(nèi)形態(tài)各異的老人,適合不同需求的老年人居住。日本是老年住宅的先驅(qū),其最早的“銀發(fā)住宅建設(shè)計劃”[2]提出了為可以自理的老齡化人群提供租賃式公寓的理念。日本成立了專門的研究會制定了一系列發(fā)展規(guī)劃,從智能家庭、智能設(shè)備發(fā)展到智能建筑、智能城市,為智能化城市的發(fā)展做出了巨大貢獻。

本文結(jié)合云技術(shù)研究了能夠提供不同養(yǎng)老服務(wù)的社區(qū)智能服務(wù)平臺,老人只需通過移動終端就可以實現(xiàn)如家政服務(wù)、醫(yī)療服務(wù)等功能,為老人們提供了安全、便捷的服務(wù)。

1 系統(tǒng)需求分析

在研究老齡化社區(qū)智能服務(wù)平臺之前,需要先了解我們平臺用戶即老人們的需求。調(diào)查國內(nèi)社區(qū)老人居住的現(xiàn)狀,了解在社區(qū)養(yǎng)老服務(wù)過程中老人需要的服務(wù)內(nèi)容與服務(wù)方式,以提供滿足需求的服務(wù)。

1.1 社區(qū)對象的需求

老年人生活中普遍存在獨居、老年病頻發(fā)、居住條件差、社區(qū)質(zhì)量不好等特點,在此基礎(chǔ)上,老齡化社區(qū)智能服務(wù)平臺的研究主要是為了滿足老人們的生理需求和心理需求。

1.1.1 老年人的生理需求

老年人的感知能力和自身生理素質(zhì)都會隨著各項生理機能的衰退而產(chǎn)生變化,這會給他們的正常生活帶來諸多困難與不便。老人的生理需求主要集中體現(xiàn)在“醫(yī)療保健”和“生活照料”兩方面[3]。

(1)“醫(yī)療保健”在為所有老年人群體提供日常保健護理工作的基礎(chǔ)上,還會根據(jù)老年人的具體情況提供相應(yīng)的藥物、醫(yī)療等服務(wù);

(2)“生活照料”主要向獨居老人提供介紹保姆、日常包裹代收、推薦日常養(yǎng)老機構(gòu)等服務(wù)[4]。

1.1.2 老年人的心理需求

老年人大部分時間都是在家獨自度過,他們的人際圈會變得更加狹窄,所以他們更需要心靈和情感寄托。故該系統(tǒng)提供了“文化娛樂”“老年教育”等內(nèi)容。

1.2 系統(tǒng)概述

本文的設(shè)計基于云技術(shù)的老齡化社區(qū)智能服務(wù)系統(tǒng),可以將傳統(tǒng)信息化社區(qū)中多個獨立的系統(tǒng)進行整合,為社區(qū)提供一個軟件管理平臺。系統(tǒng)的設(shè)計目標是可以隨時隨地利用移動終端或者電腦來完成各種服務(wù)功能,因此該系統(tǒng)設(shè)計的界面簡單、易操作,針對不同的終端,界面的適應(yīng)性要強。智能服務(wù)系統(tǒng)架構(gòu)圖如圖1所示。

如圖1所示,智能社區(qū)子系統(tǒng)主要分為社區(qū)安防、信息管理、公共服務(wù)和居家服務(wù)共四個模塊,其中,公共服務(wù)包括醫(yī)療衛(wèi)生、養(yǎng)老機構(gòu)、教育機構(gòu)等,居家服務(wù)包括家政服務(wù)等。

2 云服務(wù)系統(tǒng)組成

2.1 Eucalyptus云計算平臺

AbiCloud、Eucalyptus和Nim-bus是目前較流行的開源云計算平臺,而Eucalyptus能提供應(yīng)用開發(fā)研究所需的硬件資源,并且該平臺安裝、部署和維護比較方便。Eucalyptus架構(gòu)如圖2所示,包括客戶端層、云控制臺層和云后端層。

客戶與Eucalyptus平臺交互通過最上層中基于Rest和Soap的Web服務(wù)就可以實現(xiàn)。邏輯上,云控制器(CLC)、集群控制器(CC)、存儲控制器(SC)、存儲服務(wù)組件(Walrus)、節(jié)點控制器(NC)是Eucalyptus的5個組件,它們相互協(xié)作共同提供用戶所需的云服務(wù)。CLC控制管理局域網(wǎng)內(nèi)所有NC和負責(zé)高層次的資源調(diào)度,是架構(gòu)的核心部分。CC負責(zé)管理整個虛擬機實例網(wǎng)絡(luò),通過開啟虛擬機實例的請求路由到具有可用資源的NC節(jié)點上[5]。SC與Walrus聯(lián)合工作存儲和訪問用戶數(shù)據(jù)及虛擬機映像。Walrus主要管理對Eucalyptus存儲服務(wù)的訪問。NC是控制當前機器節(jié)點上虛擬機實例的最終計算節(jié)點。一臺單獨的虛擬機在一個節(jié)點機器上作為一個獨立的實例存在,多個節(jié)點控制器組成了特定的云[6]。

2.2 數(shù)據(jù)分析

Hadoop是具有高可靠性的開源分布式系統(tǒng)基礎(chǔ)架構(gòu),它運行的環(huán)境可以是由大量廉價硬件設(shè)備組成的集群[7]。Hadoop具有效率高、可移植性高、擴容能力強等優(yōu)點,許多知名公司如阿里巴巴、雅虎、百度等都利用Hadoop構(gòu)建自己的數(shù)據(jù)中心,用其對海量數(shù)據(jù)進行存儲分析。

HDFS(分布式文件系統(tǒng))和MapReduce算法模型是Hadoop框架最核心的設(shè)計[8]。其基本架構(gòu)如圖3所示。

2.3 公共服務(wù)云架構(gòu)

云計算平臺為公共服務(wù)云架構(gòu)提供了各種信息,并統(tǒng)一存儲、管理、融合和處理信息。為了實現(xiàn)社區(qū)系統(tǒng)子功能的擴展,采用了可以實現(xiàn)社區(qū)云服務(wù)融合并提供統(tǒng)一接口的松耦合式架構(gòu)。社區(qū)云可將社區(qū)安防、信息管理、公共服務(wù)和居家管理等子系統(tǒng)全部整合在一個完善的系統(tǒng)中,這些子系統(tǒng)的軟硬件具體實現(xiàn)環(huán)節(jié)我們無需具體了解,它們均由公共服務(wù)云平臺屏蔽。普通住戶可以通過連接服務(wù)平臺來使用資源。

2.3.1 云服務(wù)平臺的構(gòu)建

社區(qū)云服務(wù)平臺的硬件資源設(shè)計如圖4所示。

圖4 云服務(wù)平臺構(gòu)造圖

平臺主要由以下四部分構(gòu)成:

(1)防火墻左邊是用于部署Gridsphere門戶系統(tǒng)的門戶端(192.168.142.167),是管理員管理云資源的入口,安裝的Euca2ools工具以及訪問Eucalyptus平臺的相應(yīng)證書信息,可作為訪問云服務(wù)平臺的中間件[9]。

(2)用于存儲上傳至云平臺的鏡像文件[10]和存儲各子系統(tǒng)(如監(jiān)控數(shù)據(jù)庫、物業(yè)綜合服務(wù)系統(tǒng))的FTP服務(wù)器(192. 168.142.162)。

(3)云平臺的外部存儲(192.168.142.163-192.168.142.165)主要組合了Hadoop存儲架構(gòu)技術(shù),門戶系統(tǒng)需要用到MySQL數(shù)據(jù)庫,數(shù)據(jù)庫存放在外部存儲中,實現(xiàn)了虛擬機的備份與快照。

(4)前端和后端的私有云。其架構(gòu)由三臺物理機構(gòu)成,前端(192.168.142.166)安裝了Eucalyptus云平臺的四大組件,分別為CC、Walrus、CLC和SC;后端包括兩臺刀片機(192.168.142.160和192.168.142.161),它們均安裝了Node Controller組件以運行虛擬機。

2.3.2 云架構(gòu)平臺

圖5所示為社區(qū)智能系統(tǒng)云架構(gòu)平臺。

云平臺分為基礎(chǔ)設(shè)施即服務(wù)(IaaS)、平臺即服務(wù)(PaaS)和軟件即服務(wù)(SaaS)三部分。智慧社區(qū)系統(tǒng)從云服務(wù)提供商那里租用基礎(chǔ)設(shè)施,以Eucalyptus+Hadoop框架為基礎(chǔ),構(gòu)建PaaS平臺,該平臺具有對海量數(shù)據(jù)的存儲能力和并行批處理能力,最后以SaaS模式到互聯(lián)網(wǎng)上,供社區(qū)租用。

3 基于Android終端的控制

3.1 系統(tǒng)的整體設(shè)計

系統(tǒng)使用Android Studio作為開發(fā)環(huán)境,用戶通過手機App與系統(tǒng)交互,利用Android系統(tǒng)提供的內(nèi)部資源實現(xiàn)智慧社區(qū)中的各種功能。

3.2 客戶端實現(xiàn)

3.2.1 用戶控制

客戶端設(shè)計的主要內(nèi)容是用戶UI界面設(shè)計與使用。用戶UI界面使用XML布局文件和Java代碼混合控制的方式,XML頁面布局文件采用多種布局方式相結(jié)合的方法,包括LinearLayout,TableLayout,RelativeLayout以及GridLayout。Java代碼實現(xiàn)了Android四大組件Activity,Service,Broadcast Receiver和ContentProvider的結(jié)合,使其可實現(xiàn)更多功能。

3.2.2 功能實現(xiàn)

在ActivityGroup中設(shè)計了“鄰里”“物業(yè)”“我的”和“更多”4個子界面。

(1) “鄰里”列表主要負責(zé)展示社區(qū)的各種活動和通知等;

(2)“物業(yè)”模塊主要包括收繳電費、故障報修等內(nèi)容;

(3)“我的”界面主要是社區(qū)居民個人信息管理;

(4)“更多”模塊包括其他一些如外賣等額外服務(wù)。

圖6所示為客戶登錄界面,圖7所示為客戶端操作界面。

4 結(jié) 語

本文介紹了Eucalyptus和Hadoop云計算平臺,結(jié)合老年用戶的特殊要求,研究了能夠提供不同養(yǎng)老服務(wù)的社區(qū)智能服務(wù)平臺,給出了平臺的具體架構(gòu)和實現(xiàn)方法,并在此基礎(chǔ)上提取了相關(guān)數(shù)據(jù)分析模型,設(shè)計了相應(yīng)的服務(wù)終端軟件,為社區(qū)老年居民的生活帶來便利,為未來養(yǎng)老模式的發(fā)展提供了參考。

參考文獻

[1]龔靜怡.居家養(yǎng)老―社區(qū)養(yǎng)老服務(wù):符合中國國情的城鎮(zhèn)養(yǎng)老模式[J].河海大學(xué)學(xué)報(哲學(xué)社會科學(xué)版),2004,6(4):72-74.

[2]李川瑜.我國城市居家養(yǎng)老社區(qū)服務(wù)研究[D].杭州:浙江大學(xué),2007.

[3]馬澤華.城市社區(qū)居家養(yǎng)老模式中完善社區(qū)服務(wù)問題研究[D].大連:遼寧師范大學(xué),2013.

[4]周莉.城市居民居家養(yǎng)老社區(qū)支持體系研究[D].長沙:中南大學(xué),2012.

[5]崔巍,李益發(fā),斯雪明.基于Eucalyptus的基礎(chǔ)設(shè)施即服務(wù)云框架協(xié)議設(shè)計[J].電子與信息學(xué)報,2012,34(7):1748-1754.

[6]方薇,崔超遠,王儒敬.Eucalyptus開源框架下云平臺的構(gòu)建與性能分析[J].計算機系統(tǒng)應(yīng)用,2012,21(6):1-5.

[7]陳吉榮,樂嘉錦.基于Hadoop生態(tài)系統(tǒng)的大數(shù)據(jù)解決方案綜述[J].計算機工程與科學(xué),2013,35(10):25-35.

[8]楊來,史忠植,梁帆,等.基于Hadoop云平臺的并行數(shù)據(jù)挖掘方法[J]. 系統(tǒng)仿真學(xué)報,2013,25(5):936-944.

第7篇

關(guān)鍵詞:飛行計劃 飛行參數(shù)計算 數(shù)據(jù)庫結(jié)構(gòu) 軟件實施

中圖分類號:TP311 文獻標識碼:A 文章編號:1672-3791(2012)12(c)-0227-01

1 飛行計劃計算的基本方式

在飛行計劃設(shè)計中需要進行一些列的相關(guān)計算這樣才能保證多個航班之間相互配合,實現(xiàn)合理的空管。而在分布式數(shù)據(jù)庫參與的飛行計劃系統(tǒng)設(shè)計中這些計算方式將成為系統(tǒng)分配數(shù)據(jù)的基礎(chǔ)依據(jù)。具體步驟如下。

(1)按照對應(yīng)的航班選擇飛行計劃參數(shù);(2)確定起飛的最大重量和目標機場的降落重量等;(3)確定航路的對應(yīng)點經(jīng)緯坐標等;(4)按照飛行航路確定航路上具體的氣象數(shù)據(jù);(5)從針對飛機的重量進行分析對比,確定平均重量;(6)按照平衡的重量計算下降時的飛機重量,配合降落機場的性能;(7)按照備降目標機場結(jié)合氣象因素、時間、油量等獲得以重量為參考的步長;(8)對計算的著陸重量來確定巡航距離,計算飛行規(guī)劃;(9)經(jīng)過反復(fù)計算獲得最終的飛行參數(shù);(10)確定好著陸的重量后,就可利用下降性能表獲得下降的油量而獲得起飛重量;(11)計算完成后將滑出、輔助動力的油量計入到起飛重量,得出在停機坪上的重量,然后將上面的總體油量匯總就得出了起飛的總油量;(12)最后是利用總體載荷減去空機的重量而獲得業(yè)載的重量,以此按照不同的航路進行計算,將里程、時間、油耗等輸出,即得到飛行計劃。

2 分布式數(shù)據(jù)庫對飛行計劃的幫助

綜合上面的計算過程,不難發(fā)現(xiàn)飛行計劃的設(shè)計較為復(fù)雜,而涉及到的數(shù)據(jù)也十分龐大,如果單純依靠獨立的計算機進行計算其耗費的時間較長,不利行計劃的靈活性需求。所以在設(shè)計中應(yīng)借助與數(shù)據(jù)庫技術(shù)來幫助解決。具體分析器所用的數(shù)據(jù)特征如下:(1)氣象信息,在計算過程中有上百萬的信息將被記錄和查詢,如果計算中每一個航路點僅僅計算一次,且每日定時更新,每次更新時間長度15分鐘;(2)飛機性能信息,按照不同的飛行高度與性能就可分為9個基本信息類型,而細分數(shù)據(jù)類型則多達百萬。(3)航班、機型、飛機數(shù)據(jù)等大部分都是來自于數(shù)據(jù)規(guī)模較小的數(shù)據(jù)庫,對每個航班的計算僅僅查詢一次,通暢更新頻率低;(4)全球的航路點、航線信息,此類數(shù)據(jù)的量為10萬左右,對每個航班的飛行計劃查詢頻次為一次,更新頻率為28天一次,每次計算都需要進行一次查找,這些數(shù)據(jù)通常與FOC共享服務(wù)器。

具體看,數(shù)據(jù)庫的服務(wù)器和性能數(shù)據(jù)庫服務(wù)器利用IBM設(shè)備進行控制,提高其性能;而氣象數(shù)據(jù)的服務(wù)器則利用高性能的PC來提供服務(wù),其系統(tǒng)利用window系統(tǒng),客戶端也采用高性能的PC作為服務(wù)器,操作系統(tǒng)也為widow系統(tǒng),數(shù)據(jù)庫系統(tǒng)則為ORACLE系統(tǒng),在物理設(shè)計上性能數(shù)據(jù)庫和氣象數(shù)據(jù)庫為分區(qū)保存。這就完成了飛行計劃相關(guān)數(shù)據(jù)的分布式框架。

然后系統(tǒng)將利用計算模型進行分析與調(diào)用。以此構(gòu)成一個飛行計劃設(shè)計的系統(tǒng),利用軟件編輯實現(xiàn)前面飛行計劃算法的自動化,數(shù)據(jù)準備模塊中實現(xiàn)數(shù)據(jù)預(yù)處理,而等待模塊、備降下降模塊,備降巡航對應(yīng)。備降爬升的過程;主要航段的下降、巡航、爬升等計算與備降階段是一致的。因為數(shù)據(jù)準備模塊不參與到性能數(shù)據(jù)分析中,所以這個模塊可以放在客戶端完成。數(shù)據(jù)準備完成后,其他模塊都會僅僅和性能數(shù)據(jù)庫向關(guān)聯(lián),這些模塊除了是計算依據(jù)外,不會產(chǎn)生控制依賴,所以每個系統(tǒng)的計算模塊都有獨立的進程,通過各個獨立進行的交錯完成并行運算以節(jié)約時間,所以在分布式數(shù)據(jù)庫構(gòu)造一個組織,使得不同的航班飛行計劃可以交錯的并行且執(zhí)行,降低了用戶終端的響應(yīng)耗時。

3 飛行管理上的應(yīng)用

3.1 監(jiān)控平臺建立

在實際應(yīng)用中飛行計劃必須與飛行管理向配合,為了可以充分的將分布式的數(shù)據(jù)庫利用起來,并且實現(xiàn)資源共享,在飛行管理中借助行計劃管理系統(tǒng)來幫助實現(xiàn)對飛行計劃的審核與評價,建立的計劃管理監(jiān)控功能模塊,其中包括的模塊是飛行計劃數(shù)據(jù)庫的管理模塊;飛行預(yù)報管理模塊;航線顯示與監(jiān)控模塊;錯誤或者沖突判斷模塊,同時將地面雷達的信號與數(shù)據(jù)進入到監(jiān)控系統(tǒng)中,實現(xiàn)對飛行計劃的全面監(jiān)控;將前面分析的油量監(jiān)控計算引入到監(jiān)控系統(tǒng);地理信息和支持系統(tǒng)以及各種飛行參數(shù)進行全面監(jiān)控。指揮人員利用該系統(tǒng)對整個分布式的數(shù)據(jù)進行調(diào)用與分析,從而實現(xiàn)對飛行計劃的全面監(jiān)控。

3.2 關(guān)鍵軟件與技術(shù)實現(xiàn)

系統(tǒng)的軟件構(gòu)成:飛行計劃設(shè)計軟件;飛行航線顯示;飛行沖突分析判斷;雷達情報的引入與標準格式生成軟件;地理信息管理與引入軟件;飛行參數(shù)數(shù)據(jù)庫的動態(tài)化共享。折現(xiàn)軟件在系統(tǒng)中都在為飛行管理提供數(shù)據(jù)服務(wù),并且保證飛行計劃在設(shè)計與執(zhí)行中保證準確。

關(guān)鍵技術(shù):在飛行管理系統(tǒng)中,分布式數(shù)據(jù)庫的數(shù)據(jù)共享必須考慮到多種數(shù)據(jù)的結(jié)合分析,根據(jù)飛行計劃與航跡的綜合性分析,來實現(xiàn)多數(shù)數(shù)據(jù)的共享,通常采用的是定性與定量的分析模式,利用綜合性的比較來完成各種分布式傳感器以及數(shù)據(jù)的綜合性統(tǒng)計,從而與航跡直接管理方便管理,其中影響其判斷的因素包括:偏航因素、時差因素、方向因素、速度因素、區(qū)域因素等,當然這五個因素中偏航因素與時差因素反應(yīng)的是航跡的時間與空間的運行準確度,其作用是相似的;而方向因素與速度因素是飛行計劃的決定性因素,如果方向與速度都出現(xiàn)偏差則所有的關(guān)聯(lián)數(shù)據(jù)都會發(fā)生錯誤;區(qū)域因素是一個相對特殊的因素,其為有效因素則只需利用區(qū)域因素和偏航因素就可監(jiān)控飛行計劃的準確性。

4 結(jié)語

在飛行計劃的設(shè)計中,需要考慮到多種因素的影響,其中包括了天氣、場地、機型、航線距離等等,這些數(shù)據(jù)在處理過程中會消耗大部分資源,所以在規(guī)飛行計劃設(shè)計中應(yīng)借助于分布式的思路,縮短飛行計劃系統(tǒng)工作的耗時,提高其響應(yīng)的效率,尤其是將網(wǎng)絡(luò)技術(shù)與之結(jié)合,則會大幅度提高系統(tǒng)的工作效率。

參考文獻

[1] 程學(xué)軍.新航行系統(tǒng)及其在航空電子系統(tǒng)中的應(yīng)用[J].電訊技術(shù),2009,16(5):56-57.

第8篇

【關(guān)鍵詞】數(shù)據(jù)中心基礎(chǔ)設(shè)施建設(shè)設(shè)計

隨著計算機技術(shù)的不斷發(fā)展,數(shù)據(jù)中心不斷涌現(xiàn)且規(guī)模也日益擴大,數(shù)據(jù)中心部署的計算機能力、存儲系統(tǒng)容量以及通信系統(tǒng)傳輸速度都在飛速的增長。為了和世界水平接軌,僅僅是通過高性能計算機硬件的研制是遠遠不夠的,要求一套具有適用性的機房場地環(huán)境系統(tǒng),并且以此作為高性能計算機運行的基礎(chǔ)。

一、設(shè)計的規(guī)范和標準

(1)TIA-942標準。它是集現(xiàn)有相關(guān)標準和規(guī)范于一體,并且有效的解決了數(shù)據(jù)中心基礎(chǔ)設(shè)施的建設(shè)和設(shè)計階段的信息隔閡問題,同時對于電力之上的問題也有全面的考慮。它全面的描述了在設(shè)備規(guī)劃、數(shù)據(jù)中心的建設(shè)等方面的內(nèi)容,為數(shù)據(jù)中心的規(guī)劃、設(shè)計和施工提供了要求和指南。(2)THE UPTIME INSTITUTE數(shù)據(jù)中心等級標準。這個標準能夠幫助建設(shè)人員針對數(shù)據(jù)中心在建設(shè)當中充分利用資源,達到資源的優(yōu)化配置,減少資源浪費,進而有效的降低投資成本,提高設(shè)備的利用率減少故障發(fā)生的幾率,并且能夠有效的提高組織效率。

二、配電系統(tǒng)設(shè)計

(1)數(shù)據(jù)中心用電負荷。對UPS電源系統(tǒng)進行統(tǒng)計之時,如果能夠明確具體負荷設(shè)備,則直接根據(jù)設(shè)備數(shù)據(jù)進行統(tǒng)計;如果無法明確,則按照設(shè)備機柜平均負荷進行統(tǒng)計;如果無法確認機柜數(shù)量,則根據(jù)機房面積平均負荷進行估計。對于變配電系統(tǒng)負荷統(tǒng)計,主要是對UPS電源、機房照明等相關(guān)設(shè)備進行統(tǒng)計。(2)供電電源。根據(jù)數(shù)據(jù)中心的具體情況確定供電電壓,通常情況選擇10kv。如果有長遠的規(guī)劃,且規(guī)劃當中要求用電負荷較大,則選擇35kv及其以上。同時電源引入應(yīng)該根據(jù)數(shù)據(jù)中心具體情況而定,比如用途、等級等方面。需要建立專線以供數(shù)據(jù)中心使用,并且應(yīng)該從兩個獨立的變電所引入,如果選擇一個變電所,則供電母線必須是兩段獨立的存在。(3)應(yīng)急電源。數(shù)據(jù)中心必須要有相應(yīng)的應(yīng)急電源,以保障可靠性運轉(zhuǎn)。通??梢允褂貌裼桶l(fā)電機組,并且充分滿足相應(yīng)的電力需求。

三、平面布局設(shè)計

平面布局的設(shè)計和子系統(tǒng)之間聯(lián)系十分緊密,而且是進行子系統(tǒng)設(shè)計的前提和基礎(chǔ)。如果平面布局的設(shè)計出現(xiàn)不合理情況而需要變更,不僅會嚴重影響到子系統(tǒng),而且變更所需要的費用非常高,變更的整個過程還存在諸多不可控的潛在風(fēng)險。因此在設(shè)計之時要進行充分的討論和全面的考慮,并且結(jié)合數(shù)據(jù)中心建設(shè)的具體要求,以及相關(guān)的標準規(guī)范,最終保障設(shè)計的科學(xué)性和合理性,盡量減少后期和建設(shè)當中的更改機率,促進建設(shè)工作的順利完成。通常情況下,需要考慮數(shù)據(jù)中心的四個方面的內(nèi)容,即動力區(qū)、主機房區(qū)、輔助機房區(qū)、總控中心區(qū)四個區(qū)域。

為了方便進行統(tǒng)一的安全管理,可以在數(shù)據(jù)中心的每個樓層只設(shè)計一個安全出入口。應(yīng)信息安全要求,在出入口應(yīng)當設(shè)置專人看守,并且配備相應(yīng)的出入閘機等設(shè)備。在進行重點機房的部署之時,應(yīng)該布置在整個建筑的中心位置,并且需要將機房的外墻和建筑的外墻有效分離,保持機房外墻的獨立性。而針對輔助機房以及機房的走道,則可以部署在建筑物的。通過此種布局,不僅能夠最大限度的減少空調(diào)能耗,而且也能夠進一步的加強重點地方的安全性。

四、精密空調(diào)系統(tǒng)的設(shè)計

為了達到既能夠有效提高制冷的效率,又能夠保持能耗最大限度降低的目標,可以通過以下幾種方式進行:合理布置冷熱通道,保持氣流的組織良好,進而達到加強制冷的效果,同時有效的降低耗能;完善內(nèi)墻的作用,加強其的保溫處理效果;通過使用智能化的照明系統(tǒng),進而最大限度的減少電力的浪費,以及降低冷氣的損失;通過分步的方式進行發(fā)展,機電設(shè)備的最佳運行情況是保持在75%左右;分析氣流同時優(yōu)化布線,保持機房內(nèi)部的冷氣可以暢通。

五、綜合布線系統(tǒng)的設(shè)計

在進行設(shè)計之時也要嚴格的按照TIA-942的標準進行,建筑物單獨設(shè)置冗余的接入運營商以及接入間的位置。針對核心網(wǎng)絡(luò)區(qū)、主干路徑與水平路徑都必須使用冗余備份,只有這樣才能在最大程度之上保障網(wǎng)絡(luò)的可靠性。數(shù)據(jù)中心可以使用結(jié)構(gòu)化的綜合布線系統(tǒng)構(gòu)架,將布線的路徑簡化,減少網(wǎng)線的數(shù)量,集中跳線區(qū)域,提高網(wǎng)絡(luò)擴展的便利性,降低故障發(fā)生率和宕機情況。結(jié)構(gòu)化綜合布線系統(tǒng)和傳統(tǒng)方式相比具有無與倫比的優(yōu)越性,其使用了預(yù)端接光纜技術(shù),大大提高了部署的速度,從而保障了管理簡單且容易,并且故障發(fā)生幾率也被有效降低,可靠性提高。

六、裝飾裝修系統(tǒng)

(1)首先針對隔斷的設(shè)計。為了保證機房內(nèi)不出現(xiàn)內(nèi)柱,所以機房的建筑通常使用的是大跨度結(jié)構(gòu)。為了方便控制空調(diào)、灰塵、噪音,以及便于統(tǒng)一的管理,因此針對大的機房可以通過玻璃的方式將其隔斷,最終形成一個個較小的相對獨立的區(qū)域。為了保障機房的安全性,要求門窗的設(shè)計應(yīng)該要防火防盜,因此可以選擇無框的大玻璃門,既美觀又安全明亮。(2)其次是對地面的設(shè)計。由于機房具有一定的特殊性,所以通常要求地板要防靜電,為了便于拆卸還可以運用活動地板。(3)然后是吊頂設(shè)計,一般選擇金屬板材。在進行設(shè)計之時還要充分考慮限制層高、美觀以及成本問題。最后是墻面設(shè)計。對于墻面的設(shè)計和吊頂類似,也通常使用金屬板材,不僅質(zhì)量有所保障而且看起來美觀,還能夠充分滿足防火要求,同時施工簡易效率較高。

七、綠色理念在設(shè)計當中的運用

目前在進行數(shù)據(jù)中心的基礎(chǔ)設(shè)施建設(shè)和設(shè)計之時,大部分都不太注意綠色理念的運用。在進行設(shè)計之時通常只考慮處理能力、網(wǎng)絡(luò)規(guī)劃等問題。對于能耗、環(huán)保問題等考慮較少。而以上闡述的設(shè)計方案充分運用了綠色設(shè)計理念,立足于最大限度的降低能耗,減少對環(huán)境的污染和破壞,進而降低運營成本。這是符合我國的節(jié)能減排決策,同時符合可持續(xù)發(fā)展目標。

在進行建設(shè)之時可以充分的吸收和利用國外先進技術(shù)和成功經(jīng)驗,并且結(jié)合自身的特點以及建設(shè)要求,進而達到最佳的建設(shè)效果。比如針對機房的散熱問題,可以通過改變排列方式,進而增加散熱效果,既不用增加制冷的設(shè)備在一定程度之上減少浪費和污染,又是符合綠色理念的。針對傳統(tǒng)的隊列式擺放,可以使用“面對面,背靠背”的方式以改進。但這種方式比較適合正在修建當中的機房,如果是已經(jīng)完成的機房,改換擺放方式將會涉及到多個設(shè)施的改變,包括布線、地板等。

八、結(jié)束語

綜上所述在進行數(shù)據(jù)中心基礎(chǔ)設(shè)施的建設(shè)和設(shè)計之時,要嚴格按照設(shè)計的標準和規(guī)范進行,尤其是要注意空調(diào)、配電系統(tǒng)、布線系統(tǒng)等的設(shè)計。在設(shè)計之中為了符合環(huán)保要求還需要引入綠色理念,既能夠有效的滿足所有的建設(shè)需求,又能夠有效的降低成本保護環(huán)境。

參考文獻

[1]李長春,趙利紅,張謙.需求層次理論與數(shù)據(jù)中心基礎(chǔ)設(shè)施建設(shè)[J].信息系統(tǒng)工程,2012,11:27-29

[2]孫鑫.面向云環(huán)境數(shù)據(jù)中心的高效資源調(diào)度機制研究[D].北京郵電大學(xué),2012

[3]鄧果.區(qū)域教育基礎(chǔ)信息數(shù)據(jù)庫的規(guī)劃與設(shè)計[D].華中師范大學(xué),2013

第9篇

【關(guān)鍵字】 D-S 威脅感知平臺 威脅精準探知 風(fēng)險分析與控制

Construction of Mobile Threat-Awareness Platform Based on Multi-Dimensional Data Analysis(China Mobile communication group Zhejiang Co., Ltd.,Zhejiang、310000)

Abstract:Information Technology is now experiencing an unprecedented rapid development, due to its nature of being convenient, efficient and as the core of information technology, mobile application inevitably has become an indispensable part of people’s daily work and study life. However, on account of its technological immaturity, and lack of a mobile applications targeted security management platform, have resulted in a significant number of user privacy leaks, corporate financial lost, and damaged interests, and have caused an incalculable impact on our society.This paper will introduce the D-S Model-based Threat-Awareness Platform of Mobile Application. By data mining and analyzing the mobile terminal threat, this security platform not only provides users with relevant threat intelligence information but also indicates the source of the threat with accurate positioning and control.All in all, Threat-Awareness platform is an innovative and efficient mobile security management platform that can close the loopholes which traditional security management architectures have failed to do so.

KEY words: D-S MODEL, Threat-Awareness Platform, Precise Threat Detection, Risk Analysis and Management.

一、背景和意x

隨著移動互聯(lián)網(wǎng)時代的到來,浙江省移動公司CRM系統(tǒng)的移動APP辦公模式正在逐漸取代傳統(tǒng)柜臺式服務(wù)模式,該模式極大的提升了業(yè)務(wù)人員的辦公效率和展業(yè)效率。但是隨著國際、國內(nèi)移動應(yīng)用環(huán)境的不斷復(fù)雜化,移動APP應(yīng)用的攻擊事件呈快速增長趨勢。針對CRM系統(tǒng)移動APP自身業(yè)務(wù)層面的違規(guī)操作和攻擊事件始終未曾停止過,雖然APP在最初設(shè)計中已經(jīng)進行了一定的安全防護措施,但依然存在諸多異常數(shù)據(jù)無法精準判定,主要表現(xiàn)在:同一UUID對應(yīng)多個員工賬號,賬號存在跨區(qū)域業(yè)務(wù)辦理;業(yè)務(wù)辦理過程中提交的數(shù)據(jù)不完整,存在某些字段為空的違規(guī)數(shù)據(jù)形式;部分賬號在同一時間進行業(yè)務(wù)辦理,同一賬號會在一次操作中進行多次業(yè)務(wù)辦理,存在多賬號辦理業(yè)務(wù)時間間隔相同等等。從后臺數(shù)據(jù)中雖然可以確定存在異常信息,但是缺乏專業(yè)的分析系統(tǒng)和分析人員,導(dǎo)致無法定位異常信息的來源和攻擊形式。

我公司曾經(jīng)對異常數(shù)據(jù)進行排查,發(fā)現(xiàn)大部分緣由是一些員工或者公司進行違規(guī)操作而造成。信安部結(jié)合相關(guān)業(yè)務(wù)部門通過明察暗訪確實發(fā)現(xiàn)下屬員工和公司存在通過手機模擬器軟件進行批量業(yè)務(wù)操作的行為,也發(fā)現(xiàn)公司購買外掛、位置造假等軟件進行違規(guī)業(yè)務(wù)辦理操作,甚至還有部分員工非法購買個人信息進行批量性的黑卡辦理操作從中謀取暴利。以上行為不僅影響了公司業(yè)務(wù)系統(tǒng)的正常運行,而且黑卡流入社會為電信欺詐提供了賴以生存的沃土,不但影響移動公司的形象,也對人民群眾的生命財產(chǎn)安全造成嚴重威脅。

同時G20峰會的召開,保證峰會期間移動CRM系統(tǒng)的安全運行至關(guān)重要。

二、項目特點及主要技術(shù)功能介紹

針對日益復(fù)雜和難以界定(比如:批量注冊、刷單)的移動平臺攻擊,依靠單一技術(shù)或簡單規(guī)則來發(fā)現(xiàn)阻斷攻擊己經(jīng)不可能實現(xiàn),防御的最佳策略是及早發(fā)現(xiàn)并實時響應(yīng)。通過在移動平臺上多維度多層次采集數(shù)據(jù),構(gòu)建基于多維度取證和響應(yīng)同時交互進行的防御架構(gòu),不僅可以提高取證分析追溯能力,還能更好的彌合主動取證和快速響應(yīng)之間的安全間隙。充分考慮時間跨度,提出一種狀態(tài)加響應(yīng)的證據(jù)鏈取證方法,對這種證據(jù)鏈進行有效保存和深度挖掘,從而更好的解決一些持久的入侵取證分析。利用D-S證據(jù)理論對取證數(shù)據(jù)進行有效處理,更加有利于進行精準的預(yù)測和高效的決策。通過構(gòu)建與浙江移動業(yè)務(wù)強關(guān)聯(lián)的威脅檢測模型,盡可能早的發(fā)現(xiàn)潛在的安全威脅并迅速采取響應(yīng),將類似黑卡、信息偽造等復(fù)雜攻擊帶來的損失減小到最低甚至阻止其發(fā)生。

2.1基于終端多維度多級的信息采集

終端多維度多級信息采集采用“采集器”和“傳感器”相結(jié)合的信息采集模式,采集器實時將數(shù)據(jù)上報傳感器,并由服務(wù)器集群進行快速的數(shù)據(jù)分析,進行可疑行為的判斷與定位。利用終端多維度數(shù)據(jù)采集主動發(fā)現(xiàn)可疑行為并迅速采取應(yīng)急響應(yīng)是更早發(fā)現(xiàn)威脅的最佳途徑,該途徑還可以將威脅的影響大幅度減小。由于移動市場的復(fù)雜化,終端的多樣化,確保每個終端進行有效的取證和響應(yīng)存在很大的難度。終端取證采用多維度終端取證和響應(yīng)相結(jié)合可以盡可能的構(gòu)建及時的安全分析及響應(yīng)體系。

在預(yù)防和檢測移動威脅方面,通過不同安全分析模塊對數(shù)據(jù)進行分析和處理,從而可以快速的發(fā)現(xiàn)威脅事件。由于采用取證加響應(yīng)的模式收集證據(jù),使得證據(jù)鏈在時間上有一定的跨度,從而保證在長時間持續(xù)性的進行分析和保護。

在攻擊證據(jù)追蹤方面,基于層次化的證據(jù)鏈收集方式(對C&C流量分析),有利于還原攻擊場景,定位威脅源位置。各級的證據(jù)數(shù)據(jù)庫提供了大量的生動的證據(jù)鏈,短時間內(nèi)只需在對不同時期,不同位置的證據(jù)鏈進行關(guān)聯(lián)分析,就可以快速確定威脅形式。基于長時間的證據(jù)鏈匯總和采用先進的算法,可以還原攻擊的每個細節(jié)。

2.2證據(jù)鏈模型

證據(jù)鏈是由取證狀態(tài)和響應(yīng)動作共同構(gòu)成,能夠有助于更好的還原整個攻擊的完整過程。同時,取證狀態(tài)和響應(yīng)動作相互配合,可以最大限度的將攻擊的危害減小到最小。終端取證可以發(fā)現(xiàn)如可疑的應(yīng)用操作、可疑應(yīng)用權(quán)限、可疑的系統(tǒng)調(diào)用等值得注意的變化。響應(yīng)動作可以采取:標記可疑目標為不信任、進一步審計、生成攻擊記錄、進一步篩查可疑文件、迅速定位可疑狀態(tài)來源、可阻止運行。終端取證和終端響應(yīng)相互配合,相互聯(lián)動是形成證據(jù)鏈的根本。

證據(jù)鏈的形成過程主要是依據(jù)終端取證和響應(yīng)發(fā)生的時間節(jié)點作為依據(jù),充分考慮運用證據(jù)鏈在恢復(fù)攻擊場景時的作用(如圖1所示)。對于終端取證每發(fā)現(xiàn)到一個可疑改變時做出詳細的時間記錄,可以更好在以后的有關(guān)證據(jù)的整合、最新攻擊的查找定位中起到很好的作用。對于響應(yīng)的時間記錄可以有助于分析哪些響應(yīng)更加有效和有針對性。

證據(jù)鏈的分析主要是依據(jù)取證和響應(yīng)的時間跨度進行分析,同時也是發(fā)生在每一級端點的分布式分析。如果取證發(fā)現(xiàn)的最新的可疑行為與系統(tǒng)已存在文件之間有關(guān)聯(lián)時,可以通過這個已存在文件的加載時間,在防御系統(tǒng)中查詢這一時間段的己經(jīng)發(fā)現(xiàn)并存儲的攻擊證據(jù)鏈,能夠更加精確定位到威脅的來源并迅速采取相應(yīng)的措施。同時通過一些指標的分析確定系統(tǒng)所處的安全環(huán)境和防御的有效性。

同時,取證的證據(jù)還包括:不同攻擊的安裝模塊、技術(shù)細節(jié)和認證形式,分析它們之間的聯(lián)系和相關(guān)性等信息,尤其是通過對認證形式的分析找出可疑的事件。C &C通信的細節(jié)也是取證的關(guān)鍵,可以判斷出攻擊端的通信網(wǎng)絡(luò)模式(WiFi, 4G) ,使用的終端類型,終端系統(tǒng)版本等信息。

2.3 D-S綜合決策模型

D-S綜合決策模型是對不斷收集到的證據(jù)鏈,通過一定的規(guī)則和函數(shù)高效的利用取證和響應(yīng)信息,并將診斷對象對安全運行狀態(tài)變化的敏感程度設(shè)置為閾值;得到的可疑威脅特征構(gòu)成識別診斷對象安全狀態(tài)的證據(jù)。利用D-S證據(jù)理論構(gòu)建證據(jù)融合診斷決策模型對所獲取的證據(jù)進行處理,從而達到對這些證據(jù)鏈進行融合處理與分析的目的;最終通過對比事先商定并可以不斷改進的診斷策略規(guī)則和可調(diào)整的閾值得出診斷結(jié)論。

2.3.1基于C據(jù)鏈的決策步驟

利用三級端點取證和響應(yīng)系統(tǒng),可以獲得大量的信息,基于D-S的證據(jù)理論可以更好的將這些信息進行有效的利用。結(jié)合D-S證據(jù)理論決策融合的基本過程和威脅感知的信息融合結(jié)構(gòu),可以得到D-S證據(jù)理論信息融合威脅診斷方法的步驟(如圖2所示):

1)確定攻擊威脅空間在查閱目標保護端點上的各類審計信息的基礎(chǔ)上,統(tǒng)計曾經(jīng)發(fā)現(xiàn)過的攻擊的具體活動方式和前期威脅特征(比如訪問終端變化,權(quán)限的更改,關(guān)鍵系統(tǒng)資源的非法訪問等等);然后把這些前期特征和實施方式歸納為若干個典型的威脅類型(刷單、信息造假等);最后,由這些典型的攻擊威脅類型構(gòu)成“攻擊威脅空間”。

2)確定攻擊威脅空間,利用三級端點取證和響應(yīng)系統(tǒng)當前獲取的證據(jù)鏈信息,首先,結(jié)合一定的規(guī)則將證據(jù)鏈拆分成孤立的威脅特征,形成“攻擊威脅空間”中的各種威脅特征并關(guān)聯(lián)到已經(jīng)知道的攻擊方式。然后進一步結(jié)合審計系統(tǒng)細化攻擊特征構(gòu)造各種“攻擊威脅特征子集”,同時形成“攻擊威脅空間”。

3)選擇證據(jù)體利用攻擊威脅特征子集,結(jié)合識別框架中各種攻擊的特點,從不同側(cè)面構(gòu)造能夠識別“診斷對象信息系統(tǒng)”安全狀態(tài)的證據(jù)體。證據(jù)體的選擇主要追溯攻擊源頭,為查找攻擊規(guī)律提供便利。這些證據(jù)體主要是三級端點取證和響應(yīng)系統(tǒng)獲取經(jīng)過處理的證據(jù)鏈,歷史數(shù)據(jù)等。

4)確定出各證據(jù)的基本可信度,并分配在深入分析各證據(jù)與識別框架中各命題對應(yīng)關(guān)系的基礎(chǔ)上,結(jié)合具體的安全管理策略,安全管理策略和相關(guān)參數(shù)可以不斷優(yōu)化和動態(tài)調(diào)整。綜合采用多種確定證據(jù)可信度的方法如專家打分法、概率統(tǒng)計法等,計算出各個證據(jù)對識別框架中各命題的支持程度。

5)分別計算各證據(jù)的信度函數(shù)和真度函數(shù)利用各證據(jù)體的基本可信度分配計算出各命題的信度區(qū)間,對于己經(jīng)發(fā)現(xiàn)的運用次數(shù)較多的證據(jù)體可信度數(shù)值自然比較高。