時間:2023-07-24 16:32:54
導(dǎo)語:在數(shù)據(jù)分析的方法的撰寫旅程中,學(xué)習(xí)并吸收他人佳作的精髓是一條寶貴的路徑,好期刊匯集了九篇優(yōu)秀范文,愿這些內(nèi)容能夠啟發(fā)您的創(chuàng)作靈感,引領(lǐng)您探索更多的創(chuàng)作可能。
【關(guān)鍵詞】 驗證型實驗 數(shù)學(xué)處理
物理實驗中,驗證型實驗和研究型實驗都是非常重要的兩類實驗。驗證型實驗是對已建立的物理規(guī)律的驗證,研究型實驗是通過實驗得到物理規(guī)律,這兩類實驗雖然實驗?zāi)康牟煌?,但從?shù)學(xué)處理方法上來看,具有相似性,都是通過實驗數(shù)據(jù)分析確證物理規(guī)律或得到物理規(guī)律,所以對實驗數(shù)據(jù)的分析處理方法是否得當(dāng)就顯得十分重要。下面以一個典型的驗證型實驗的數(shù)據(jù)處理為例進(jìn)行相應(yīng)探討,以期望得出相對合理和妥當(dāng)?shù)膶嶒灁?shù)據(jù)處理方法。
以大學(xué)物理實驗來說,驗證型實驗較多,諸如牛頓第二定律的驗證、彈性碰撞實驗等等都屬于此類實驗,其中牛頓第二定律的驗證實驗為該類實驗的典型實驗。牛頓第二定律的數(shù)學(xué)表達(dá)式是,力與加速度的大小關(guān)系可以表達(dá)成,要驗證這個規(guī)律,就是給物體加一個大小為F的力,對應(yīng)產(chǎn)生一個大小為的加速度,得到一個測量點,通過改變力,得到n個測量點后,即可通過適當(dāng)?shù)臄?shù)學(xué)方法驗證這個關(guān)系的成立。
類似這種線性物理規(guī)律,其數(shù)學(xué)模型都可以歸結(jié)為的形式。要得到這個線性關(guān)系,就是要得出和。通過測量n組和的值,即、、……、、……、,在X―Y平面中得到n個測量點。若不考慮實驗測量的系統(tǒng)誤差,則測量誤差應(yīng)當(dāng)服從高斯分布,反應(yīng)在X―Y平面中,既是這n個測量點應(yīng)當(dāng)均勻地分布在所求表達(dá)式兩側(cè),對第i個測量點,誤差為,n個測量點導(dǎo)致的總體誤差是最小的。若任意給一個直線,則一是測得到的這n個點不再均勻地分布在直線兩側(cè),二是這n個測量點產(chǎn)生的總體誤差水平將增大,甚至可以達(dá)到無窮大。由此可知,所求直線即是使得n個測量點的總體誤差最小的那條直線。總體誤差可以寫成,但由于誤差服從高斯分布,導(dǎo)致理論上而無法通過此求和值衡量總體誤差水平。為使其不因為正負(fù)抵消而無法衡量總體誤差水平,只要使得所有誤差均為正再求和即可,故可用殘差來衡量總體誤差水平,雖然殘差不再是總體誤差。使得殘差取最小值的和,即為所求直線的和。此即最小二乘法的數(shù)學(xué)思想。據(jù)最小二乘法處理,所求和即是使得取最小值的和,即有,解此式,得
將測量值供稿,即可得到所求和。通常大學(xué)物理實驗中的處理方法,得到和,即是驗證了[1]。但其實這是不太恰當(dāng)?shù)摹?/p>
驗證型或者研究型實驗,特別是驗證型實驗,最關(guān)鍵的是需要解決兩個問題,一是找出所要驗證的關(guān)系,第二是要驗證得出的關(guān)系的確成立,而第二點才是最重要的關(guān)鍵點。即使得出關(guān)系,但如果確證關(guān)系不成立,則第一步的工作就變得毫無意義。實際上,任意給出一組、、……、、……、,都可以根據(jù)最小二乘法得到和,即得出,但并不意味著此式的確成立,不能確證物理量和的確存在這樣的數(shù)量關(guān)系,并沒有檢驗此物理規(guī)律存在。因此,驗證型實驗做到這一步并不算已經(jīng)驗證被驗證的物理規(guī)律成立,還需要研究和的相關(guān)性,通過計算相關(guān)系數(shù),據(jù)的大小來檢驗和是否的確相關(guān)。
總之,驗證型實驗,是對物理規(guī)律的驗證,最重要的是確證被驗證物理規(guī)律成立,得出相應(yīng)物理量間的數(shù)學(xué)表達(dá)式并不能說已經(jīng)驗證了相應(yīng)物理規(guī)律的成立,最重要的是要通過計算物理量間的相關(guān)系數(shù)來確證所得物理規(guī)律是否成立。
傳統(tǒng)VS敏捷
我們先來看一下傳統(tǒng)的數(shù)據(jù)分析流程:解讀業(yè)務(wù)戰(zhàn)略目標(biāo)-->確定目標(biāo)分解的量化KPI-->確定KPI的計算公式和所需字段-->確定所需字段來自于哪些數(shù)據(jù)庫的哪些表-->數(shù)據(jù)建模-->預(yù)先匯總成二次表和Cube-->結(jié)果展示。由于需要建模和打CUBE,這一流程通常需數(shù)月才能完成。
現(xiàn)在,取代傳統(tǒng)數(shù)據(jù)分析流程的,是快速迭代式分析。敏捷數(shù)據(jù)分析不必在開始時花很長的時間構(gòu)思大而全的分析指標(biāo)體系,而是低成本快速迭代,幾分鐘就做好一個當(dāng)前想要分析的結(jié)果,通過敏捷數(shù)據(jù)分析工具實現(xiàn)動態(tài)切換視角,靈活展示數(shù)據(jù),日積月累,指標(biāo)自然越來越豐富,計算公式也越來越符合業(yè)務(wù)邏輯,這時再體系化。下面的演示視頻將幫助大家了解如何通過敏捷數(shù)據(jù)分析工具在幾分鐘時間內(nèi)實現(xiàn)自己的分析需求。
視頻鏈接:v.youku.com/v_show/id_XODcxNTgxMTQ4.html
為什么傳統(tǒng)數(shù)據(jù)分析無法實現(xiàn)快速迭代分析的高效?因為在過去這么多年以來,我們對于大數(shù)據(jù)海量數(shù)據(jù)的計算能力達(dá)不到比較理想的要求,所以我們才需要IT人員用通過建模等方式提前把數(shù)據(jù)計算匯總好,隨著現(xiàn)在大數(shù)據(jù)的技術(shù)相對來講都日趨成熟和完善,分布式計算,內(nèi)存計算、列存儲等比較成熟的技術(shù)架構(gòu),采用這種新的辦法去處理數(shù)據(jù)的性能,已經(jīng)比以前提升了幾十倍甚至更高。
符合迭代思維
快速迭代式的敏捷數(shù)據(jù)分析有什么好處?首先,這種分析方法十分符合互聯(lián)網(wǎng)思維中的迭代思維。企業(yè)的分析指標(biāo)不可能一開始想得非常全面,本身就是迭代逐步形成的。以電商行業(yè)為例,電子商務(wù)的數(shù)據(jù)可分為兩類:前端行為數(shù)據(jù)和后端商業(yè)數(shù)據(jù)。前端行為數(shù)據(jù)指訪問量、瀏覽量、點擊流及站內(nèi)搜索等反應(yīng)用戶行為的數(shù)據(jù);而后端數(shù)據(jù)更側(cè)重商業(yè)數(shù)據(jù),比如交易量、投資回報率,以及全生命周期管理等。
在最初期,電商行業(yè)最關(guān)注的是那些核心指標(biāo):UV、轉(zhuǎn)化率、客單價、毛利率、推廣ROI、重復(fù)購買率,人們在核心指標(biāo)的基礎(chǔ)上逐步對媒體、用戶、商品、營銷等對象做詳細(xì)分析;同時在客服、商品、倉儲物流等內(nèi)部運營績效方面進(jìn)行監(jiān)控。這些數(shù)據(jù)現(xiàn)在又可以被歸納發(fā)展為4個方面,基礎(chǔ)訪問數(shù)據(jù)、商品銷售數(shù)據(jù)、營銷推廣數(shù)據(jù)、用戶數(shù)據(jù),其中基礎(chǔ)數(shù)據(jù)中包括網(wǎng)站的訪問數(shù)據(jù)、網(wǎng)頁鏈接點擊、來源跳出等等。商品銷售數(shù)據(jù)關(guān)系到品類、銷售多少、影響因素等。營銷數(shù)據(jù)包括投入產(chǎn)出的投資回報率,更多地是跟其他幾方面的數(shù)據(jù)進(jìn)行混合分析。用戶數(shù)據(jù)包括分析用戶區(qū)域、購買頻率、客戶構(gòu)成、忠誠度、偏好等等。
適應(yīng)變化需求
1因子分析模型及其統(tǒng)計檢驗
因子分析是一種通過顯在變量測評潛在變量,通過具體指標(biāo)測評抽象因子的統(tǒng)計分析方法。因子分析的目的即在找出量表潛在的結(jié)構(gòu),減少題目的數(shù)目,使之成為一組數(shù)量較少而彼此相關(guān)較大的變量。在本文中以主成分因素抽取法抽取共同因素,根據(jù)Kaiesr(1960)的觀點選取特征值大于1.0以上的共同因素,再以最大變異法進(jìn)行共同因素正交旋轉(zhuǎn)處理,保留共同度大于0.6以及因素負(fù)荷量大于0.5以上的題目。因素負(fù)荷量為碩士論文因素結(jié)構(gòu)中原始變量與抽取出共同因素相關(guān),負(fù)荷量越高表示該題目在該共同因素的重要性越大。共同度和特征值是因子分析的兩個重要指標(biāo)。共同度是每個變量在每個共同因子的負(fù)荷量的平方和,也就是個別變量可以被共同因子解釋的變異量百分比,是個別變量與共同因子間多元相關(guān)的平方。特征值是每個變量在某一共同因子的因子負(fù)荷量的平方總和。
因子分析的數(shù)學(xué)模型及其統(tǒng)計檢驗描述如下:
彼此之間是獨立的,則模型(4.1)稱為正交因子模型;相反,如果公共因子彼此之間有一定相關(guān)性,則稱為斜交因子模型。由于斜交因子模型比較復(fù)雜,在本文中只考慮正交因子模型,而且假定各公共因子的均值為0,方差為1。
模型中的矩陣A稱為因子載荷矩陣,a稱為因子“載荷”,是第i個變量在第j個因子上的負(fù)荷。因子載荷陣的求解方法有很多,本文用常用的主成分分析法,求解載荷陣得到僅包含m個因子的因子載荷陣。主要問題就在于如何通過SPSS統(tǒng)計軟件對數(shù)據(jù)的分析來估計因子載荷矩陣A,負(fù)荷量大的指標(biāo)給予保留,否則剔除。保留下來的指標(biāo)所構(gòu)成的體系就是本文最終研究得到的指標(biāo)體系。關(guān)于因子載荷的檢驗有:模型的標(biāo)準(zhǔn)化,這主要是為了得到抽象的因子含義,即對因子各維度進(jìn)行命名;變量共同度檢驗,變量的共同度越高,說明該因子分析模型的解釋能力越高;因子的方差貢獻(xiàn)檢驗,用因子的累計方差貢獻(xiàn)率來確定公共因子提取的個數(shù),也就是尋找一個使得累計方差貢獻(xiàn)率達(dá)到較大百分比的自然數(shù),即最終提取方差貢獻(xiàn)大于1的因子作為公共因子。
由于本文的論題是電子商務(wù)環(huán)境下服務(wù)業(yè)企業(yè)績效評價指標(biāo)體系構(gòu)建,本文主要運用平衡計分卡把評價指標(biāo)體系分為四個方面,18個二級指標(biāo)作為18個因子,按照因子分析法來選取有效指標(biāo),各項指標(biāo)在選取時,需要遵循兩個原則,一是該指標(biāo)在以前的研究中出現(xiàn)的概率,二是指標(biāo)與所要研究的問題的潛在相關(guān)性。本文在四個方面的指標(biāo)的選取上,另外考慮了①全面性,要求所選的指標(biāo)能反映企業(yè)的經(jīng)營、客戶、企業(yè)學(xué)習(xí)與成長、財務(wù)方面的狀況;②有效性,要求選擇那些能夠?qū)︻A(yù)測企業(yè)的整體狀況有指示作用的重要指標(biāo);如,若各項指標(biāo)的雙尾T檢驗的顯著性概率小于0.05,則能有效的反映企業(yè)的四個方面的狀況,反之,則是無效指標(biāo),應(yīng)剔除。③同趨勢性,即當(dāng)各項指標(biāo)增大時,表示企業(yè)的整體狀況改善,反之當(dāng)各項指標(biāo)減少時,表示企業(yè)的整體狀況惡化;④可操作性,采用易得到的數(shù)據(jù)。
2信度、效度、描述性統(tǒng)計、方差和相關(guān)分析方法
信度分析是采用一定的方法來衡量回收問卷中各變量的內(nèi)部一致性,它主要考查的是問卷測量的可靠性,檢驗每一個因素中各個題目測量相同或相似的特性。本文采用克隆巴赫(Cronbach a)一致性系數(shù)檢驗量表的信度和各分量表的信度。效度分析是采用一定的方法對問卷的理論構(gòu)思效度進(jìn)行驗證。首先,必須對題目的結(jié)構(gòu)、測量的總體安排以及題目見的關(guān)系做出說明,然后運用一定的方法從數(shù)據(jù)中得出基本構(gòu)思,以此來對測量構(gòu)思的效度進(jìn)行分析。用于評價結(jié)構(gòu)效度的主要指標(biāo)有累積貢獻(xiàn)率、共同度和因子負(fù)荷。累積貢獻(xiàn)率反映公因素對量表或問卷的累積有效程度,共同度反映由公因素解釋原變量的有效程度,因子負(fù)荷反映原變量與某個公因素的相關(guān)度。描述性統(tǒng)計分析是對各維度中的測量題目的均值、標(biāo)準(zhǔn)差、方差等描述性統(tǒng)計量碩士論文進(jìn)行統(tǒng)計,了解各維度中題目設(shè)置的水平。方差分析又稱變異數(shù)分析或F檢驗,其目的是推斷兩組或多組資料的總體均數(shù)是否相同,檢驗兩個或多個樣本均數(shù)的差異是否具有統(tǒng)計學(xué)意義。
方差分析對客觀事物數(shù)量進(jìn)行依存關(guān)系的分析,主要刻畫兩類變量間線性相關(guān)的密切程度,其兩個變量全是隨機(jī)變量,且處于平等地位。兩變量之間的相關(guān)關(guān)系可以通過繪制散點圖或計算相關(guān)系數(shù)來反映。 3回歸模型及其統(tǒng)計檢驗
現(xiàn)實世界中,一個事物的運動變化,總是與其他事物相關(guān)聯(lián)。其中,有的還存在因果關(guān)系,這種因果關(guān)系有的是線性的,有的是非線性的。當(dāng)預(yù)測對象與其影響因素的關(guān)系是線性的,且只有一個影響因素時,就可以用一元線性回歸方法建立其一元線性回歸預(yù)測模型,來表述和分析其因果關(guān)系;當(dāng)有兩個或多個影響因素同時作用于一個預(yù)測對象時,則用多元線性回歸法建立多元線性回歸預(yù)測模型。
本文就是以多對一的關(guān)系,因此,用多元線性回歸模型進(jìn)行統(tǒng)計檢驗。對于多元線性回歸模型及其統(tǒng)計檢驗描述如下:
當(dāng)預(yù)測對象y同時受到多個解釋變量x1,x2,...,xm影響,且各個xj(j=1,2,...,m)與y都近似地表現(xiàn)為線性相關(guān)時,則可建立多元線性回歸模型來進(jìn)行預(yù)測和分析,模型為:
3)回歸方程整體顯著性檢驗
回歸模型的顯著性檢驗包括兩個方面,即回歸方程的顯著性檢驗和回歸系數(shù)的顯著
性檢驗。
(1)回歸方程的顯著性檢驗
回歸方程的顯著性檢驗用于檢驗被解釋變量與所有解釋變量之間的線性關(guān)系是否顯著?;貧w模型總體函數(shù)的線性關(guān)系是否顯著,其實質(zhì)就是判斷回歸平方和與殘差平方和之比值的大小問題,可以通過方差分析的思想,構(gòu)造F統(tǒng)計量來進(jìn)行檢驗,F(xiàn)檢驗是用來檢驗多元線性回歸模型的總體效果。
(2)回歸系數(shù)顯著性檢驗
回歸方程總體顯著并不意味著每個解釋變量對被解釋變量的影響都是重要的,還需要對每個回歸系數(shù)的顯著性進(jìn)行檢驗?;貧w系數(shù)顯著性檢驗通過構(gòu)造t統(tǒng)計量來進(jìn)行,
4)殘差正態(tài)性檢驗
殘差e是隨機(jī)擾動項ε的體現(xiàn)。對殘差進(jìn)行分析的目的是檢驗隨機(jī)擾動項是否服從經(jīng)典假設(shè)。殘差分析的內(nèi)容包括殘差正態(tài)性檢驗、序列相關(guān)檢驗、異方差檢驗等。本文應(yīng)用殘差的累計概率散點圖進(jìn)行殘差正態(tài)性檢驗。
5)異方差檢驗
異方差常常表現(xiàn)為殘差隨某個解釋變量取值的變化而變化,因此,檢驗隨機(jī)擾動項是否存在異方差可以通過繪制被解釋變量與解釋變量的散點圖來簡單的判斷。如果散點圖呈帶狀分布,則不存在異方差;如果隨著解釋變量的增大,被解釋變量波動逐漸增大或減少,則很可能存在異方差的現(xiàn)象。實踐中,常常使用加權(quán)最小二乘法消除異方差。
7)多重共線性檢驗
所謂多重共線性是指各個解釋變量之間存在線性關(guān)系或接近線性關(guān)系的現(xiàn)象。多重共線性常常會導(dǎo)致回歸系數(shù)方差增大,從而使得t檢驗難以通過。用SPSS檢驗多重共線性共有四種方法:容忍度、方差膨脹因子、條件指數(shù)和方差比例。本文選用條件指數(shù)和比例方差這兩種方法來檢驗共線性。
(2)方差比例
DOI:10.16842/j.cnki.issn2095-5588.2016.08.0021引言
“社會網(wǎng)絡(luò)分析” (Social Network Analysis, SNA)是在人類學(xué)、社會學(xué)、心理學(xué)等眾多領(lǐng)域中發(fā)展起來的研究個體之間關(guān)系結(jié)構(gòu)的分析方法,是對社會關(guān)系進(jìn)行量化分析的一門藝術(shù)和技術(shù)。SNA主要用于描述和測量個體之間的關(guān)系以及這些關(guān)系中所包含的資源、信息等,并根據(jù)這些關(guān)系建立模型,進(jìn)而研究關(guān)系與行為之間的相互影響(劉軍, 2004)。SNA從“關(guān)系”角度來揭示社會情境與嵌套于其中的個體的心理和行為的互動影響,即個體可以能動地構(gòu)造他們的關(guān)系網(wǎng)絡(luò)(選擇效應(yīng),selection effect),同時這些關(guān)系又反過來影響個體的心理與行為(影響效應(yīng),influence effect)。因此,個體既形塑社會網(wǎng)絡(luò),也被社會網(wǎng)絡(luò)形塑(劉軍, 2006; 馬紹奇, 2012; 馬紹奇, 焦璨, 張敏強(qiáng), 2011 )。在SNA中,反映個體之間關(guān)系的數(shù)據(jù)稱為關(guān)系數(shù)據(jù)(relational data),通常的數(shù)據(jù)類型是0、1二分變量數(shù)據(jù),即1表示兩個行動者之間存在關(guān)系,0表示不存在關(guān)系(馬紹奇, 2012)。
SNA從嵌入社會情境的個體之間的關(guān)系出發(fā),分析群體結(jié)構(gòu)及其與心理行為的相互作用,更能反映人際交往的社會性特點。如,運用SNA方法系統(tǒng)研究中學(xué)生班級的學(xué)習(xí)關(guān)系、友誼關(guān)系、咨詢關(guān)系、信息交流關(guān)系等,運用SNA方法研究中學(xué)生的支持網(wǎng)絡(luò)對中學(xué)生學(xué)業(yè)和心理健康等方面的影響。這不僅有利于從社會關(guān)系的視角理解學(xué)生人際關(guān)系的形成、特征和影響因素,還能及時掌握學(xué)生的心理動態(tài),維護(hù)學(xué)生的心理健康(唐文清等, 2014)。但是,由于SNA的應(yīng)用涉及到更多的人事物,數(shù)據(jù)的缺失是必然現(xiàn)象。研究者在SNA中常常會遇到數(shù)據(jù)應(yīng)答率在65%至90%的情況(Albrecht, 1984; Dean & Brass, 1985; Moch, 1980; Monge, Edwards, & Kirste, 1983; Roberts & O′Reilly, 1978, 1979)。此外,由于數(shù)據(jù)結(jié)構(gòu)的依賴性,如果網(wǎng)絡(luò)中的行動者或者關(guān)系存在缺失,就難以全面地描述缺失行動者及其鄰近行動者的網(wǎng)絡(luò)環(huán)境(Robins, Pattison, & Woolcock, 2004)。已有研究發(fā)現(xiàn),缺失數(shù)據(jù)不僅對網(wǎng)絡(luò)結(jié)構(gòu)描述產(chǎn)生消極影響,還會低估關(guān)系強(qiáng)弱和聚類系數(shù),并使得中心性和度數(shù)的測量出現(xiàn)不穩(wěn)定的情況(Burt, 1987; Borgatti & Molina, 2003; Costenbader & Valente, 2003; Kossinet, 2006; Huisman, 2009)。這說明,網(wǎng)絡(luò)結(jié)構(gòu)描述和網(wǎng)絡(luò)數(shù)據(jù)分析的結(jié)果會因為缺失數(shù)據(jù)而產(chǎn)生偏差。
心理技術(shù)與應(yīng)用4卷
8期黃菲菲張敏強(qiáng): 社會網(wǎng)絡(luò)分析中缺失數(shù)據(jù)的處理方法
要使SNA方法得到更好的應(yīng)用及認(rèn)可,既要介紹理論及應(yīng)用方法,同時還要解決方法使用中可能出現(xiàn)的各種問題。例如,在數(shù)據(jù)收集和研究結(jié)論的推廣方面,如何在實際的應(yīng)用分析中,完善相關(guān)的統(tǒng)計模型和參數(shù)估計方法的發(fā)展,如何提高數(shù)據(jù)收集的信效度,如何處理缺失值等問題(馬紹奇, 焦璨, 張敏強(qiáng), 2011; 焦璨, 吳換杰, 黃?h娜, 黃菲菲, 張敏強(qiáng), 2014)。由于社會網(wǎng)絡(luò)數(shù)據(jù)的相互依賴性,對缺失數(shù)據(jù)的處理不能采用常規(guī)的缺失處理方法。本文就SNA中缺失數(shù)據(jù)的原因及缺失機(jī)制,比較分析了常用的四種缺失數(shù)據(jù)處理方法在實際應(yīng)用中的優(yōu)缺點,并就SNA中如何處理缺失數(shù)據(jù)提出建議。
2缺失數(shù)據(jù)的原因
21邊界規(guī)范問題
邊界規(guī)范問題指的是在網(wǎng)絡(luò)研究中指定行動者或者關(guān)系之間包含的規(guī)則(Laumann, Marsden, & Prensky, 1983)。例如,學(xué)者在研究青少年的冒險行為過程中,想了解他們在學(xué)校里的人際關(guān)系情況。圖1中的A、B、C、D是四位青少年在學(xué)校里的人際關(guān)系網(wǎng)絡(luò),E、F、G三位青少年雖然和A、B、C、D四位青少年的交往密切,但是學(xué)校外的人際關(guān)系與研究目的無關(guān),因此,E、F、G三者和研究中的青少年的人際關(guān)系就容易被忽視(Valente, Fujimoto, Unger, Soto, & Meeker, 2013)??傮w而言,邊界規(guī)范是由研究者自行決定的。在實際包含網(wǎng)絡(luò)的例子中,組織成員或者由位置界定的正式定義大部分取決于一個正式組織團(tuán)隊中成員占據(jù)的排列位置,例如一個學(xué)校最受歡迎的前10名老師或者一個班級成績最好的前五名同學(xué)(Kossinets, 2006)。
社會網(wǎng)絡(luò)是由行動者及行動者之間的關(guān)系組成的,因此研究者在規(guī)范網(wǎng)絡(luò)邊界時,除了需要考慮通過一組行動者來界定網(wǎng)絡(luò)邊界外,還要決定哪些關(guān)系應(yīng)該納入研究范圍里。對于如何有效地規(guī)范網(wǎng)絡(luò)邊界,學(xué)者們提出了一個準(zhǔn)則,即根據(jù)可測量行動者的交互作用確定。因此,研究中的網(wǎng)絡(luò)邊界被定義為該邊界記錄了在特定情境中行動者間的交互作用(Laumann, Marsden, & Prensky, 1983)。但是,無論是情景還是交互作用的設(shè)置,研究者首先需要根據(jù)研究目的給出操作性定義,然后再確定在這個情境中包含哪些存在交互作用的行動者。隨著電子科技時代的發(fā)展與進(jìn)步,這個準(zhǔn)則不再僅限于小網(wǎng)絡(luò),因為大規(guī)模的社會網(wǎng)絡(luò)交互作用數(shù)據(jù)可以通過郵件傳遞或者虛擬社區(qū)的記錄得到(Newman, 2002; Ebel, Mielsch, & Bornholdt, 2002; Guimera, Danon, DiazGuilera, Giralt, & Arenas, 2003; Holme, Edling, & Lijeros, 2004)。
22固定選擇的研究設(shè)計
固定選擇的研究設(shè)計指的是網(wǎng)絡(luò)中行動者和關(guān)系的缺失依賴于研究設(shè)計中提名選擇的限定(Holland & Leinhard, 1973),即網(wǎng)絡(luò)數(shù)據(jù)的偏差是由于研究設(shè)計造成的。假設(shè)圖2中的行動者A屬于Z團(tuán)體,在這個團(tuán)體中,他和其他5個行動者有關(guān)系,現(xiàn)研究者要求行動者A提名y個和他關(guān)系最好的行動者。如果y≤5,則行動者A和其他5個行動者之間的所有關(guān)系都包含在數(shù)據(jù)集中;如果y>5,則行動者會失去5-y個關(guān)系。例如,學(xué)者想研究班級的學(xué)業(yè)咨詢網(wǎng)絡(luò)對學(xué)生學(xué)業(yè)拖延的影響,要求學(xué)生提名2個在學(xué)習(xí)上遇到困難或疑問時會請教的同學(xué)。如果學(xué)生平時向同學(xué)請教問題的人數(shù)普遍都是3個,那么學(xué)者得到的學(xué)業(yè)咨詢網(wǎng)絡(luò)數(shù)據(jù)是有偏差的。因為在該網(wǎng)絡(luò)中,大部分行動者(學(xué)生)都失去了1個關(guān)系。
在固定選擇的研究設(shè)計中,會出現(xiàn)互惠提名(有關(guān)系的雙方相互提名),非互惠提名(有關(guān)系的雙方只有一方提名)和無提名(有關(guān)系的雙方均不提名)三種情況。從本質(zhì)上而言,非互惠提名和其他兩種提名的情況不一樣(例如:好朋友和普通朋友的區(qū)別),因此,研究者需要考慮是否將其納入到研究范圍內(nèi)。固定選擇的研究設(shè)計還容易使數(shù)據(jù)呈現(xiàn)非隨機(jī)缺失的模式,如受歡迎的個體更有可能被其他行動者提名(Feld, 1991)。但是,在不同結(jié)構(gòu)的網(wǎng)絡(luò)中,這種影響會不一致(Newman, 2002; Vázquez & Moreno, 2003)。例如,在非相稱混合性(即受歡迎的行動者傾向于和不受歡迎的行動者相聯(lián)系)的網(wǎng)絡(luò)中,互惠提名將會導(dǎo)致更多關(guān)系缺失的情況出現(xiàn)。
23網(wǎng)絡(luò)調(diào)查中的無應(yīng)答
網(wǎng)絡(luò)調(diào)查中的無應(yīng)答包括應(yīng)答者完全缺失和特定項目的數(shù)據(jù)缺失(Stork & Richands, 1992; Rumsey, 1993)。應(yīng)答者完全缺失指的是行動者沒有參與到調(diào)查研究中,因此行動者的發(fā)出關(guān)系對于分析而言是無效的(如圖3所示,N表示缺失數(shù)據(jù))。特殊項目的數(shù)據(jù)缺失指的是行動者參與了調(diào)查研究,但是在特定項目上的數(shù)據(jù)缺失,因此只有行動者的部分關(guān)系對于分析而言是無效的(如圖4所示,N表示缺失數(shù)據(jù))。例如,在一個關(guān)于學(xué)生情感咨詢網(wǎng)絡(luò)對學(xué)業(yè)成績影響的調(diào)查中,要求學(xué)生提名3個班上的好朋友。圖3中的A和D兩位學(xué)生因事由請假沒有參與此次研究,但圖3應(yīng)答者完全缺失是其余的學(xué)生在提名中提及到了A和D,所以A和D的無應(yīng)答屬于應(yīng)答者完全缺失。如果A和D參與了調(diào)查研究(如圖4),但是在提名中他們忽略了被提及的學(xué)生,即B提名了A,A沒有提名B,則A和D的無應(yīng)答屬于特殊項目的數(shù)據(jù)缺失。對于1-模網(wǎng)絡(luò)而言,即由一個行動者集合內(nèi)部各個行動者之間的關(guān)系構(gòu)成的網(wǎng)絡(luò)(劉軍, 2009),無應(yīng)答對網(wǎng)絡(luò)結(jié)構(gòu)及統(tǒng)計指標(biāo)的影響不大,但是對于存在多元交互作用情景的網(wǎng)絡(luò)(例如,二元網(wǎng)絡(luò))而言,無應(yīng)答可能會造成特定的影響(Robins, Pattison, & Woolcock, 2004)。例如,在一個隸屬網(wǎng)絡(luò)的調(diào)查研究中,假設(shè)研究者沒有其他途徑可以了解團(tuán)隊的任何信息,只能要求行動者報告他們隸屬于哪個團(tuán)隊。如果任何一個行動者出現(xiàn)無應(yīng)答的情況,那么可能會出現(xiàn)這個無應(yīng)答行動者所隸屬的團(tuán)隊缺失的情況。Huisman(2009)通過模擬研究發(fā)現(xiàn),忽視網(wǎng)絡(luò)調(diào)查中的無應(yīng)答數(shù)據(jù)對社會網(wǎng)絡(luò)的描述分析會造成消極的影響。進(jìn)一步比較分析行動者無應(yīng)答和特殊項目無應(yīng)答的結(jié)果發(fā)現(xiàn),特殊項目的無應(yīng)答可能會造成更大的統(tǒng)計偏差。
網(wǎng)絡(luò)調(diào)查中的無應(yīng)答易導(dǎo)致行動者或者關(guān)系的缺失,但是網(wǎng)絡(luò)環(huán)境中除無應(yīng)答行動者以外的不完整觀察行動者的部分信息仍然是有用的,如可利用這個信息來估計缺失狀態(tài)的效果和分析不完整網(wǎng)絡(luò)(Costenbader & Valente, 2003; Robins, Pattison, & Woolcock, 2004; Gile & Handcock, 2006; Handcock & Gile, 2007)。此外,不完整觀察行動者的部分信息還可用來估計行動者和網(wǎng)絡(luò)的結(jié)構(gòu)性能,并能給缺失數(shù)據(jù)機(jī)制提供參考。
和前兩種缺失數(shù)據(jù)原因相比,無應(yīng)答是社會網(wǎng)絡(luò)調(diào)查中最經(jīng)常出現(xiàn)的缺失情況。因此,有不少學(xué)者開始關(guān)注社會網(wǎng)絡(luò)調(diào)查中無應(yīng)答的缺失問題(Daniel, 1975; Stork & Richards, 1992; Butts, 2003; Kossinets, 2006; Huisman & Steglich, 2008; nidaricˇ, Ferligoj, & Doreian, 2012)。
3缺失機(jī)制
不同的缺失數(shù)據(jù)來源,還涉及一個重要的問題,數(shù)據(jù)是否系統(tǒng)缺失。如果數(shù)據(jù)是系統(tǒng)缺失,那么缺失概率是否和觀察變量(性質(zhì)或?qū)傩裕┯嘘P(guān)。已有研究表明,在社會網(wǎng)絡(luò)中處理不同來源的缺失數(shù)據(jù)時,應(yīng)考慮缺失機(jī)制以提高處理方法的有效性(Huisman, 2009; nidaricˇ, Ferligoj, & Doreian, 2012)。
缺失機(jī)制指的是數(shù)據(jù)的缺失概率和研究變量之間的關(guān)系(Schafer & Graham, 2002)。Rubin在1976年根據(jù)缺失引起的偏差程度定義了三種類型的缺失數(shù)據(jù):完全隨機(jī)缺失(Missing Complete At Random, MCAR),隨機(jī)缺失(Missing At Random, MAR)和非隨機(jī)缺失(Missing Not At Random, MNAR)。假設(shè)所有變量觀測值Y中,完整的變量記為Yobs,缺失的變量記為Ymis。如果缺失概率和Yobs及Ymis相互獨立無關(guān),此類缺失稱為MCAR。如果缺失概率和Yobs相關(guān),和Ymis獨立無關(guān),則為MAR。MNAR是指缺失概率依賴于Yobs和Ymis。因為Ymis的未知性,研究者常常難以判斷缺失數(shù)據(jù)屬于哪種類型的缺失機(jī)制。葉素靜,唐文清,張敏強(qiáng)和曹魏聰(2014)在對追蹤研究中缺失數(shù)據(jù)處理方法及應(yīng)用現(xiàn)狀的分析中綜述了三種類型缺失機(jī)制的粗略判斷方法。
對于社會網(wǎng)絡(luò)數(shù)據(jù)而言,完全隨機(jī)缺失是指缺失概率和缺失關(guān)系的數(shù)值及觀察數(shù)據(jù)(例如,行動者的屬性)無關(guān)。在這種情況下,觀察數(shù)據(jù)是原始觀察值的一個隨機(jī)樣本,因此不存在系統(tǒng)偏差。隨機(jī)缺失是指缺失概率和觀察數(shù)據(jù)有關(guān),但是和缺失關(guān)系的數(shù)值無關(guān)。盡管在這種情況下缺失數(shù)據(jù)會呈現(xiàn)出系統(tǒng)模式,但是這些模式是可控的,因為它們和樣本中的觀察數(shù)據(jù)有關(guān)。非隨機(jī)缺失是指缺失概率不僅和觀察數(shù)據(jù)有關(guān),還和缺失關(guān)系的數(shù)值有關(guān),這種類型的缺失數(shù)據(jù)會對統(tǒng)計分析的偏差程度造成很大的影響。因為在非隨機(jī)缺失的情況下,應(yīng)答者和無應(yīng)答者之間的差異是由系統(tǒng)誤差造成的,關(guān)于網(wǎng)絡(luò)結(jié)構(gòu)性質(zhì)的統(tǒng)計指標(biāo)將會受到影響(Costenbader & Valente, 2003)。
4缺失數(shù)據(jù)處理方法
41完整個案法
完整個案法,即刪除部分已有的數(shù)據(jù)以保證所研究對象信息的完整性。完整個案法相當(dāng)于行動者的列刪除法,它不僅移除不完整觀察行動者的列數(shù)據(jù)且一并移除該行動者的行數(shù)據(jù),而移除行意味著在分析中移除不完整觀察行動者和完整觀察行動者之間的所有關(guān)系(Huisman & Steglich, 2008)。因此,使用完整個案法后用于分析的數(shù)據(jù)集是完整的,即每一個行動者既有接收的關(guān)系也有發(fā)出的關(guān)系。例如,圖5(a)是一個班級情感關(guān)系網(wǎng)絡(luò)的例子,其中有A、D、F三個無應(yīng)答行動者,每一個無應(yīng)答者都沒有指向外部的情感關(guān)系,在觀察網(wǎng)絡(luò)的矩陣表達(dá)式中就會有幾行缺失關(guān)系數(shù)據(jù)N,對數(shù)據(jù)進(jìn)行完整個案法處理后,結(jié)果就會出現(xiàn)如圖5(b)呈現(xiàn)的小網(wǎng)絡(luò)。因此,完整個案法是在可完全觀察行動者的小網(wǎng)絡(luò)基礎(chǔ)上進(jìn)行分析處理的。nidaricˇ, Ferligoj和Doreian(2012)用完整個案法等多種缺失數(shù)據(jù)處理方法對社會網(wǎng)絡(luò)區(qū)組模型中的無應(yīng)答情況進(jìn)行分析,結(jié)果發(fā)現(xiàn),在小規(guī)模網(wǎng)絡(luò)中,完整個案法對區(qū)組模型結(jié)構(gòu)的穩(wěn)定性影響最小。Robins, Pattison和Woolcock(2004)的研究結(jié)果則表明,完整個案法重新定義了網(wǎng)絡(luò)邊界:移除無應(yīng)答行動者之后相當(dāng)于生成了一個更小的網(wǎng)絡(luò)。
完整個案法是一種加權(quán)方法,它丟棄了不完整個案的數(shù)據(jù),對完整個案和缺失個案賦予了同樣的權(quán)重。在分析的統(tǒng)計軟件包里,完整個案法通常是默認(rèn)處理缺失數(shù)據(jù)的方法。它最大的一個優(yōu)點就是簡便,缺點則是因為忽視不完整個案而丟失了大部分信息,很可能出現(xiàn)模型和數(shù)據(jù)無法擬合的情況。因此,只能在缺失概率較小的網(wǎng)絡(luò)中使用完整個案法。Schafer和Graham(2002)認(rèn)為,當(dāng)無應(yīng)答者是完全隨機(jī)缺失時,完整個案法可能是有效的。然而,如果這個前提假設(shè)不成立,統(tǒng)計分析結(jié)果就會有偏差,因為剩余的行動者樣本可能是不具有代表性的。也有學(xué)者認(rèn)為,完全個案法從系統(tǒng)水平而言,嚴(yán)重?fù)p害了所有分析(Stork & Richards, 1992),且可能會暗中破壞社會網(wǎng)絡(luò)模型的假設(shè)(Snijders, Bunt, & Steglich, 2010)。
42有效個案法
有效個案法是指忽略缺失的數(shù)據(jù),只使用觀測到的關(guān)系變量。有效個案法是直接對不完整數(shù)據(jù)進(jìn)行分析,即根據(jù)SNA需要計算的統(tǒng)計值選擇行動者的有效數(shù)據(jù)。例如,在一元統(tǒng)計分析中,在計算網(wǎng)絡(luò)的平均數(shù)和標(biāo)準(zhǔn)差時,可以選擇所有變量都完整觀察的個體行動者的有效數(shù)據(jù),而在計算網(wǎng)絡(luò)的協(xié)方差或者相關(guān)系數(shù)時,則需要選擇所有變量都完整觀察的配對行動者的有效數(shù)據(jù)。
Littile和Rubin(1989)在探討社會科學(xué)領(lǐng)域關(guān)于缺失數(shù)據(jù)處理的分析方法時,比較了完整個案法和有效個案法對網(wǎng)絡(luò)的均值、方差、協(xié)方差及相關(guān)系數(shù)四個統(tǒng)計量的參數(shù)估計影響及二者的差異。研究結(jié)果表明,和完整個案法相比,使用有效個案法后,網(wǎng)絡(luò)的均值參數(shù)估計值是無偏的。但是,其余三個統(tǒng)計量的參數(shù)估計值的偏差較大。隨后,Little和Su(1989)進(jìn)一步對兩種方法的差異進(jìn)行了詳細(xì)的討論,也得出了相同的結(jié)果。
有效個案法簡單易行,和完整個案法相比,它的參數(shù)估計值較為精準(zhǔn)。但是有效個案法具有較低的統(tǒng)計功效,且和沒有缺失數(shù)據(jù)的網(wǎng)絡(luò)參數(shù)估計值相比,存在很大的偏差。因此,研究者較少使用有效個案法對社會網(wǎng)絡(luò)中的缺失數(shù)據(jù)進(jìn)行處理。
43重建法
重建法指的是通過互惠關(guān)系來推斷缺失連接的存在與否。重建法和插補(bǔ)法不一樣,重建法在分析的過程中沒有增加新的關(guān)系,它只是通過觀察到的應(yīng)答者的入度關(guān)系(即行動者接收的關(guān)系)來重建網(wǎng)絡(luò)中無應(yīng)答者的出度關(guān)系(即行動者發(fā)出的關(guān)系)。從本質(zhì)上而言,即用已經(jīng)報告的一個關(guān)系進(jìn)行測量,且重建法僅允許兩個人之間的關(guān)系。重建之后的網(wǎng)絡(luò)中應(yīng)答者和無應(yīng)答者之間的關(guān)系是對稱的。使用重建法對SNA中的缺失數(shù)據(jù)進(jìn)行處理時,必須滿足兩個原則: (1)相似性,即應(yīng)答行動者與無應(yīng)答行動者之間的作答模式應(yīng)具有相似性。因為重建法是通過應(yīng)答行動者所描述的關(guān)系去構(gòu)建無應(yīng)答行動者的關(guān)系,所以兩個行動者之間的應(yīng)答模式不能存在系統(tǒng)的偏差;(2)可靠性,即應(yīng)答行動者所描述的和無應(yīng)答行動者之間的關(guān)系要確認(rèn)是有效、可靠的(Stork & Richards, 1992)。自重建法提出以來,不少學(xué)者將其作為社會網(wǎng)絡(luò)缺失數(shù)據(jù)常用的處理方法。Gabbay和Zuckerman(1998)在有向網(wǎng)絡(luò)中,通過應(yīng)答行動者報告的和無應(yīng)答行動者之間的關(guān)系重建了網(wǎng)絡(luò)中行動者之間的關(guān)系。Huisman和Steglich(2008)則用重建法研究了網(wǎng)絡(luò)面板數(shù)據(jù)中的無應(yīng)答缺失數(shù)據(jù)情況,結(jié)果表明重建法在構(gòu)建完整的網(wǎng)絡(luò)數(shù)據(jù)時幾乎不會出現(xiàn)不收斂的問題。
一般而言,針對不同類型的網(wǎng)絡(luò),重建法的程序如下所示:
(1)在無向網(wǎng)絡(luò)中,通過觀察到的應(yīng)答者之間的關(guān)系以及部分應(yīng)答者和無應(yīng)答者之間的關(guān)系對網(wǎng)絡(luò)進(jìn)行重構(gòu)(Stork & Richards, 1992)。
(2)在有向網(wǎng)絡(luò)中,通過對立關(guān)系來推斷缺失關(guān)系。例如,對于應(yīng)答行動者i和無應(yīng)答行動者j,重建法假設(shè)行動者i描述的和行動者j之間的所有關(guān)系和行動者j所描述的關(guān)系是完全一致的,即研究者可以通過應(yīng)答行動者i來插補(bǔ)對立關(guān)系的觀察值,即ximpij=xji(Huisman, 2009)。
重建法最大的優(yōu)點就是允許研究者最大化地利用有效信息去構(gòu)建社會網(wǎng)絡(luò)。有研究表明,當(dāng)社會網(wǎng)絡(luò)中存在缺失數(shù)據(jù)時,僅有437%的關(guān)系能夠被解釋,而使用重建法后,則能夠解釋缺失數(shù)據(jù)網(wǎng)絡(luò)中897%的關(guān)系數(shù)據(jù)(Neal, 2008)。但是,重建法無法構(gòu)建兩個無應(yīng)答行動者之間的關(guān)系。如果兩個無應(yīng)答行動者之間存在重要關(guān)系,研究者就無法使用重建法去正確地定義網(wǎng)絡(luò)的結(jié)構(gòu)。因此,需要用其它的插補(bǔ)方法來重建整個網(wǎng)絡(luò)。例如,對于無應(yīng)答行動者之間的所有關(guān)系,隨機(jī)插補(bǔ)一個和觀察密度成比例的關(guān)系,使重建網(wǎng)絡(luò)中缺失關(guān)系的比例等于網(wǎng)絡(luò)的觀察密度。
44基于指數(shù)隨機(jī)圖模型的多重插補(bǔ)法
指數(shù)隨機(jī)圖模型(Exponential Random Graph Model, ERGM)又稱為p
瘙 ?? 模型,是用來描述x分布情況的概率質(zhì)量函數(shù),其表達(dá)式為:
其中,q是網(wǎng)絡(luò)的實值函數(shù),常以θTz(x)的形式出現(xiàn),z是網(wǎng)絡(luò)的向量值函數(shù),其取值為網(wǎng)絡(luò)統(tǒng)計值。這些統(tǒng)計值也被稱為結(jié)構(gòu)統(tǒng)計值,用來描述網(wǎng)絡(luò)中的結(jié)構(gòu),如連接、三方關(guān)系等的數(shù)量。θ是一個維度為p×1的向量參數(shù)(θ∈Θ),ψ(θ)是一個常數(shù),用于將函數(shù)值標(biāo)準(zhǔn)化(Koskinen, Robins, Wang, & Pattison, 2013)。
ERGM的原理是在綜合了實測網(wǎng)絡(luò)中的多種局部結(jié)構(gòu)特征情況下來計算這些網(wǎng)絡(luò)出現(xiàn)的可能性。具體過程為,首先使用馬爾科夫鏈蒙特卡洛最大似然估計法(Markov Chain Mont Carlo Maximum Likelihood Estimation, MCMCMLE)模擬出一個隨機(jī)網(wǎng)絡(luò),然后將這個隨機(jī)網(wǎng)絡(luò)的參數(shù)與實測網(wǎng)絡(luò)的參數(shù)進(jìn)行對比,最后通過對比指標(biāo)判斷是否采納結(jié)果。Robins(2009)用ERGM方法對有向社會網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行分析時指出,如果模擬的隨機(jī)網(wǎng)絡(luò)不能很好地代表實測網(wǎng)絡(luò),那么參數(shù)將被調(diào)整并運用到下一次模擬中,且這樣的循環(huán)可能至少要進(jìn)行8000次,直到模擬網(wǎng)絡(luò)能夠很好地代表實測網(wǎng)絡(luò)為止。
基于ERGM的多重插補(bǔ)法,指的是通過ERGM產(chǎn)生的多個插補(bǔ)值的向量代替每一個缺失數(shù)據(jù)的過程。例如,當(dāng)網(wǎng)絡(luò)數(shù)據(jù)中存在無應(yīng)答的缺失數(shù)據(jù)時,基于ERGM的多重插補(bǔ)法則會將應(yīng)答行動者和無應(yīng)答行動者看作是兩種不同類型的節(jié)點,然后區(qū)分應(yīng)答者之間的關(guān)系以及應(yīng)答者和無應(yīng)答者之間的關(guān)系。最后,根據(jù)研究者的調(diào)查目的,對缺失數(shù)據(jù)進(jìn)行相應(yīng)的處理。如果無應(yīng)答者是隨機(jī)缺失,則在網(wǎng)絡(luò)特定結(jié)構(gòu)間同質(zhì)性的前提下利用ERGM對缺失數(shù)據(jù)進(jìn)行多重插補(bǔ)。如果無應(yīng)答者是非隨機(jī)缺失,且研究重點關(guān)注應(yīng)答者的網(wǎng)絡(luò)結(jié)構(gòu),則可以將包含無應(yīng)答者相關(guān)關(guān)系的信息看作是外源變量,并使用標(biāo)準(zhǔn)的馬爾科夫圖模型進(jìn)行分析(Koskinen, Robins, Wang, & Pattison, 2013)。
基于ERGM的多重插補(bǔ)法最大的優(yōu)點是,不僅能有效地辨別應(yīng)答者和無應(yīng)答者之間的差異是由系統(tǒng)誤差還是隨機(jī)誤差造成的,還可以在缺失數(shù)據(jù)是隨機(jī)缺失的情況下,最大化地利用觀察到的數(shù)據(jù)信息?;贓RGM的多重插補(bǔ)法從本質(zhì)上而言是通過網(wǎng)絡(luò)的局部結(jié)構(gòu)去推斷整體結(jié)構(gòu)。因此,即使數(shù)據(jù)有較大的缺失概率,只要網(wǎng)絡(luò)有足夠數(shù)量的局部網(wǎng)絡(luò)子結(jié)構(gòu),就能夠通過觀察到的數(shù)據(jù)進(jìn)行有理的推斷。Koskinen,Robins和Pattison(2010)用基于ERGM的多重插補(bǔ)法對一個合作關(guān)系社會網(wǎng)絡(luò)中的缺失數(shù)據(jù)進(jìn)行處理,實證及模擬研究結(jié)果表明,這種基于模型的多重插補(bǔ)法能夠正確地解釋網(wǎng)絡(luò)中80%的關(guān)系數(shù)據(jù)及允許有三分之一數(shù)據(jù)缺失的情況。但是,這種方法最大的缺點是運算過程較復(fù)雜,耗時較長。
5問題與展望
缺失數(shù)據(jù)對社會網(wǎng)絡(luò)數(shù)據(jù)分析造成的消極影響主要體現(xiàn)在以下兩個方面:(1)減少的樣本量大小、行動者及關(guān)系的信息易導(dǎo)致模型和數(shù)據(jù)出現(xiàn)不擬合的情況;(2)缺失數(shù)據(jù)容易造成參數(shù)估計的偏差。例如,Kossinet(2006)和Huisman(2009)的研究發(fā)現(xiàn),缺失數(shù)據(jù)會使社會網(wǎng)絡(luò)數(shù)據(jù)分析的結(jié)果產(chǎn)生偏差,因為缺失數(shù)據(jù)不僅對網(wǎng)絡(luò)結(jié)構(gòu)描述產(chǎn)生消極影響,還會低估行動者之間的關(guān)系強(qiáng)弱和網(wǎng)絡(luò)的聚類系數(shù),容易造成中心性和度數(shù)測量不穩(wěn)定的情況。因此,缺失數(shù)據(jù)是SNA廣泛應(yīng)用面臨的嚴(yán)峻問題。
從表1的四種缺失處理方法的適用條件比較中可看到,缺失數(shù)據(jù)處理方法的選擇和缺失概率、缺失機(jī)制存在較大的關(guān)聯(lián)。進(jìn)一步比較四種方法的優(yōu)缺點可以發(fā)現(xiàn),當(dāng)缺失數(shù)據(jù)是完全隨機(jī)缺失時,四種方法的參數(shù)估計是無偏的。當(dāng)缺失數(shù)據(jù)是非隨機(jī)缺失時,完整個案法和有效個案法雖簡單易行,但容易導(dǎo)致信息的大量流失及具有較低的統(tǒng)計功效和較大的參數(shù)估計偏差。其中,和完整個案法相比,有效個案法在參數(shù)分布估計方面的偏差要略小,因為有效個案法分析的是全體有效樣本的數(shù)據(jù)。但在其它參數(shù)估計方面,兩種方法都出現(xiàn)了較大的偏差(Little & Rubin, 1989)。重建法和基于ERGM的多重插補(bǔ)法在非隨機(jī)缺失的情況下,可以忽略缺失機(jī)制的影響而直接在缺失概率較?。?0~30%)的網(wǎng)絡(luò)中應(yīng)用,兩種方法在參數(shù)估計方面沒有表現(xiàn)出太大的偏差,但是如果網(wǎng)絡(luò)中的缺失概率較大時,兩種方法會受到缺失機(jī)制的影響。
當(dāng)數(shù)據(jù)是隨機(jī)缺失時,重建法具有較好的統(tǒng)計功效,對社會網(wǎng)絡(luò)進(jìn)行描述性分析時,如計算網(wǎng)絡(luò)的平均度數(shù)、互惠性和傳遞性等網(wǎng)絡(luò)統(tǒng)計特征值,即使缺失概率達(dá)到50%,重建法仍然能夠表現(xiàn)良好(Huisman, 2009)。但重建法只能用于特定網(wǎng)絡(luò)的數(shù)據(jù)缺失處理,且在某些情況下會高估連接的數(shù)量。雖然,在社會網(wǎng)絡(luò)中的數(shù)據(jù)缺失概率不大時,重建法和基于ERGM的多重插補(bǔ)法均沒有太大的差異,但是后者能夠利用插補(bǔ)值間的差異來衡量估計結(jié)果中不確定性的大量信息。和重建法一樣,當(dāng)社會網(wǎng)絡(luò)中的缺失數(shù)據(jù)樣本量在中等范圍以下時,基于ERGM的多重插補(bǔ)法具有較小的參數(shù)估計偏差且不會低估標(biāo)準(zhǔn)誤,但這種方法唯一的缺點就是運算過程復(fù)雜,需要做大量的工作來構(gòu)建插補(bǔ)集以便于進(jìn)行結(jié)果分析,且當(dāng)缺失數(shù)據(jù)樣本量大時,模擬網(wǎng)絡(luò)和實測網(wǎng)絡(luò)可能會出現(xiàn)不擬合的情況。
就應(yīng)用現(xiàn)狀而言,國內(nèi)目前還沒有關(guān)于SNA中缺失數(shù)據(jù)的處理方法這方面的研究,而國外的應(yīng)用從2003年至今穩(wěn)定增長(Butts, 2003; Robins et al., 2004; Kossinets, 2006; Gile & Handcock, 2006; Handcock & Gile, 2007; Koskinen, 2007; Smith & Moody, 2013)。
根據(jù)缺失數(shù)據(jù)處理方法的優(yōu)缺點比較和應(yīng)用現(xiàn)狀的分析,對其在心理學(xué)研究中的應(yīng)用提出以下建議:
關(guān)鍵詞:整合數(shù)據(jù)分析;合并數(shù)據(jù);分析策略
中圖分類號:B841.2 文獻(xiàn)標(biāo)識碼:A 文章編號:1003-5184(2012)05-0454-07
1 前言
任何學(xué)科的發(fā)展和完善都是建立在已有研究知識累積的基礎(chǔ)上。在心理學(xué)研究中,可通過量化和質(zhì)化的方法來對某一專題相關(guān)的研究進(jìn)行綜合分析,以達(dá)到研究知識累積的目的,促進(jìn)心理科學(xué)的鞏固和發(fā)展(崔智敏,寧澤逵,2010)。描述性文獻(xiàn)綜述法是綜合分析方法中定性研究方法的主要代表,不僅可對前人研究進(jìn)行回顧性評論,同時也通過比較分析闡述論題研究的創(chuàng)新之處,在心理學(xué)發(fā)展中占有重要的地位。但是描述性綜述分析方法在應(yīng)用過程中沒有統(tǒng)一的標(biāo)準(zhǔn),也沒有對所綜述研究的數(shù)據(jù)進(jìn)行統(tǒng)計分析,結(jié)果具有主觀性,對不同研究的差異性結(jié)果,也不能找出確信的原因。元分析方法則是在傳統(tǒng)描述性文獻(xiàn)綜述局限的基礎(chǔ)上提出來,結(jié)合了描述性文獻(xiàn)綜述和系統(tǒng)的量化統(tǒng)計方法的一種綜合分析方法。
元分析(Mata-analysis)方法最早由Glass(1976)提出,是對某一專題已有的研究進(jìn)行研究的方法。它根據(jù)一套明確的文獻(xiàn)選擇標(biāo)準(zhǔn),就特定研究專題收集大量相關(guān)或相近的研究成果,采用一套系統(tǒng)的統(tǒng)計分析技術(shù)對這些研究的統(tǒng)計結(jié)果進(jìn)行分析,總結(jié)出該論題的主要結(jié)論,是一種量化的綜合分析方法。元分析在心理學(xué)中廣泛應(yīng)用,是促進(jìn)累積心理科學(xué)(Cumulative Psychological Science)建設(shè)的重要方法(Hunter & Schmidt,1996)。但元分析只對研究的統(tǒng)計結(jié)果進(jìn)行再分析,不可避免地丟失許多原始數(shù)據(jù)的信息。隨著社會科學(xué)各領(lǐng)域研究的發(fā)展,研究數(shù)據(jù)共享成為必要,而計算機(jī)技術(shù)的發(fā)展,為數(shù)據(jù)永久存儲、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)共享提供技術(shù)上的支持。若能同時對某專題的多個研究的原始數(shù)據(jù)集進(jìn)行分析,不但可充分利用多個研究數(shù)據(jù)的信息,克服元分析的一些局限,而且對研究結(jié)果有更深的理解,在心理學(xué)研究中有重要作用,因此,有學(xué)者提出了基于原始數(shù)據(jù)集的整合分析方法(Integrative Data Analysis,簡稱IDA)(Curran & Hussong,2009;Cooper & Patall,2009;Park,2004)。本文將對IDA方法的基本概念、原理和分析過程進(jìn)行闡述,分析了IDA方法在心理學(xué)應(yīng)用的優(yōu)勢和挑戰(zhàn),闡述了IDA方法中異質(zhì)性的分析策略,討論IDA方法在心理學(xué)研究中應(yīng)用的現(xiàn)狀和應(yīng)用的前景。2 IDA方法概述
2.1 什么是IDA方法
整合分析(Integrative Data Analysis,IDA),也叫同時數(shù)據(jù)分析(Simultaneous Analysis of Data)、合并數(shù)據(jù)分析(Pooling Data Analysis)、或大型數(shù)據(jù)分析(Maga-analysis),是一類對多個獨立研究的原始數(shù)據(jù)的合并數(shù)據(jù)集(data set)進(jìn)行綜合統(tǒng)計分析的方法(Curran,2009;Curran & Hussong,2009;Hofer & Piccinin,2009)。這種方法的基本思路是,確定進(jìn)行整合分析的主題,收集與該主題相關(guān)具有原始數(shù)據(jù)的研究,把這些研究的原始數(shù)據(jù)合并成一個數(shù)據(jù)集,然后采用一套系統(tǒng)的統(tǒng)計分析策略對數(shù)據(jù)集進(jìn)行綜合分析,對原始的研究結(jié)果進(jìn)行比較或者整合,獲得單個研究所不能得到的信息。
整合數(shù)據(jù)分析方法首先在醫(yī)學(xué)領(lǐng)域有廣泛的應(yīng)用。由于在醫(yī)學(xué)領(lǐng)域通常只能對小樣本進(jìn)行研究,而重復(fù)驗證研究又面臨諸多影響因素,因此,這種分析策略把同一主題的多個獨立的小樣本合并成一個數(shù)據(jù)集進(jìn)行分析,對醫(yī)學(xué)領(lǐng)域的小樣本研究的整合有重要意義(Simmonds & Higgins,2007;Simmonds et al.,2005;Stewart & Tierney,2002)。在臨床醫(yī)學(xué)研究中,把這種方法看成是元分析的一種,命名為“被試層面數(shù)據(jù)(Individual Participant-Level Data,IPD)”的元分析,傳統(tǒng)的元分析方法命名“匯總數(shù)據(jù)”的元分析(aggregated data,AD)的元分析,也叫“樣本層面數(shù)據(jù)(Group Level Data)”的元分析(Stewart & Tierney,2002;Simmonds et al.,2005)。在心理學(xué)研究中,Cooper和Patall(2009)也采用上述定義和命名,認(rèn)為元分析包含IPD元分析和AD元分析。就現(xiàn)有的心理學(xué)領(lǐng)域中相關(guān)的研究文獻(xiàn)來看,大部分研究者傾向于用 “IDA(Integrative Data Analysis)”命名這種對多個獨立原始數(shù)據(jù)合并成的數(shù)據(jù)集進(jìn)行統(tǒng)計分析的方法(Curran & Hussong,2009;Shrout,2009;Curran et al.,2008)。
綜上所述,雖然在方法定位和命名上有所不同,但關(guān)于整合分析的基本思想是一致的,即是把同一主題相關(guān)的多個獨立研究的原始數(shù)據(jù)合并成一個數(shù)據(jù)集,然后采用系統(tǒng)的統(tǒng)計分析策略對這個數(shù)據(jù)集進(jìn)行統(tǒng)計分析,獲得研究知識的綜合累積,促進(jìn)專題研究的發(fā)展。本文將用整合數(shù)據(jù)分析(IDA)來命名這種統(tǒng)計分析方法,把IDA定位為與元分析、描述綜述分析相并列的三種綜合分析方法。
2.2 IDA方法在心理學(xué)研究中應(yīng)用的優(yōu)越性
IDA方法充分利用已有的數(shù)據(jù)資料,對多個研究進(jìn)行整合分析,可對原有的研究進(jìn)行整合或比較,解決單一研究不能解決的問題,在心理學(xué)研究應(yīng)用中表現(xiàn)出許多優(yōu)越性(Curran & Husson,2009;Cooper & Patall,2009;Simmonds et al.,2005)。
2.2.1 重復(fù)驗證研究假設(shè)
IDA方法通過建構(gòu)不同研究的異質(zhì)性(Heterogeneity)對結(jié)果的影響模型來對多個獨立研究的原始數(shù)據(jù)進(jìn)行再分析,為檢驗原始研究的結(jié)果是否可復(fù)制提供直接的檢驗方法。當(dāng)這些原始研究的結(jié)果存在沖突時,關(guān)于研究間異質(zhì)性的模型可對各獨立研究在抽樣、測量方法等方面的異質(zhì)性進(jìn)行等價性分析,確定不同研究的異質(zhì)性對研究結(jié)果差異的影響情況,一方面可嘗試調(diào)和不同研究結(jié)果的沖突,另一方面,也可通過綜合分析驗證新的研究假設(shè)。由此可見,即使不建立新的研究設(shè)計,IDA方法不但可以對原始研究的假設(shè)進(jìn)行驗證,對不同研究間沖突的結(jié)果進(jìn)行調(diào)和或分析原因,也可驗證原始研究中沒有出現(xiàn)的新假設(shè),減少創(chuàng)建新研究的必要。
2.2.2 增加行為的基數(shù),提高統(tǒng)計功效
在心理學(xué)應(yīng)用研究中,許多研究結(jié)果常存在統(tǒng)計功效不足的情況,其中一個重要的原因是樣本量不足。而IDA方法把多個獨立研究的數(shù)據(jù)合并成大樣本進(jìn)行分析,使低基數(shù)率的行為的絕對基數(shù)增加(如某一個行為有5%的樣本量,合并數(shù)據(jù)后,可能比例保持不變,但這種行為的總體絕對數(shù)量增多),提高模型估計的穩(wěn)定性,在一定程度上改進(jìn)和提高統(tǒng)計檢驗功效,使一些相對較弱的效應(yīng)也顯現(xiàn)出來,從而提高了結(jié)論的論證強(qiáng)度和效應(yīng)的評估力度。
2.2.3 增加樣本的異質(zhì)性,提高研究的外在效度
由于各種原因,心理學(xué)的許多研究采用隨機(jī)抽樣或者方便抽樣等方法進(jìn)行,這就導(dǎo)致了所要研究的樣本中重要的子群體人數(shù)的不足,影響研究質(zhì)量,使不同研究的結(jié)果存在分歧。IDA方法則匯聚了多個研究的樣本,增大了研究中重要子群體的人數(shù),增大樣本的異質(zhì)性,并在合并數(shù)據(jù)集中直接分析研究間的異質(zhì)性對研究結(jié)果的影響,揭示單個研究中的不確定性。同時采取特定的方法嘗試調(diào)整或控制這些差異,減小異質(zhì)性對研究結(jié)果的影響,提高IDA研究的外部效度。
2.2.4 構(gòu)建廣泛的心理評估,提高對心理結(jié)構(gòu)的評估力
心理學(xué)研究中,研究者通常根據(jù)年齡、性別和種族等特征選擇心理測評工具對特定的心理結(jié)構(gòu)進(jìn)行評估,因此,不同研究常采用不同的測量工具來評估同一心理結(jié)構(gòu),單個研究采用單一的測量,獲得對心理結(jié)構(gòu)的相對單一的理解。而IDA則把多個獨立的研究進(jìn)行合并,運用合適的模型對這些研究中采用的不同的測量工具進(jìn)行協(xié)調(diào)分析和等值處理,把這些不同的測量工具等值到相同的量尺上,然后進(jìn)行綜合分析,這就使心理結(jié)構(gòu)的測量和評估更加廣泛、嚴(yán)謹(jǐn),加強(qiáng)和提高對心理結(jié)構(gòu)的評估性能,提高研究的結(jié)構(gòu)效度。
2.2.5 擴(kuò)展發(fā)展研究的時間段
在心理研究中,不同研究的時間有所不同,且研究的時間跨度有限制,即使是縱向研究中,追蹤研究的時間跨度也因各種原因受到限制。IDA可綜合分析不同研究時間差異性對研究結(jié)果的影響,擴(kuò)展研究的時間段,不但在橫斷研究中有明顯優(yōu)勢,在縱向研究中尤為突出。在縱向研究中,IDA采用特定的模型和統(tǒng)計方法同時對多個縱向研究進(jìn)行整合分析,可擴(kuò)展心理發(fā)展軌跡研究的時間段,提高縱向研究的效率和速度。如,A研究的被試年齡范圍是2~24歲,B研究的被試年齡是10~34歲,C研究對象的年齡是17~40歲,則IDA可建構(gòu)縱貫2~40歲被試的心理發(fā)展軌跡。
另外,IDA同時對多個研究的數(shù)據(jù)集進(jìn)行綜合分析,促進(jìn)心理學(xué)研究知識的累積應(yīng)用,滿足實現(xiàn)數(shù)據(jù)資源共享和資源最大化利用的需要。
3 IDA方法對異質(zhì)性的分析策略
由于不同研究在研究設(shè)計、抽樣方法、測量工具、研究時間等方面的異質(zhì)性,使IDA過程不能對數(shù)據(jù)簡單合并后進(jìn)行分析,而要采用特定的統(tǒng)計分析方法對異質(zhì)性進(jìn)行分析(Curran & Husson,2009;Cooper & Patall,2009),這是IDA過程中必須解決的核心問題。
3.1 IDA方法對異質(zhì)性分析的一般策略
根據(jù)對合并數(shù)據(jù)集的定義不同,可分為隨機(jī)效應(yīng)的IDA和固定效應(yīng)的IDA。
3.1.1 隨機(jī)效應(yīng)IDA
隨機(jī)效應(yīng)(Random-effect)的IDA采用隨機(jī)抽樣的思想,把IDA的對象看成由兩層抽樣而來,一是研究層面(Study-level)的抽樣,每個研究是從一個大的研究總體中隨機(jī)抽取的研究層面的樣本;第二層是被試層面的抽樣,單個研究的樣本則是從該研究假設(shè)的總體中隨機(jī)抽取而來,即隨機(jī)樣本的樣本(Random Sample of Random Samples),這兩層抽樣產(chǎn)生了由研究抽樣所產(chǎn)生的變異和由被試抽樣所產(chǎn)生的變異。這種定義類似于階層模型的嵌套思想,因此,可采用階層模型對數(shù)據(jù)集進(jìn)行分析。隨機(jī)效應(yīng)IDA最大的優(yōu)點是引入研究層面的預(yù)測變量以對研究之間的變異進(jìn)行建模,把研究變異分解為被試水平效應(yīng)、研究水平效應(yīng)以及被試水平與研究水平的交互作用(Bauer & Curran,2005;Raghunathan et al.,2003),并在分析過程中同時估計這三種效應(yīng)。
隨機(jī)效應(yīng)IDA的運用有兩個重要的條件:一是要將這些研究的數(shù)據(jù)集看作是從一個同質(zhì)的數(shù)據(jù)集總體中隨機(jī)抽??;二是必須有足夠的研究樣本,才足以對研究之間和研究內(nèi)的變異進(jìn)行可靠測量。若是以上條件難以滿足,則需考慮固定效應(yīng)IDA策略。
3.1.2 固定效應(yīng)IDA
固定效應(yīng)(Fixed effects)IDA中,把各研究成員屬性(Study membership)看作是嵌套于研究中的被試的固定特征(Fixed characteristics),采用某種編碼方式(如虛擬編碼、效應(yīng)編碼)描述這些固定特征(如對被試的性別、種族等變量進(jìn)行編碼),這些虛擬或效應(yīng)編碼變量將作為預(yù)測變量直接進(jìn)入模型進(jìn)行分析。固定效應(yīng)IDA的主要優(yōu)點是可以估計被試特點(性別、種族)和研究群組屬性(Study Group Membership)之間的交互作用,即允許不同研究下被試特征對結(jié)果的不同影響。另外,一旦研究成員變量納入模型,研究層面的特征變量則無法再納入模型,這就使研究層面的差異得到控制,排除了研究間過多的潛在變異的影響,固定效應(yīng)的IDA把研究層面的變異排除于模型之外,這既是固定效應(yīng)IDA的優(yōu)點,也是它的限制(Curran & Husson,2009;Bauer & Curran,2005)。
隨機(jī)效應(yīng)IDA和固定效應(yīng)IDA的主要區(qū)別在于:(1)隨機(jī)效應(yīng)IDA假設(shè)被試樣本來自同一總體,可以基于一個無限樣本總體進(jìn)行推斷;而固定效應(yīng)IDA則假定被試樣本是固定且可知的,因此推斷只針對所研究的樣本,這更符合心理學(xué)研究中的實際。(2)隨機(jī)效應(yīng)IDA可以分解出研究層面效應(yīng)、被試層面效應(yīng)和這兩個水平之間的交互作用;而固定效應(yīng)IDA排除了研究層面的效應(yīng),只估計了被試水平的差異。由于隨機(jī)效應(yīng)的條件常難以滿足,因此固定效應(yīng)IDA在實踐中更常用(Hussong,Cai,et al.,2008;Hussong,F(xiàn)lora,et al.,2008;Hussong et al.,2007)。
3.2 IDA研究中主要異質(zhì)性的具體分析策略
不同研究之間在抽樣、時間和測量方法上的差異使IDA分析過程變得復(fù)雜,但也為對這些研究進(jìn)行綜合分析和比較研究提供機(jī)會。從綜合分析目標(biāo)出發(fā),需要對這些研究間的異質(zhì)性進(jìn)行控制,提高研究的外在效度;從研究比較目標(biāo)出發(fā),需要對這些異質(zhì)性進(jìn)行操縱,分析研究間異質(zhì)性對研究結(jié)果的影響(Curran & Husson,2009;Simmonds & Higgins,2007)。
3.2.1 抽樣、地域異質(zhì)性及分析策略
抽樣問題在心理學(xué)研究的各個領(lǐng)域都很重要,而在IDA研究中尤其重要。IDA可對合并數(shù)據(jù)的抽樣異質(zhì)性進(jìn)行直接的分析,考察和評估研究樣本之間潛在的差異,然后盡量協(xié)調(diào)這些差異,分析這些差異對研究結(jié)果的影響程度。IDA中對抽樣導(dǎo)致的差異問題的處理過程中,首先明確每個研究的抽樣方法是概率抽樣還是非概率抽樣,然后將這些信息將直接進(jìn)入特定的分析模型。地域差異和抽樣變量通常難以區(qū)分,獨立考慮地域異質(zhì)性時,需進(jìn)一步考慮民族、犯罪率、社會保障等特定因素,而不是一般因素的分析。但I(xiàn)DA方法通常把抽樣異質(zhì)性與地域異質(zhì)性結(jié)合在一起分析,根據(jù)對數(shù)據(jù)集的不同定義而選擇隨機(jī)效應(yīng)IDA或者固定效應(yīng)IDA。3.2.2 歷史時間異質(zhì)性及分析策略
歷史時間異質(zhì)性主要考察各研究在時間上的差異。在橫斷(Cross-Sectional)研究數(shù)據(jù)的IDA中,可直接比較研究之間施測時間的差異來考察歷史異質(zhì)性對研究結(jié)果的影響,采用上述的固定效應(yīng)IDA方法或隨機(jī)效應(yīng)的IDA方法進(jìn)行分析。
而縱向研究IDA的時間異質(zhì)性分析不但要考慮發(fā)展趨勢的差異,也要考慮施測時間、出生年代(Cohort),生理年齡對個體發(fā)展趨勢的影響。通常采用固定效應(yīng)的IDA進(jìn)行分析,對被試出生年代進(jìn)行虛擬編碼,并作為預(yù)測變量進(jìn)入分析模型,綜合分析個體心理特征隨時間發(fā)展的特點,并建立每個年代的成長軌跡,或者判斷是否需要針對各出生年代建立成長軌跡。在這模型中,可直接分析被試出生年代和研究(Cohort×Study)的交互作用,以便在研究其他重要預(yù)測變量前控制這種交互作用。若合并數(shù)據(jù)中的被試的出生年代的數(shù)量足夠多,則可以將之看作連續(xù)變量,把出生年代作為模型中一個連續(xù)型預(yù)測變量,同時估計出生年代相關(guān)(Cohort-related)和年齡相關(guān)(Age-related)的發(fā)展變化。若數(shù)據(jù)充分,則可估計這兩個時間維度交互作用,及與研究群組的交互作用。
3.2.3 測量工具的異質(zhì)性及其分析策略
測量工具的異質(zhì)性分析是IDA研究中面臨的最大挑戰(zhàn),直接影響到IDA的信度和效度。由于不同研究的研究者常采用不完全一致的測量工具來對同一種心理結(jié)構(gòu)進(jìn)行測量,這就使IDA的分析過程面臨測量的恒等性(Measurement Invariance)和測量的可比性(Measurement Comparability)問題。對于共同的項目,在IDA研究中需檢驗測量恒等性,而對于不同的項目則需檢驗其測量的可比性。
測量恒等性是指一組項目在不同的群組或時間下可靠并有效地測量同一個潛在結(jié)構(gòu)的程度(Rusticus,Hubley,& Zumbo,2008;Pentz & Chou,1994)。在IDA中測量恒等性主要指同一組項目在不同研究出現(xiàn)時,研究之間的恒定性,通常可采用因素分析對研究間共同項目進(jìn)行因素分析,來檢驗恒等性情況。測量可比性在單一研究中少見,多出現(xiàn)在教育測量中,而在IDA研究中,測量的可比性是當(dāng)不同研究中采用不同的量表來測量同一種心理結(jié)構(gòu)時,各自測的是否是同一個對象。對于同一結(jié)構(gòu)的不同測量項目,常采用IRT(item Response Theory)進(jìn)行測驗的等價性分析(Measurement Equivalence)(Curran et al.,2008,2009),建立不同測量方法的可比性??梢?,IDA過程中,測量異質(zhì)性分析主要包含了測量的恒等性分析和測量的可比性分析。測量異質(zhì)性處理的目標(biāo)是找出一個共同的度量標(biāo)準(zhǔn)(Common Metric),使測量同一結(jié)構(gòu)的不同測量都可以放到這個“共同度量標(biāo)準(zhǔn)”上進(jìn)行評估。
Curran和Hussong等人(2008)系統(tǒng)描述了IRT方法在建立共同度量中的運用步驟。第一步,找出研究之間共同的測驗項目——錨題(Anchor Items),這些題目是在研究間有重疊的項目,并采用探索性因素分析檢驗單維性。第二步,根據(jù)數(shù)據(jù)類型選擇統(tǒng)計模型對數(shù)據(jù)進(jìn)行擬合,估計這些項目的參數(shù),根據(jù)變量的不同類型可選用不同的統(tǒng)計模型,一般采用驗證性因素分析(CFA)對等距數(shù)據(jù)進(jìn)行擬合;采用非線性因素分析(NLFA)和二參數(shù)的IRT模型對非等距變量、二分變量數(shù)據(jù)進(jìn)行擬合(Curran et al.,2008,2009);采用調(diào)節(jié)非線性因素分析(Moderated Nonlinear Factor Analysis,MNLFA)對包含了連續(xù)變量和二分變量的數(shù)據(jù)進(jìn)行擬合(Bauer & Hussong,2009)。第三步,評估項目的恒等性,進(jìn)行項目功能差異(Differential Item Functioning)分析,如在CFA中采用多組因素分析,在IRT框架下進(jìn)行項目功能差異分析(Bauer & Hussong,2009)。第四步,計算被試的項目分?jǐn)?shù),用于進(jìn)一步的統(tǒng)計分析。
4 IDA方法在心理學(xué)應(yīng)用的研究現(xiàn)狀
整合分析的思想在心理學(xué)研究中也早有出現(xiàn)(Bell,1953;Schaie,1965)。Bell(1953)最早提出的聚合設(shè)計(Convergence Design)研究中,就討論到如何把不同年齡組的多個測量時間點連接和整合成一個連續(xù)的發(fā)展軌跡。但作為一種統(tǒng)計分析策略,IDA在心理學(xué)中的應(yīng)用是近年才發(fā)展起來,目前處于探索和嘗試應(yīng)用階段。相關(guān)的研究主要集中在對IDA方法在心理學(xué)中的應(yīng)用原理、方法的優(yōu)缺點、方法的應(yīng)用前景、及一些爭議性問題的討論,特別是IDA過程中的測量問題、縱向研究數(shù)據(jù)的整合分析策略的探討。 在關(guān)于IDA的原理和分析方法方面,Curran和Cooper等人(2009)對IDA的主要思想、基本原理進(jìn)行闡述,分析了IDA在心理學(xué)研究中優(yōu)越性和面臨的挑戰(zhàn),并提出異質(zhì)性分析的一般策略。其中Cooper和Patall(2009)對IDA方法與元分析方法進(jìn)行系統(tǒng)比較分析,認(rèn)為IDA不是對元分析的取代,而是對元分析的補(bǔ)充,相比之下,雖然IDA比元分析在人力和時間等方面的花費更大,但I(xiàn)DA可同時分析研究內(nèi)(Within-study)和研究間(Between-study)的效應(yīng),并且,當(dāng)條件滿足IDA和元分析時,IDA的價值會更大。
IDA研究中,測量問題深受研究者關(guān)注,并提出多種方法來處理IDA過程中的測量異質(zhì)性問題。根據(jù)測量變量的類型(連續(xù)變量或二分變量)提出采用比例分?jǐn)?shù)模型(Proportion Score Model)、兩參數(shù)的IRT模型、CFA模型、非線性因素分析模型(NLFA)對測量同一結(jié)構(gòu)的不同測量進(jìn)行“等值分析”,建立一致的度量標(biāo)準(zhǔn)(Curran et al.,2008;Bauer & Hussong,2009)。其中Curran和Hussong等人(2008)對IRT模型在IDA過程中的應(yīng)用原理進(jìn)行系統(tǒng)的闡述,并把IRT方法用于多個獨立縱向研究數(shù)據(jù)的整合分析中。Bauer和Hussong等人(2009)對IDA研究中的測量的合并問題進(jìn)行探討,在綜述傳統(tǒng)的CFA、IRT方法的對測量異質(zhì)性的分析的步驟、過程、優(yōu)缺點的基礎(chǔ)上,提出MNLFA模型,認(rèn)為在IDA過程中,當(dāng)多個研究中的測量的變量類型既有連續(xù)變量又有二分變量,MNLFA 模型可以有效地處理不同研究間測量的異質(zhì)性問題。
在IDA的應(yīng)用研究方面,主要表現(xiàn)在對多個縱向研究數(shù)據(jù)進(jìn)行整合分析中的應(yīng)用。如Curran等人(2008)先后闡述了IRT方法和潛增長曲線模型(Latent Growth Curve Model)對三個關(guān)于內(nèi)化癥狀(Internalizing Symptomatology)的縱向研究數(shù)據(jù)進(jìn)行整合分析,先采用IRT模型進(jìn)行項目的參數(shù)估計、項目功能差異分析和被試分?jǐn)?shù)估計,再采用潛增長曲線模型對合并數(shù)據(jù)進(jìn)行分析,獲得對個體內(nèi)在癥狀從10歲到33歲的發(fā)展趨勢特點。McArdle等人(2009)在對這種兩階段方法(Two-stage method)闡述的基礎(chǔ)上,提出在一個聯(lián)合模型中同時估計IRT模型和潛增長曲線模型參數(shù)的一段段方法,并用于對三個關(guān)于認(rèn)知發(fā)展的縱向研究數(shù)據(jù)的整合分析,強(qiáng)調(diào)一階段分析方法的優(yōu)勢。Hofer和Piccinin(2009)提出一種基于建立數(shù)據(jù)共享網(wǎng)絡(luò)和合作協(xié)議的IDA分析框架,對多個縱向研究數(shù)據(jù)進(jìn)行分析。
Shrout(2009)對IDA應(yīng)用中的一些關(guān)鍵問題,如測量問題、研究價值問題、模型的擬合問題等進(jìn)行討論,并對IDA的應(yīng)用提出建議;Curran和Hussong等人在IDA方法及其應(yīng)用研究上多有成果(Curran et al.,2008;Curran,2009;Hussong et al.,2007;Hussong,Bauer,et al.,2008;Hussong,Cai,et al.,2008;Hussong,F(xiàn)lora,et al.,2008)。
5 IDA方法應(yīng)用前景和挑戰(zhàn)
5.1 應(yīng)用前景
IDA在心理學(xué)應(yīng)用是心理學(xué)發(fā)展的需要,在心理學(xué)研究中有深遠(yuǎn)的應(yīng)用前景。
首先,IDA方法在發(fā)展心理學(xué)研究中的應(yīng)用前景。追蹤研究設(shè)計是發(fā)展心理學(xué)中研究個體發(fā)展規(guī)律的重要方法。追蹤研究由于研究設(shè)計本身的特征,元分析方法在追蹤研究中的應(yīng)用受到限制,由于長期追蹤研究的代價大,難以對一個樣本進(jìn)行終生追蹤。IDA方法不但可對研究和測量的時間變異進(jìn)行處理,而且可通過整合數(shù)據(jù)分析使研究的時間跨度增加,這就使個體心理終生發(fā)展軌跡研究成為可能。目前McArdle等人(2009)對IDA在合并追蹤數(shù)據(jù)集中的應(yīng)用進(jìn)行了理論探索和實踐研究。IDA在追蹤研究中應(yīng)用涉及到更復(fù)雜的統(tǒng)計分析過程,需要進(jìn)一步的研究。
其次,在實驗研究中的應(yīng)用前景。心理實驗研究中,大部分研究的被試樣本相對較小,同時,即使是同一主題的研究,由于研究設(shè)計、實驗操縱過程等的差異,使得這些研究的結(jié)果相沖突,若要調(diào)節(jié)或驗證這些研究結(jié)果,則需要重新設(shè)計大型的完全隨機(jī)抽樣實驗進(jìn)行重復(fù)研究,這就可能花費大量的人力、物力。而IDA則為解決小樣本問題和協(xié)調(diào)沖突結(jié)果問題提出一種研究思路。采用IDA方法對同一主題的多個實驗研究進(jìn)行整合分析,可增大樣本,在一定程度上提高統(tǒng)計效應(yīng);同時通過整合分析,協(xié)調(diào)這些沖突研究成果,驗證新的假設(shè)。
最后,當(dāng)某專題的調(diào)查研究承載理論爭論或者研究結(jié)果的沖突時,也可進(jìn)行IDA研究,一方面驗證理論和協(xié)調(diào)研究沖突,另一方面促進(jìn)研究成果的積累。由于IDA對異質(zhì)性的直接建模上和解釋上的優(yōu)勢,跨文化的研究也是IDA可發(fā)揮優(yōu)勢的重要領(lǐng)域。
5.2 面臨的挑戰(zhàn)
IDA在心理學(xué)有廣闊的應(yīng)用前景,但在推廣應(yīng)用及研究中也面臨一些挑戰(zhàn)。
首先,IDA研究主題的確定和價值問題,雖說選什么樣的主題進(jìn)行IDA分析是研究者的興趣所在,但在應(yīng)用中,并不是所有的研究都有必要進(jìn)行IDA研究,而要考慮研究本身的特征,及進(jìn)行IDA研究的可能性、必要性和價值性。一般認(rèn)為,當(dāng)主題的一些相關(guān)研究承載著理論問題或者研究結(jié)果存在差異,且可獲得原始數(shù)據(jù),為了進(jìn)一步綜合解釋這些差異或比較這些研究,可進(jìn)行IDA研究(Curran & Husson,2009;Cooper & Patall,2009;Stewart & Tierney,2002)。但,對于某一主題,是否要進(jìn)行IDA研究,若要進(jìn)行IDA研究,研究結(jié)果能在多大程度上比原來的單一研究更有價值?另外,IDA應(yīng)用的限制和條件還需要進(jìn)一步探索,否則,IDA應(yīng)用不當(dāng),必然導(dǎo)致錯誤的結(jié)果(Simmonds & Higgins,2007;Simmonds et al.,2005)。其次,IDA研究中統(tǒng)計分析策略上所面臨的挑戰(zhàn),這是IDA過程中面臨的最大的挑戰(zhàn)。IDA應(yīng)用過程中關(guān)鍵點是對研究之間的異質(zhì)性進(jìn)行處理,其中,最突出的是測量方法的異質(zhì)性分析。在現(xiàn)有的研究中,已對這些問題作了探索,提出了異質(zhì)性分析的一般策略,特別是在測量問題上,根據(jù)量表類型的不同提出了不同的理論模型來整合研究間不同的測量方法(Bauer & Hussong,2009)。但是這些方法的操作過程較為復(fù)雜,阻礙了IDA的推廣應(yīng)用,因此,需要進(jìn)一步探索和規(guī)范IDA中的統(tǒng)計分析方法。
第三,數(shù)據(jù)獲取和共享的問題。雖然計算機(jī)的發(fā)展使數(shù)據(jù)永久保存、恢復(fù)和轉(zhuǎn)換成為可能,數(shù)據(jù)共享的技術(shù)障礙消失,國際心理學(xué)界也呼吁心理學(xué)研究數(shù)據(jù)的共享,但來自人為的障礙仍然存在。即使數(shù)據(jù)可共享,也面臨一些問題:若研究者可自由獲得他人研究的原始數(shù)據(jù),則可能違背了科學(xué)研究的道德規(guī)則;被試愿意參加原始的研究,但是未必愿意參加第二次的研究;另外,IDA結(jié)果的著作權(quán)問題也是還未解決的(Cooper & Patall,2009;Shrout,2009)。因此,在IDA應(yīng)用中,關(guān)于數(shù)據(jù)共享的鼓勵措施、數(shù)據(jù)共享過程中的安全問題、倫理問題、研究結(jié)果版權(quán)問題等都需進(jìn)一步規(guī)范。
6 小結(jié)
IDA方法在心理學(xué)領(lǐng)域的應(yīng)用的研究處于嘗試階段,并初步顯示了這種分析方法的優(yōu)越性。同時,我們要明確,不是所有條件下IDA都適用,由于IDA研究代價較大(時間、經(jīng)濟(jì)、人力),分析過程復(fù)雜,數(shù)據(jù)共享困難的限制等,在進(jìn)行IDA研究之前必須要考慮到各種問題,明確IDA應(yīng)用的限制條件,正確開展IDA研究。雖然對于IDA的研究結(jié)果的價值、分析方法選擇等方面存在諸多爭議,但無疑,在心理學(xué)研究的一些領(lǐng)域中,如發(fā)展心理的縱向研究、跨文化研究,IDA是一種非常有用的方法。隨著心理學(xué)研究數(shù)據(jù)共享的論題得到越來越多的關(guān)注,IDA方法的研究和應(yīng)用也逐漸受到關(guān)注。
參考文獻(xiàn)
崔智敏,寧澤逵.(2010).定量化文獻(xiàn)綜述方法與元分析.統(tǒng)計與決策,19,166-168.
Bauer,D.J.,& Curran,P.J.(2005).Probing interactions in fixed and multilevel regression:Inferential and graphicaltechniques.Multivariate Behavioral Research,40,373-400.
Bauer,D.J.,& Hussong,A.M.(2009).Psychometric approaches for developing commensurate measures across independent studies:Traditional and new models.Psychological Methods,14,101-125.
Bell,R.Q.(1953).Convergence:An accelerated longitudinal approach.Child Develpment,,145-152.
Cooper,H.,& Patall,E.A.(2009).The relative benefits of me-ta analysis conducted with individual participant data versus aggregated data.Psychological Methods,14,165-176.
Curran,P.J.,& Hussong,A.M.(2009).Integrative data analysis:The simultaneous analysis of multiple data sets.Psychological Methods,14,81-100.
Curran,P.J.,Andrea,M.H.,Li,C.,Wenjing,H.,Laurie,C.,Kenneth,J.S.,& Robert,A.Z.(2008).Pooling Data From Multiple Longitudinal Studies:The Role of Item Response Theory in Integrative Data Analysis.Developmental Psychology,(2),365-380.
Curran,P.J.(2009).The Seemingly Quixotic Pursuit of a Cumulative Psychological Science:Introduction to the Special Issue.Psychological Methods,14(2),77-80.
Glass,G.V.(1976).Primary,secondary,and meta-analysis.Educational Researcher,,3-8. Hofer,S.M.,& Piccinin,A.M.(2009).Integrative data analysis through coordination of measurement and analysis protocol across independent longitudinal studies.Psychological Methods, 14,150-164.
Hunter,J.E.,& Schmidt,F(xiàn).L.(1996).Cumulative research special issue:Introduction knowledge and social policy formulation:The critical role of meta-analysis.Psychology,Public Policy,and Law, 2,324-347.
Hussong,A.M.,Bauer,D.J.,Huang,W.,Chassin,L.,Sher,K.J.,& Zucker,R.A.(2008).Characterizing the life stressors of children of alcoholic parents.Journal of Family Psychology, 22,819-832. Hussong,A.M.,Wirth,R.J.,Edwards,M.C.,Curran,P.J.,Chassin,L.A.,& Zucker,R.A.(2007).Externalizing symptoms among children of alcoholic parents:Entry points for an antisocial pathway to alcoholism.Journal of Abnormal Psychology, 116,529-542.
Hussong,A.M.,Cai,L.,Curran,P.J.,F(xiàn)lora,D.B.,Chassin,L.A.,& Zucker,R.A.(2008).Disaggregating the distal,proximal,and time-varying effects of parent alcoholism on children’s internalizing symptoms.Journal of Abnormal Child Psychology,,335-346.
Hussong,A.M.,F(xiàn)lora,D.B.,Curran,P.J.,Chassin,L.A.,& Zucker,R.A.(2008).Defining risk heterogeneity for internalizing symptoms among children of alcoholic parents:A prospective cross-study analysis.Development and Psychopathology, 20,165-193.
McArdle,J.J.,Grimm,K.J.,Hamagami,F(xiàn).,Bowles,R.P.,& Meredith,W.(2009).Modeling life span growth curves of cognition using longitudinal data with multiple samples and changing scales of measurement.Psychological Methods, 14,126-149.
Park,C.L.(2004).What is the value of replicating other studies?Research Evaluation,13,189-195.
Pentz,M.A.,& Chou,C.P.(1994).Measurement invariance in longitudinal clinical research assuming change from development and intervention.Journal of Consulting and Clinical Psychology,62,450-462.
Raghunathan,Trivellore,E.,Diehr,Paula,K.,Cheadle,& Allen,D.(2003).Combining aggregate and individual level data to estimate an individual level correlation coefficient.Journal of Educational and Behavioral Statistics,28,1-19.
Rusticus,S.A.,Hubley,A.M.,& Zumbo,B.D.(2008).Measurement invariance of the Appearance Schemas Inventory-Revised and the Body Image Quality of Life Inventory across age and gender. Assessment, 15,60-71.
Schaie,K.(1965).A general model for the study of developmental problems.Psychological Bulletin, 64,92-107.
Shrout,P.E.(2009).Short and long views of integrative data analysis:Comments on contributions to the special issue.Psychological Methods, 14,177-181.
Stewart,L.A.,& Tierney,J.F.(2002).To IPD or not to IPD?Advantages and disadvantages of systematic reviews using individual patient data.Evaluation & the Health Professions,25(1),76-97.
Simmonds,M.C.,& Higgins,J.P.T.(2007).Covariate heterogeneity in meta-analysis:Criteria for deciding between meta regression and individual patient data.Statistics in Medicine, 26,2982-2999.
Simmonds,M.C.,Higgins,J.P.T.,Stewart,L.A.,Tierney,J.F.,Clarke,M.J.,& Thompson,S.G.(2005).Meta-analysis of individual patient data from randomized trials:A review of methods used in practice.Clinical Trials, 2,209-217.
The Application of Integrative Data Analysis in Psychological Research
Tang Wenqing Zhang Minqiang Wang Litian
(Psychological Application Research Center,South China Normal University,Guangzhou 510631)
關(guān)鍵詞:土工試驗數(shù)據(jù);3 法則;Bayes方法
土工試驗結(jié)果的可靠程度會直接影響巖土工程設(shè)計的精度與施工方案的選取,可靠的實驗結(jié)果,可使巖土工程設(shè)計和施工方案經(jīng)濟(jì)合理;歪曲事實的實驗結(jié)果,可能導(dǎo)致不良的后果,要么使設(shè)計過于保守,要么遺留安全隱患.
影響土工試驗數(shù)據(jù)可靠性的因素包括土樣本身的因素和實驗因素兩個方面.
土樣因素取決于土體本身的復(fù)雜性,即使同一區(qū)域的同種性質(zhì)的土體,可能由于其含水量的不同或者粘粒含量的個體差異,導(dǎo)致其物理力學(xué)性質(zhì)不同;另外,同一種土的原狀土和重塑土的物理力學(xué)性質(zhì)指標(biāo)也存在差異性;原狀土在采樣、運輸和儲存、制備樣品的過程中,受到的擾動程度同樣會對土體的物理力學(xué)性質(zhì)產(chǎn)生影響,所有這些因素都會影響土工試驗數(shù)據(jù)的可靠程度.由此引起的實驗數(shù)據(jù)的誤差,是由于土體本身的變異性引起的誤差.
實驗因素引起的誤差包括以下幾種:
1)系統(tǒng)誤差:由于測量工具(或測量儀器)本身固有誤差、測量原理或測量方法的缺陷、實驗操作及實驗人員本身心理生理條件的制約而帶來的測量誤差.
2)隨機(jī)誤差:偶然的、無法預(yù)測的不易控制的不確定因素干擾而產(chǎn)生測量誤差,這種誤差稱為隨機(jī)誤差.
3)過失誤差:明顯歪曲實際事實的誤差.
根據(jù)抽樣理論,要使一組樣本得到的試驗結(jié)果有意義,必須滿足兩個主要條件:①從土樣中取出的試驗樣本必須具有代表性且符合調(diào)查目的的需要.②試驗樣本數(shù)量必須充分.依照以上兩個條件,土工試驗數(shù)據(jù)的整理應(yīng)包括三個方面的內(nèi)容:一是總體實驗數(shù)據(jù)的檢查以及異常數(shù)據(jù)的分析和舍棄處理;二是最小樣本數(shù)問題;三是與土體性質(zhì)指標(biāo)的自相關(guān)性有關(guān)的問題.
一 總體實驗數(shù)據(jù)的檢查,以及異常數(shù)據(jù)的分析和舍棄處理
土工試驗數(shù)據(jù)一般是對于某一土體的物理性質(zhì)或力學(xué)性質(zhì)的測定結(jié)果,如果土體本身的變異性不甚明顯,那么試驗結(jié)果應(yīng)該在真值附近一定范圍內(nèi)上下波動.在實驗數(shù)據(jù)整理過程中,首先應(yīng)根據(jù)經(jīng)驗和統(tǒng)計原則消除系統(tǒng)誤差或過失誤差,以免影響計算結(jié)果的準(zhǔn)確度.一般可以依據(jù)下面的原則對試驗數(shù)據(jù)進(jìn)行檢查、修正和剔除異常點.
1.1 根據(jù)土的物理力學(xué)特性可判出的明顯不合理點
在一組實驗數(shù)據(jù)中,如果存在明顯不符合土的物理力學(xué)性質(zhì)的值的范圍的點,通過觀察,可以找出這一類異常點,并予以舍棄.如果一組實驗數(shù)據(jù)大部分在某個值域范圍內(nèi)波動,但有一點或幾點與該值域相差懸殊,我們可以認(rèn)為這些點是異常點,這類點可以剔除.
1.2 根據(jù)某一置信水平找出確定范圍以外的異常點
1.2.1 實驗數(shù)據(jù)較多情況下的數(shù)據(jù)取舍原則――3法則
根據(jù)概率論原理的3法則,在試驗數(shù)據(jù)中,出現(xiàn)在[m - 3 ,m+3]之外的數(shù)據(jù)點的概率只有0.27 %,
我們可以把大于m+3 和小于m -3 的試驗數(shù)據(jù)作為異常點處理.應(yīng)注意用3 法則進(jìn)行試驗數(shù)據(jù)取舍時,前提條件是試驗數(shù)據(jù)較多且總體呈正態(tài)分布.一般認(rèn)為當(dāng)樣本容量大于等于3 時,抽樣分布與正態(tài)分布近似,此時用3 法則進(jìn)行取舍應(yīng)該是可行的.在實際的大型巖土工程中,試驗數(shù)據(jù)有可能達(dá)到30個.
實際應(yīng)用時,不能機(jī)械地把位于[m -3 ,m+3]之外的點全部予以剔除,還應(yīng)分析導(dǎo)致其異常的原因.如果一個土樣的多個參數(shù)值均位于[m -3 ,m+3]之外,則這些異常數(shù)據(jù)是由土樣因素引起的,應(yīng)重新取土補(bǔ)做實驗或進(jìn)行相應(yīng)的調(diào)整.如果某個土樣的某一個參數(shù)位于[m -3 ,m+3]之外,說明此誤差是由試驗誤差引起的,應(yīng)予以剔除.如某工程的同一土層的內(nèi)聚力c/kPa的試驗數(shù)據(jù)為:2.58,3.26,4.12,6.12,5.28,4.19,7.61,4.38,
5.64,3.68,2.94,4.56,4.26,5.34,3.99,5.49,4.31,6.34,2.59,3.67,8.99,3.54,4.53,5.36,4.68,6.18,
5.48,4.39,4.61,1.99,3.58.其數(shù)值分布如圖1所示.
從其分布可以看出,這些數(shù)據(jù)符合正態(tài)分布,計算得到:平均值為4.63,標(biāo)準(zhǔn)差1.44,置信水平99.73%的分布范圍是[0.31,8.95],數(shù)值8.99可以剔除.
1.2.2 一次實驗中實驗數(shù)據(jù)較少,又無其他資料可以引用情況下的數(shù)據(jù)取舍原則在小型的巖土工程實際中,當(dāng)試驗數(shù)據(jù)數(shù)目n
此范圍外的點可視作異常點.有一組土的內(nèi)摩擦角實驗數(shù)據(jù)為:9.4,9.0,8.0,6.0,4.8,6.2,8.7,9.5,4.3.用置信水平99.73 %進(jìn)行數(shù)據(jù)取舍。
因為n=9
二 土工試驗數(shù)據(jù)中最小試驗樣本數(shù)問題
在試驗數(shù)據(jù)整理過程中,還有一個問題需要考慮,即最小試驗樣本數(shù)問題.試驗樣本數(shù)過少,會極大影響試驗結(jié)果.試驗樣本數(shù)多少取決于種種因素,包括工程規(guī)模、現(xiàn)場勘探條件以及工程要求精度.以下僅從統(tǒng)計特征方面討論這個問題:
某一工程中,從一硬粘土層中取得4個原狀土樣,對各土樣作不排水三軸試驗得出下列Cu值:101,97,95,109(KPa ).為使土樣不排水剪切強(qiáng)度以95 的概率落在實驗結(jié)果平均值100.5的范圍內(nèi),求必須的土
樣最小數(shù)目.
由于只有4個土樣,n<30,用t分布計算.V=3,查表得相應(yīng)于F(t)=0.95時的t=2.35;且Cu 的實驗平均值為100.5(KPa ), =6.19,因而,相應(yīng)的數(shù)值范圍為100.5±2.35×6.19÷ =93.23~107.77(kPa),離開平均值范圍為2.35×6.19÷÷100.5―7%,不在5%范圍內(nèi),還需增加樣本.以6個樣本試算,u=5,F(xiàn)(t)=0.95,查表得t=2.02,于是離開平均值的范圍為:
偏離值為5.10/100.5=5.1% >5% ,不滿足要求.以7個樣本試算, v=6,F(xiàn)(t)=0.95,查表得t=1.94,于是離開平均值的范圍為:
偏離值為4.54/100.5=4.5 %< 5 %,滿足要求。
所以,還需增加3個土樣,即至少需要7個土樣才可以達(dá)到所需精度要求.土工試驗中,一次實驗的試驗樣本數(shù)如果滿足不了統(tǒng)計要求的最小樣本數(shù),增加土樣又意味著增加額外的投資,而此時我們可以收集以往的實驗資料,利用Bayes方法解決一次實驗樣本數(shù)不足的問題.
由《概率論》的Bayes方法,對離散型隨機(jī)變量有
(1)
稱為參數(shù)的驗后概率; 稱為驗前概率; 為給定參數(shù) 條件下的 的條件概率,稱為似然函數(shù).) (2)
若已測得一組實驗測值為 ,怎樣由去推定 首先要求得其驗后概率 ,驗前概率 、似然函數(shù) .一般 可通過以往的經(jīng)驗得到, 可通過測值 得到,于是由公式(2),就可以得到驗后概率 ,從而求得其期望值,此期望值即為需求參數(shù) 的Bayes估計值。
土工試驗數(shù)據(jù)可以認(rèn)為是離散型試驗數(shù)據(jù).下面以長沙地區(qū)的粉砂抗剪強(qiáng)度參數(shù) 為例說明Bayes估計方法的應(yīng)用。
一般情況下土的抗剪強(qiáng)度參數(shù)符合正態(tài)分布,故以下討論以正態(tài)分布為基礎(chǔ).長沙電廠工程分三期進(jìn)行,其資料見表1.下面用Bayes方法計算,第一步把一期工程資料作為二期工程的驗前資料,以二期工程資料求得似然函數(shù),從而可得驗后概率;第二步,以此驗后概率作為三期工程的驗前資料,然后求得結(jié)合了全部一、二、三期工程的驗后概率,這樣求得的強(qiáng)度參數(shù)同時考慮了三期工程,將更為合理可靠.
由Bayes公式,有 ,就正態(tài)分布而言,Bayes公式可進(jìn)一步具體化為
其中, 為一期工程資料, 。
其中,是根據(jù)二期工程資料求得的,
故驗后概率為兩個正態(tài)分布的乘積,它本身也是一個正態(tài)分布,其抗剪強(qiáng)度均值 和標(biāo)準(zhǔn)差 可由下式求得:
故驗后概率 。由此可見,驗后方差比驗前方差和似然方差都要?。F(xiàn)以上述求得的驗后概率作為驗前概率,以三期工程作為新的測值進(jìn)行Bayes法第二次應(yīng)用的計算.
已知。由三期工程資料,
故得新的驗后概率
即的驗后分布。.所以此粉砂的強(qiáng)度參數(shù)的貝葉斯估計值為 31.52.將全部資料加以平均得到強(qiáng)度參數(shù)的平均值為=31.73.當(dāng)然, 值應(yīng)比值更合理可靠.通過以上分析可以看出:
Bayes法可以把不同時間測得的觀測數(shù)據(jù)有機(jī)地結(jié)合起來,而不是簡單的加權(quán)平均,從而得到一個更為可靠的數(shù)據(jù)結(jié)果.這個優(yōu)點使它在一些大型工程的設(shè)計指標(biāo)的研究中廣泛使用,如在研究土的力學(xué)性質(zhì)指標(biāo)時,直接進(jìn)行力學(xué)性質(zhì)試驗,特別是三軸試驗往往是浪費時間、耗費資金、需要技術(shù)和設(shè)備,而進(jìn)行土的物理性質(zhì)指標(biāo)的測定則要簡便經(jīng)濟(jì)得多.假如在進(jìn)行一定力學(xué)性質(zhì)試驗的同時,利用土的物理性質(zhì)指標(biāo)(如土的密度、含水量等)來豐富力學(xué)性質(zhì)指標(biāo)的驗前概率,那么所得的力學(xué)指標(biāo)將會更加精確.Bayes法在應(yīng)用上的另一個優(yōu)點是它可以更精確的處理不同觀測結(jié)果的合并問題,如上例所述.再如測定土的抗剪強(qiáng)度時可能采用直剪試驗、三軸試驗或原位試驗等方法,各種方法的實測值具有不同的概率函數(shù),Bayes法就可將這些不同概率規(guī)律的信息有機(jī)結(jié)合起來,得出更可靠的參數(shù)驗后分布,依此確定的土的
抗剪強(qiáng)度參數(shù)將更為合理.
3 土體性質(zhì)指標(biāo)的自相關(guān)性的問題
在以往考慮實驗數(shù)據(jù)的相關(guān)關(guān)系時,常常是求它們之間的線性相關(guān)系數(shù),對于土工試驗指標(biāo)其自相關(guān)函數(shù)通常不是線性相關(guān),而是指數(shù)相關(guān),因此,就不能用以往的求相關(guān)系數(shù)的方法來判別其相關(guān)性。
土工問題中,可用相關(guān)距離 來判別其獨立與否.在相關(guān)距離 內(nèi),土性指標(biāo)基本上是相關(guān)的;相反,在該范圍之外,土性指標(biāo)基本上是不相關(guān)的.而相關(guān)距離 事先是未知的,它也要根據(jù)樣本測值來求,一般用遞推平均法求相關(guān)距離,同時取樣間距Z 對 的計算會產(chǎn)生影響,這種影響反應(yīng)于當(dāng)取樣距離Z 不同時,得到的 也不一樣.Z / 越大,說明各抽樣點的土性越接近相互獨立,抽樣誤差就越小。
因此,取樣距離應(yīng)盡可能大于 .但從另一角度考慮,如果樣本間距太大,便不能精確估計自相關(guān)函數(shù)和相關(guān)距離.因此,當(dāng)Z= 時將求出的 作為土的相關(guān)距離比較合適.有了相關(guān)距離后,就可以根據(jù)取樣點的位置,以 為尺度,將指標(biāo)的樣本測值分成幾組,在相關(guān)距離 內(nèi)的樣本點,用樣本的加權(quán)平均估計該區(qū)域內(nèi)的平均土性,在一個 范圍內(nèi),可得到一個.對于n個樣本值,可得到 m 個 .通過以上處理得到的這 m 個,就可視為彼此獨立的樣本了。
3.1 通過迭代求解土的相關(guān)距離
可以利用計算機(jī)程序,通過搜索 = Z 時的,只要以較小的基本間距取樣本,程序在運算過程中,以基
本間距的若干倍作為Z 計算 ,直到 小于某個規(guī)定值 。
3.2 用樣本的加權(quán)平均來估計該區(qū)域內(nèi)的平均土性
在土體的相關(guān)距離內(nèi),測值點是相關(guān)的,這時可用樣本的加權(quán)平均值來估計該范圍的平均土性,具體做法為
(5)
這里 是有關(guān)樣本 的權(quán)值, 是 內(nèi)的樣本點數(shù).關(guān)于一組權(quán) ,可依下式取極小值.
(6)
其限制條件為0≤≤1和Σ =1, 是 和 點處土性指標(biāo)之間的相關(guān)系數(shù),采用Lagrangian乘法,可以得到下列矩陣方程:
(7)
這里,相關(guān)函數(shù) 的形式可以假設(shè),因為相關(guān)函數(shù)的確切形式對大多數(shù)實際應(yīng)用意義不大,據(jù)此,一組權(quán) 就可以算出,從而該范圍的平均土性可用估計值式(6)來計算.在實際工程中,雖然走值不一樣大,但用起來還是較方便的.經(jīng)過上述處理后的 m個 ,就是彼此獨立的樣本了。
具體情況下,可根據(jù)工程具體精度要求,進(jìn)行簡化或省略,如在6范圍內(nèi)的幾個數(shù)據(jù),通過實驗判斷或簡單計算就可以確定其代表值時,就不需加權(quán)平均.在實際應(yīng)用中,最多的情況可能是根據(jù)經(jīng)驗結(jié)合計算進(jìn)行處理.
4 結(jié)束語
1)影響土工試驗數(shù)據(jù)可靠性的因素包括土樣本身和實驗因素兩個方面,在進(jìn)行土工試驗指標(biāo)整理時,根據(jù)土的物理力學(xué)特性可判定出一部分明顯的不合理點,還可以根據(jù)3d法剔除不合理的測定值,從而使土工試驗數(shù)據(jù)更接近實際.
2)考慮土工試驗數(shù)據(jù)的相關(guān)性可以通過迭代求解土性指標(biāo)的相關(guān)距離,用樣本的加權(quán)平均來估計該區(qū)域內(nèi)的平均土性指標(biāo)值.
關(guān)鍵詞:交通事故;數(shù)據(jù)確實;相似原理
中圖分類號:TB
文獻(xiàn)標(biāo)識碼:A
doi:10.19311/ki.16723198.2017.12.098
1引言
事故分析和再現(xiàn)的過程中,事故現(xiàn)場圖是必不可少的法律依據(jù)。但是往往在匆忙地繪制現(xiàn)場圖的過程中,造成了數(shù)據(jù)遺漏和缺失,給事故分析和再現(xiàn)工作帶來很大的困難。為了給事故處理提供更加有力的依據(jù),對于現(xiàn)場圖中數(shù)據(jù)的缺失,采用必要的數(shù)據(jù)分析方法是非常必要的。
2實際案例分析
圖1是某事故現(xiàn)場圖,大貨車在事故發(fā)生的過程中在地面留下了清晰的制動痕跡,遺憾的是缺少了很長一段制動痕跡的長度,并且痕跡的形態(tài)有誤差。根據(jù)制動痕跡計算貨車的行駛車速,以及車輪抱死拖滑前的運動形態(tài),根據(jù)這個現(xiàn)場圖提供的數(shù)據(jù)是不可能的。
根據(jù)現(xiàn)場圖來計算大貨車車速是不可能的,我們只能根據(jù)其有標(biāo)注12m長度的制動痕跡來計算其行駛的最低車速,但這個車速較低,對分析案情沒有意義。但是我們能夠發(fā)現(xiàn),根據(jù)現(xiàn)場圖所示的第一條制動痕跡的參數(shù)可以判斷此制動痕跡為一條斜線,因此大貨車在開始剎車時可能處于壓黃線行駛狀態(tài)。下面則判斷其開始剎車時是否處于壓線行駛狀態(tài)。
2.1計算大貨車車速與制動痕跡長度的關(guān)系
由現(xiàn)場圖可以看出,大貨車的制動痕跡為三段,我們假設(shè)這三段的長度分別為S1、S2、S3。當(dāng)駕駛員開始踩剎車踏板到出現(xiàn)制動痕跡的這段時間內(nèi)(制動協(xié)調(diào)時間),大貨車也是向前行駛的,我們假設(shè)在這段時間內(nèi)其行駛距離為ΔS。
首先根據(jù)大貨車在地面上的制動痕跡,由動量守恒可以列出公式(1):
12mv2=k1μmg(S1+S3)+k2μmgS2(1)
式中,m為大貨車、駕駛員及貨物的總質(zhì)量(kg);v為大貨車開始剎車時的瞬時速度(m/s);k1為附著系數(shù)修正值;k2為附著系數(shù)修正值;μ為大貨車在干燥瀝青路面上制動時的附著系數(shù);g為重力加速度(m/s2);S1――大貨車在地面上留下的第一段制動痕跡的距離(m);S2――大貨車兩段制動痕跡中間的距離(m);S3――大貨車在地面上留下的第二段制動痕跡的距離(m)。
大貨車在制動協(xié)調(diào)時間內(nèi)車速的降低量可由(2)式求出:
Δv=0.5μgt(2)
式中,Δv為制動協(xié)調(diào)時間內(nèi)車速的降低量(m/s);μ為大貨車在干燥瀝青路面上制動時的附著系數(shù);g為重力加速度(m/s2);t為踩踏時間和踩死時間之和(s)。
在制動協(xié)調(diào)時間內(nèi)大貨車所行駛的距離可由(3)表示:
ΔS=[(v+Δv)2-v2]μg(3)
式中,ΔS為制動協(xié)調(diào)時間內(nèi)大貨車所行駛的距離(m);v為大貨車開始剎車時的瞬時速度(m/s);Δv為制動協(xié)調(diào)時間內(nèi)車速的降低量(m/s);μ為大貨車在干燥瀝青路面上制動時的附著系數(shù);g為重力加速度(m/s2)。
當(dāng)然,由以上3式是無法求出大貨車的車速的,因為在以上3式中缺少相應(yīng)的未知數(shù)S1的數(shù)值大小,但是我們卻可以得出S1與v之間的關(guān)系,即第一段制動痕跡的長度與開始剎車時的瞬時速度之間的關(guān)系。
2.2大貨車的運動形態(tài)
在E點處,大貨車開始制動,到D點時開始出現(xiàn)制動拖痕,到C點時第一段制動痕跡結(jié)束。如果在制動前大貨車沒有壓線行駛的話,則直線EC應(yīng)不與中心雙黃線相交;如果壓線的話,則直線EC應(yīng)與中心雙黃線相交。
利用三角形關(guān)系可以判斷虛線ED是否與中心雙黃線相交所示。
2.3大貨車是否壓線判斷
在圖3、圖4中:CD=S1,DE=ΔS,AC=2.7m,GD=1m,如果大貨車沒有壓線,則E點應(yīng)在直線AG的右側(cè),因此B點也應(yīng)在直線AG的右側(cè),這時有AC>BC(如圖2);反之如果大貨車壓線,則有AC
由三角形相似關(guān)系可以得出:BCHC=CECD;因此:
BC=CE?HCCD=(S1+ΔS)?(AC-GD)S1(4)
F令BC=AC則:BC-AC=0(5)
聯(lián)立式(1)~(5)得:v=-15.62m/s=-56.23km/h(舍去);
v=26.77m/s=99.97km/h。
因此由二次方程根的分布可以得出:如果-56.23km/h
顯然v9997km/h也是不符合實際的,所以能夠得出-56.23km/h
3結(jié)語
此方法雖然不能準(zhǔn)確計算大貨車的開始剎車時的準(zhǔn)確車速,但是根據(jù)車輛的最高設(shè)計時速得出了大貨車在開始剎車時處于壓黃線行駛狀態(tài),已經(jīng)違反了交通規(guī)則,這對交警事故責(zé)任的認(rèn)定有很大的幫助,此方法雖然并不是對所有數(shù)據(jù)缺失的現(xiàn)場圖都有效,但其卻給我們提供了一種新的思路,開拓了思維。
Abstract: This paper describes several commonly used in environmental monitoring data analysis method of monitoring data, the comprehensive analysis is very important.
關(guān)鍵詞:環(huán)境監(jiān)測;質(zhì)量濃度;數(shù)據(jù);分析;方法
Key words: environmental monitoring; mass concentration; data analysis; method;
中圖分類號:X83文獻(xiàn)標(biāo)識碼:A 文章編號:2095-2104(2012)
一、監(jiān)測數(shù)據(jù)綜合分析的目的和作用
環(huán)境監(jiān)測是科學(xué)性很強(qiáng)的工作,它的直接產(chǎn)品就是監(jiān)測數(shù)據(jù)。監(jiān)測質(zhì)量好壞集中反映在數(shù)據(jù)上,準(zhǔn)確、可靠、可比的環(huán)境監(jiān)測數(shù)據(jù)是環(huán)境科學(xué)研究工作的基礎(chǔ),是環(huán)境管理的依據(jù)。一個環(huán)境監(jiān)測站每年可提供成千上萬的監(jiān)測數(shù)據(jù),但這些數(shù)據(jù)本身是孤立的、離散的,必須從不同的目的和作用出發(fā),把環(huán)境監(jiān)測所獲得的資料、數(shù)據(jù),通過不同的途徑和方法分類、統(tǒng)計、轉(zhuǎn)化、匯總,找出其本質(zhì)的東西,獲取環(huán)境管理所要求的各種綜合數(shù)據(jù)。環(huán)境監(jiān)測數(shù)據(jù)綜合分析的目的是完成監(jiān)測數(shù)據(jù)、信息資料向環(huán)境質(zhì)量定性和定量結(jié)論的轉(zhuǎn)變,通過監(jiān)測數(shù)據(jù)、信息資料的深加工與自然環(huán)境、社會經(jīng)濟(jì)發(fā)展等諸因素的綜合分析,實現(xiàn)為污染防治決策和環(huán)境建設(shè)決策的轉(zhuǎn)變。環(huán)境監(jiān)測數(shù)據(jù)綜合分析是環(huán)境監(jiān)測過程中環(huán)節(jié)的重要環(huán)節(jié),也是最終環(huán)節(jié)。一般來說,環(huán)境監(jiān)測綜合分析技術(shù)的水平高低,代表著監(jiān)測站技術(shù)水平的高低,也決定著監(jiān)測站在環(huán)境管理中的地位和作用。
二、監(jiān)測數(shù)據(jù)綜合分析的方法
在對環(huán)境質(zhì)量進(jìn)行綜合評價或?qū)^(qū)域環(huán)境污染狀況進(jìn)行評價時,都是以一定數(shù)量的監(jiān)測數(shù)據(jù)和資料為依據(jù)的。這些數(shù)據(jù)和資料包括環(huán)境要素的監(jiān)測數(shù)據(jù)、環(huán)境條件數(shù)據(jù)、污染源調(diào)查監(jiān)測數(shù)據(jù)、現(xiàn)場調(diào)查數(shù)據(jù)和實測數(shù)據(jù)等等。環(huán)境監(jiān)測綜合分析采用的方法很多,并在不斷完善和發(fā)展,通常采用的分析方法有統(tǒng)計規(guī)律分析、合理性分析、效益分析等。
2.1 統(tǒng)計規(guī)律分析
統(tǒng)計規(guī)律分析中包括了對環(huán)境要素進(jìn)行質(zhì)量評價的各種數(shù)學(xué)模式評價方法,也就是應(yīng)用數(shù)理統(tǒng)計方法,模糊數(shù)學(xué)方法和適用于不同環(huán)境要素的數(shù)學(xué)、物理方程等方法,對監(jiān)測數(shù)據(jù)資料進(jìn)行剖析,解釋,做出規(guī)律性的分析和評價。該分析方法主要應(yīng)用于環(huán)境調(diào)查、環(huán)境規(guī)劃或課題、環(huán)評等比較大的工作中。
2.2 合理性分析
由于影響環(huán)境要素變化的因素十分復(fù)雜,而用于綜合分析的監(jiān)測數(shù)據(jù)資料有限,所以需要結(jié)合環(huán)境要素的各項條件和污染源參數(shù),理論結(jié)合實際分析其合理性。應(yīng)考慮到環(huán)境要素之間的相互影響,監(jiān)測項目之間的相關(guān)和對比關(guān)系,全面分析其合理性,這樣才能提供準(zhǔn)確、可靠、合理的監(jiān)測數(shù)據(jù)。如何合理的分析數(shù)據(jù),可以從以下幾個方面判斷:
2.2.1 通過項目之間的相關(guān)性來分析
監(jiān)測項目多種多樣,有機(jī)的、無機(jī)的都有,但是物質(zhì)本身具有相互關(guān)系,兩個或兩個以上的項目監(jiān)測數(shù)據(jù)往往存在一種固定關(guān)系,這就為我們分析單個已實行質(zhì)量控制措施的監(jiān)測數(shù)據(jù)正確與否提供了依據(jù),對一些例行監(jiān)測數(shù)據(jù),可做出直觀的判定。例如,氟含量與硬度之間的關(guān)系。F與Ca、Mg形成沉淀物容積度較小,因此,在中性、弱堿性水溶液中,如氟含量在(mg/L)級,則其氟含量與Ca、Mg含量呈明顯負(fù)相關(guān),即與硬度值呈負(fù)相關(guān),所以高氟區(qū)內(nèi)的水質(zhì)監(jiān)測結(jié)果中硬度監(jiān)測值一般較低。如果氟含量較高,同樣硬度監(jiān)測值也很高,數(shù)據(jù)就要重新分析。再如CO、BOD5和高錳酸鹽指數(shù)之間的關(guān)系。根據(jù)COD、BOD5和高錳酸鹽指數(shù)的概念,COD是指用強(qiáng)氧化劑,在酸性條件下,將有機(jī)物氧化成CO2 與H2O所消耗的氧量平;BOD5是指在水溫為20℃的條件下,微生物氧化有機(jī)物所消耗的氧量;高錳酸鹽指數(shù)是在一定條件下,用高錳酸鉀氧化水樣中的某些有機(jī)物及無機(jī)物還原性物質(zhì),由消耗的高錳酸鉀量計算相當(dāng)?shù)难趿?;結(jié)合其實際的測定過程,對于同一份水樣三者的監(jiān)測結(jié)果,應(yīng)存在以下規(guī)律:COD>BOD5,COD>CODMn。三氮與溶解氧也存在一定的關(guān)系。環(huán)境中氮的存在形式根據(jù)環(huán)境條件的變化而發(fā)生變化,尤其受水體中溶解氧的質(zhì)量濃度影響,一般溶解氧高的水體硝酸鹽氮的質(zhì)量濃度高于氨氮質(zhì)量濃度,反之氨氮質(zhì)量濃度高于硝酸鹽氮質(zhì)量濃度,亞硝酸鹽氮質(zhì)量濃度與之無明顯關(guān)系。二氧化硫與氮氧化物之間的關(guān)系:對于以煤為主要燃料的煤煙型污染區(qū)域,其大氣環(huán)境中二氧化硫體積質(zhì)量大于氮氧化物,一般為氮氧化物的2~6倍。在以汽油、柴油為燃料的區(qū)域內(nèi),如馬路邊,交通繁忙而居民少的區(qū)域,氮氧化物體積質(zhì)量則大于二氧化硫。綜上所述,物質(zhì)之間存在的相互關(guān)聯(lián)性對綜合分析監(jiān)測數(shù)據(jù)的合理性起著至關(guān)重要的作用,它直觀的體現(xiàn)出數(shù)據(jù)在分析過程是否存在分析誤差,可以在第一時間分析出數(shù)據(jù)是否合理,為進(jìn)一步綜合分析數(shù)據(jù)提供了準(zhǔn)確依據(jù)。
2.2.2 通過掌握的資料對監(jiān)測值進(jìn)行判定
對現(xiàn)有的數(shù)據(jù)進(jìn)行綜合分析,首先要了解采樣地點的本底值范圍,特別是例行監(jiān)測或者是年度監(jiān)測計劃。這種工作一般情況下都是連續(xù)性的,一年或是幾年,數(shù)據(jù)可比性比較好,對同一點位的數(shù)據(jù),如個別項目變化較大,可以先將該值列為可疑數(shù)值,然后進(jìn)行合理性分析。進(jìn)行合理性分析,首先要了解是否有新的污染源介入,其次是采樣全過程有無異常,包括水質(zhì)的顏色,氣味、流量的大小等。與以往數(shù)據(jù)進(jìn)行比對,采樣是否規(guī)范,采樣的容器是否達(dá)到可用標(biāo)準(zhǔn)等。再次是實驗室分析,如查找顯示劑保存時間是否過期,標(biāo)準(zhǔn)曲線是否及時繪制,分光光度計是否調(diào)零等等。對于氣體來說,還要考慮采樣時的風(fēng)向,采樣儀器是否校準(zhǔn)等。對于可疑值,在分析過程中已經(jīng)知道數(shù)據(jù)是可疑的應(yīng)將可疑值舍去;對復(fù)查結(jié)果時已經(jīng)找出出現(xiàn)可疑值原因的,也應(yīng)將可疑值舍去;對找不出可疑值出現(xiàn)原因的,不應(yīng)隨意舍去或保留,要對留樣重新進(jìn)行實驗室分析或根據(jù)數(shù)理統(tǒng)計原則來處理。
2.2.3 通過監(jiān)測項目的性質(zhì)對監(jiān)測值判定
在同一水樣中有許多項目根據(jù)其性質(zhì)可以判定相關(guān)的監(jiān)測值是否正確。如總氮,是指可溶性及懸浮顆粒中的含氮量,如果同一水樣監(jiān)測結(jié)果出現(xiàn)總氮與氨氮、亞硝酸鹽氮、硝酸鹽氮數(shù)據(jù)倒掛,就表明監(jiān)測結(jié)果是不正確的,需要重新分析找出原因;同樣,還有總磷與可溶性磷以及無機(jī)磷之間數(shù)據(jù)的倒掛;大氣中,氮氧化物與一氧化氮、二氧化氮,總懸浮顆粒物與可吸入顆粒物之間數(shù)據(jù)的倒掛等,都是不合理現(xiàn)象。同樣,在噪聲監(jiān)測中,理論上監(jiān)測數(shù)據(jù)L10 一定大于L50、L90、Leq,在實際監(jiān)測中如果出現(xiàn)Leq 大于L10,如果不是監(jiān)測數(shù)據(jù)或儀器出現(xiàn)問題,就是由于瞬時之間噪音值的突然增大,應(yīng)當(dāng)修正數(shù)據(jù)使用。以上只是列出部分項目之間的關(guān)系,還有許多項目關(guān)系需要我們在日常生活中不斷總結(jié)和發(fā)現(xiàn),運用到日常的環(huán)境監(jiān)測綜合分析中,更好地服務(wù)于環(huán)境管理。
2.2.4 通過了解污染源對監(jiān)測值進(jìn)行判定
監(jiān)測數(shù)據(jù)是多種多樣的,不僅僅包括環(huán)境空氣、地表水、地下水等等,也包括點源,如我們常說的工業(yè)污染源。工業(yè)污染源多種多樣,不同的行業(yè)有不同的污染物產(chǎn)生,多數(shù)行業(yè)都有自己的特殊污染物產(chǎn)生,化學(xué)需氧量和氨氮只是多數(shù)工業(yè)污染源的共性污染物。因此,要在日常工作中對轄區(qū)內(nèi)的污染源或者是重點污染源有所了解,根據(jù)行業(yè)的不同,選擇有針對性的監(jiān)測項目來監(jiān)督污染企業(yè)。如國家最新頒布執(zhí)行的制藥行業(yè)六項標(biāo)準(zhǔn),就是根據(jù)制藥行業(yè)不同工業(yè)生產(chǎn)工藝和污染治理技術(shù)的特點,分別制定了《發(fā)酵類制藥工業(yè)水污染物排放標(biāo)準(zhǔn)》、《提取類制藥工業(yè)水污染物排放標(biāo)準(zhǔn)》、《化學(xué)合成類制藥工業(yè)水污染物排放標(biāo)準(zhǔn)》、《中藥類制藥工業(yè)水污染物排放標(biāo)準(zhǔn)》、《生物工程類制藥工業(yè)水污染物排放標(biāo)準(zhǔn)》、《混裝制劑類制藥工業(yè)水污染物排放標(biāo)準(zhǔn)》。國家對這些行業(yè)制定了最多25項污染物監(jiān)測分析排放標(biāo)準(zhǔn),最少11項污染物監(jiān)測分析排放標(biāo)準(zhǔn),其中有共性的污染物,也有特殊的污染物,根據(jù)特殊的污染物是否存在,就可以判定是哪類制藥行業(yè)。又如對化工行業(yè)來說,有機(jī)物含量種類較多,重金屬比較少;對于重金屬行業(yè)來說,有機(jī)物含量較少;造紙行業(yè)主要是有機(jī)污染等。如果在一個生產(chǎn)有機(jī)化工的企業(yè),廢水監(jiān)測出高質(zhì)量濃度的重金屬,則監(jiān)測數(shù)據(jù)應(yīng)重新考慮,需按照綜合分析方法分析其原因。
2.3 效益分析
環(huán)境監(jiān)測數(shù)據(jù)有例行監(jiān)測、環(huán)評監(jiān)測、驗收監(jiān)測、監(jiān)督監(jiān)測等等。對于監(jiān)督監(jiān)測來說,分析數(shù)據(jù)相對較少,數(shù)據(jù)合理性比較好判斷;而對于數(shù)據(jù)較多的例行監(jiān)測、環(huán)評監(jiān)測來說,在較短時間內(nèi)判斷數(shù)據(jù)是否準(zhǔn)確、合理、可靠,上述綜合分析方法提供了簡單、明了的依據(jù),在實際工作中能夠及時為環(huán)境管理提供準(zhǔn)確的監(jiān)測信息,減少企業(yè)不必要的重復(fù)工作,在有效的時間內(nèi)提供更優(yōu)質(zhì)的服務(wù)。
1.流量來源
從圖中數(shù)據(jù)顯示,該網(wǎng)站主要流量來源于外部鏈接,表明各種推廣營銷手段還是有一定效果的,而直接訪問帶來的流量卻不太理想,說明該其用戶忠誠度較低,需要繼續(xù)加強(qiáng)。而搜索引擎流量的話其主要靠內(nèi)容,而從該站數(shù)據(jù)看來,其內(nèi)容還是比較欠缺,需要加強(qiáng)優(yōu)化。。
2. 網(wǎng)站訪問時段
從上圖觀察發(fā)現(xiàn),我們可以分析出用戶在上午9點-11點,下午14點-17點,這兩個時段較為活躍,那么便可根據(jù)此進(jìn)行推廣,因為訪客越是活躍,進(jìn)行推廣便更嘔效果。同樣的,在做競價推廣時,也可以此作為參考。
3. 搜索引擎分析
有統(tǒng)計數(shù)據(jù)可以發(fā)現(xiàn),各個搜索引擎過來的流量有多少,而從該網(wǎng)站數(shù)據(jù)上看,該網(wǎng)站的主要訪客來源于百度,竟然如此,該站就更加需要加強(qiáng)百度優(yōu)化,更多的去迎合百度。
4.搜索詞
通過對搜索詞的查看,我們可以查看用戶主要通過哪些詞來到該網(wǎng)站,從而可根據(jù)此來對長尾關(guān)鍵詞進(jìn)行挖掘。同時我們可以發(fā)現(xiàn)用戶是通過一些我們根本想不到的詞來訪問網(wǎng)站,通過這些詞我也可作為研究用戶搜索習(xí)慣的重要參考因素。
5.訪問時長及跳出率
通過對訪客的頁面停留時間長短及跳出率,我們可以分析出用戶的需求點,從而分析出哪些最終頁,哪些是過度頁。如此此我們就可以根據(jù)此來對頁面進(jìn)行優(yōu)化,以及分析哪些欄目更應(yīng)放在首頁等。
6.瀏覽器訪問比例
這個數(shù)據(jù)通常告訴我們應(yīng)如何去設(shè)計網(wǎng)頁,從圖中可以看出瀏覽器中360與ie用戶量比例較大。因此在我們對該網(wǎng)站頁面進(jìn)行設(shè)計或改版時,需要重點滿足IE與360用戶的需求,同時要保證網(wǎng)頁在IE與360下的兼容性。