統計數據
出自 MBA智库百科(https://wiki.mbalib.com/)
統計數據(Statistical Data)
目錄 |
什麼是統計數據[1]
統計數據是統計工作活動過程中所取得的反映國民經濟和社會現象的數字資料以及與之相聯繫的其他資料的總稱。統計研究客觀事物的數量方面,離不開統計數據,統計數據是對客觀現象進行計量的結果。
統計數據是採用某種計量尺度對事物進行計量的結果,採用不同的計量尺度會得到不同類型的統計數據。從上述四種計量尺度計量的結果來看,可以將統計數據分為以下四種類型:
- 定類數據(Nominal Data)——表現為類別,但不區分順序,是由定類尺度計量形成的。
- 定序數據(Ordinal Data)——表現為類別,但有順序,是由定序尺度計量形成的。
- 定距數據(Interval Data)——表現為數值,可進行加、減運算,是由定距尺度計量形成的。
- 定比數據(Ratio Data)——表現為數值,可進行加、減、乘、除運算,是由定比尺度計量形成的。
前兩類數據說明的是事物的品質特征,不能用數據表示,其結果均表現為類別,也稱為定性數據或品質數據(Oualitative data);後兩類數據說明的是現象的數量特征,能夠用數值來表現,因此也稱為定量數據或數量數據(Quantitative data)。由於定距尺度和定比尺度屬於同一測度層次,所以可以把後兩種數據看作是同一類數據,統稱為定量數據或數值型數據。
區分測量的層次和數據的類型是十分重要的,因為對不同類型的數據將採用不同的統計方法來處理和分析。比如,對定類數據,通常計算出各組的頻數或頻率,計算其眾數和異眾比率,進行列聯表分析和x2檢驗等;對定序數據,可以計算其中位數和四分位差,計算等級相關係數等非參數分析;對定距或定比數據還可以用更多的統計方法進行處理,如計算各種統計量、進行參數估計和檢驗等。我們所處理的大多為數量數據。
這裡需要特別指出的是,適用於低層次測量數據的統計方法,也適用於較高層次的測量數據,因為後者具有前者的數學特性。比如:在描述數據的集中趨勢時,對定類數據通常是計算眾數,對定序數據通常是計算中位數,但對定距和定比數據同樣也可以計算眾數和中位數。反之,適用於高層次測量數據的統計方法,則不能用於較低層次的測量數據,因為低層次數據不具有高層次測量數據的數學特性。比如,對於定距和定比數據可以計算平均數,但對於定類數據和定序數據則不能計算平均數。理解這一點,對於選擇統計分析方法是十分有用的。
對統計數據的屬性、特征進行分類、標示和計算,稱為統計計量或統計量度。例如,對工業企業經濟效益的統計,對居民生活水平的統計,也可以說是對工業企業經濟效益的計量,對居民生活水平的計量,如此等等。由於客觀事物有的比較簡單,有的比較複雜,有的特征和屬性是可見的(如人的外貌體徵),有的則是不可見的(如人的偏好和信仰),有的表現為數量差異,有的表現為品質差異。因此,統計計量也就有定性計量和定量計量的區別,並且可分不同的層次。美國社會學家、統計學家史蒂文斯(S.S.Stevens)1968年按照變數的性質和數學運算的功能特點,將統計計量劃分為四個層次或四種計量尺度:
1、定類尺度
將數字作為現象總體中不同類別或不同組別的代碼,這是最低層次的尺度。在這種情況下,不同的數字僅表示不同類(組)別的品質差別,而不表示它們之間量的順序或量的大小。定類尺度的主要數學特征是“=”或 “≠”。
例如將國民經濟按其經濟類型,可以分為國有經濟、集體經濟、私營經濟、個體經濟等類,並用(01)代碼表示國有經濟,(02)表示集體經濟,(03)表示私營經濟,(04)表示個體經濟。並且用(011)代表國有經濟中的國有企業,(012)代表國有聯營企業;用(021)表示集體經濟中集體企業,(022)表示集體聯營企業;用(031)表示私營經濟中的私營獨資企業,(032)表示私人合伙企業,(033)表示私營有限責任公司;用(041)表示個體經濟中的個體工商戶,(042)表示個人合伙等等。其中兩位代碼表示經濟大類,而三位代碼則表示各類中的構成。不同代碼反映同一水平的各類(組)別,並不反映其大小順序。各類中雖然可以計算它的單位數,但不能反映第一類的一個單位可以相當於第二類的幾個單位等等。
2、定序尺度
定序尺度不但可以用數表示量的不同類(組)別,而且也反映量的大小順序關係,從而可以列出各單位、各類(組)的次序。定序尺度的主要數學特征是“>”或“<”。在統計的變數數列中可以確定其中位數、分位數等指標的位置。
例如對合格產品按其性能和好壞,分成優等品、一等品、合格品等等。這種尺度雖然也不能表明一個單位一等品等於幾個單位二等品,但卻明確表示一等品性能高於二等品,而二等品性能又高於三等品等等。定序尺度除了用於分類(組)外,在變數數列分析中還可以確定中位數、四分位數、眾數等指標的位置。
3、定距尺度
定距尺度也稱間隔尺度,是對事物類別或次序之間間距的計量,它通常使用自然或度量衡單位作為計量尺度。定距尺度是比定序尺度高一層次的計量尺度。它不僅能將事物區分為不同類型併進行排序,而且可以準確地指出類別之間的差距是多少。定距尺度的主要數學特征是“+”或“-”。定距尺度在統計數據中,占據重要的低位,統計中的#REDIRECT總量指標就是運用定距尺度為計量尺度的。
例如,學生某門課程的考分,可以從高到低分類排序,形成90分、80分、70分,直到零分的序列。它們不僅有明確的高低之分,而且可以計算差距,90分比80分高10分,比70分高20分等等。定距尺度的計量結果表現為數值,可以進行加或減的運算,但卻不能進行乘或除的運算,其原因是在等級序列中沒有固定的、有確定意義的“零”位。例如,學生甲得分90分,學生乙得0分,可以說甲比乙多得90分,卻不能說甲的成績是乙的90倍或無窮大。因為“0”分在這裡不是一個絕對的標準,並不意味著乙學生毫無知識。恰如我們不能說40℃比20℃暖和2倍一樣。沒有確定的標準的“零”位,但有基本的確定的測量單位,如學生成績的測量單位是1分,質量價差的測量單位量1元,溫度的測量單位是1℃等等,這是定距尺度的顯著特點。
4、定比尺度
定比尺度是在定距尺度的基礎上,確定可以作為比較的基數,將兩種相關的數加以對比,而形成新的相對數,用以反映現象的構成、比重、速度、密度等數量關係。由於它是在比較基數上形成的尺度,所以能夠顯示更加深刻的意義。定比尺度的主要數學特征是“÷”或“×”。在統計的對比分析中,廣泛地運用定比尺度進行計量。
例如將某地區人口數和土地面積對比計算人口密度指標,說明人口相對的密集程度。甲地區人口可能比乙地區多,但甲地區的土地更廣闊,用人口密度指標就可以說明相對說來甲地區人口不是多了,而是少了。又如將一個國家(地區)的國內生產總值與該國(地區)居民對比。計算人均國內生產總值,可以反映國家(地區)的綜合經濟能力。1998年我國國內生產總值約占世界生產總值的12%,排列世界第七位,堪稱世界經濟大國,但我國人口占世界總人口的21.2%,如果按人均國內生產總值計算,在世界各國中又居於比較落後的位次,說明我國仍屬於發展中國家。
上述四種計量尺度對事物的計量層次是由低級到高級、由粗略到精確逐步遞進的。高層次的計量尺度具有低層次計量尺度的全部特性,但不能反過來。顯然,我們可以很容易地將高層次計量尺度的測量結果轉化為低層次計量尺度的測量結果,比如將考試成績的百分制轉化為五等級分制。在統計分析中,一般要求測量的層次越高越好,因為高層次的計量尺度包含更多的數學特性,所運用的統計分析方法越多,分析時也就越方便,因此應儘可能使用高層次的計量尺度。
統計數據質量是一個具有豐富內涵的綜合性概念。具體來說,它包括統計數據的內容質量、表述質量及約束標準這三大方面。
(一)統計數據的內容質量
統計數據的內容質量是統計數據最基本的特征,它包括相關性、準確性與及時性。一旦缺少了其中任何一個,統計數據就失去了轉化為信息的性質和基本作用。因此,這三個特征也可稱為統計數據質量的主要特征。
1、相關性
相關性是指統計機構所生產的數據是否正是用戶感興趣的統計數據。統計數據的相關性反映了它滿足用戶需求的程度,它與所提供的可利用數據是否關註了對用戶來說最重要的主題有關。由於對相關性的評價是主觀的,會隨用戶需求目標的改變而改變,所以統計機構所要做的是平衡不同用戶的互相矛盾的需求目標,在給定的資源條件限制下,儘可能的滿足大部分用戶的大部分需求。
2、準確性
準確性指觀測值或估計值與未知的真值之間的距離(接近程度),通常用統計誤差來衡量。它是統計數據質量的基礎和核心內容,也是傳統的“統計數據質量”概念所考慮的主要問題。一般來講,誤差分為系統誤差和隨機誤差兩部分,有時也用引起不准確性的主要潛在原因(如抽樣誤差、無回答誤差等)來分類描述。完全準確的測量經常受到成本的限制,有時甚至是不可能的。所以關鍵的是誤差是否已降低到用戶可以接受的地步。
3、及時性
與用戶需求相關的準確的統計數據如果沒有在用戶做出決策之前傳遞給用戶,那麼該數據對用戶來說,是沒有用的。所以,及時性也是統計數據能否滿足用戶需求的重要特征。如果該現象本身變化比較迅速,則對該類統計數據的及時性要求高;如果該現象本身變化比較緩慢,則對及時性要求不高。
(二)統計數據的表述質量
對統計數據質量來說,僅考慮其內容方面的質量是不夠的。統計數據需要表述,特別是將某個統計數據同其他相關統計數據相互聯繫地加以表述時,要考慮表述的質量問題。比如單個數據的內容是正確的,但表述不清晰、不充分,就會影響整套數據的質量,甚至引起誤解。所以,統計數據質量必須考慮其表述質量。統計數據的表述質量包括可比性、可銜接性和可理解性。
1、可比性
可比性是指同一項目的統計數據在時間上和空間上的可比程度。這要求統計的概念和方法在時間上保持相對穩定,在不同地區使用統一的統計制度方法和分類標準,保持統計數據的口徑範圍、計算方法在時間上一致銜接,在地區之間可比。
2、可銜接性
可銜接性是指同一統計機構內部不同統計調查項目之間、不同機構之間以及與國際組織之間統計數據的銜接程度。這要求全國範圍內所有專業統計項目在統一的統計框架體系、分類標準下,按統一的方法編製統計數據,在統計調查和數據加工整理中使用統一的方法和程式,同時採用國際統計標準,如聯合國1993年SNA的框架體系等。
3、可理解性
可理解性是指統計數據便於用戶正確理解並使用的程度。統計數據是提供給用戶使用的,如果某些用戶不能理解,看不懂統計數據和統計分析報告,當然也就談不上使用數據。為了恰如其分地使用從統計機構那裡得到的統計數據,用戶必須瞭解他們所獲得數據的性質。這就要求統計機構在提供統計數據的同時附帶提供對數據的補充說明,如提供隱含在有關概念下麵的說明、已使用的分類法、數據收集和加工過程中所使用的方法以及統計機構自身對數據質量的評價。
(三)統計數據的約束標準
在實現統計數據目標的過程中,除了註意統計數據的內容質量和表述質量這兩方面外,還必須註意以下兩項具有普遍意義的約束標準,這也體現了統計數據的質量特征。
1、可取得性
可取得性是指用戶從統計部門取得統計數據的便利程度。對於有用的統計數據,用戶必然要考慮:能得到哪些數據,如何得到這些數據。因此,統計數據必須以一種用戶能夠使用(搜尋方便)而且能夠負擔的形式提供給用戶。這要求提供統計數據時,必須列明用戶從統計機構可以取得的統計數據內容,同時要應用先進便捷的統計數據服務方式,使用戶取得數據更為便利。
2、有效性
有效性是指統計數據的利用所產生的效益要大於提供該數據的成本。如果情況相反,則提供這種數據對提供方和使用方來說都是不值得的。雖然目前統計數據的效益和成本特別是前者不容易準確地計量,但是,保持這樣一種基本的指導思想是十分必要的。這要求在統計數據的其他質量不受大的影響的前提下,儘可能降低統計數據的生產費用,提高效率。