數據標準化

用手机看条目

出自 MBA智库百科(https://wiki.mbalib.com/)

數據標準化(data standardization)

目錄

什麼是數據標準化

  數據標準化是指研究、制定和推廣應用統一的數據分類分級、記錄格式及轉換、編碼等技術標準的過程。

常用的數據標準化方法[1]

  數據標準化是統計學上常用的方法,是為了消除不同屬性或樣方間的不齊性,使同一樣方內的不同屬性間或同一屬性在不同樣方內的方差減小;有時是為了限制數據的取值範圍,如[0,1]閉區間等。有些數量分析方法要求特殊的標準化過程,並將標準化作為其分析方法的一部分。比如,主分量分析(PCA)一般要求中心化,對應分析(CA)則要求對排序坐標進行標準化等。這些方法在應用前不必考慮標準化。現在說的標準化是指一般不特殊要求標準化的方法,即要不要進行標準化是由使用者自己決定。這樣的標準化必須在數量分析前完成。標準化過程也是通過某一計算將原始數據變成新的值,但它與原始數據集合中的其他值有關而不同於數據轉換。下麵介紹一些常用的標準化方法。

  1.數據中心化

  數據中心化(centralization)就是將原始數據減去平均值,如果對種類(屬性)中心化就分別減去各個種在所有樣方中的平均值\bar{X}_i,對原始數據矩陣而言,它是每一行的平均值;若對樣方(實體)中心化,則分別減去一個樣方內所有種的平均值\bar{X}_j,在原始數據矩陣中,它是每一列的平均值,用公式表示,為

  對種標準化  \hat{X}_{ij}=X_{ij}-\bar{X}_i  (i=1,2,…,P)  (種類)  (1)

  對樣方標準化  \hat{X}_{ij}=X_{ij}-\bar{X}_j  (j=1,2,…,N)  (樣方數)  (2)

式中,Xij\hat{X}_{ij},分別為標準化前和標準化後的第i個種在第j個樣方中的值;\bar{X}_i為第i個種在所有樣方中的平均值;\bar{X}_j為第j個樣方內所有種的平均值。

  經中心化的數據很易於計算各種類(屬性)間或樣方(實體)間的方差協方差。有時對種類和樣方同時進行中心化,稱為雙重中心化。

  2.離差標準化

  離差標準化(deviation standardization)實際上等於經中心化的數據再除以離差,即對種類(屬性)標準化:\hat{X}_{ij}=\frac{X_{ij}-\bar{X}_i}{\sqrt{\sum_{j=1}^N (X_{ij}-\bar{X}_i)^2}}  (3)

  對樣方(實體)標準化:\hat{X}_{ij}=\frac{X_{ij}-\bar{X}_j}{\sqrt{\sum_{i=1}^p (X_{ij}-\bar{X}_j)^2}}  (4)

  式中,字母的含義同中心化,經離差標準化的數據很容易計算種類(屬性)間或樣方(實體)目的相關係數

  3.數據正規化

  數據正規化(normalization)就是用標準差進行標準化。標準差等於離差除以自由度N-1或P-1,所以正規化方式如下。

  對種類正規化  \hat{X}_{ij}=\frac{X_{ij}-\bar{X}_i}{\frac{\sqrt{\sum_{j=1}^N (X_{ij}-\bar{X}_i)^2}}{(N-1)}}  (5)

  對樣方正規化  \hat{X}_{ij}=\frac{X_{ij}-\bar{X}_j}{\frac{\sqrt{\sum_{i=1}^P (X_{ij}-\bar{X}_j)^2}}{(P-1)}}  (6)

  對種類正規化後的數據,每行的平均值為0,方差為1;對樣方正規化後,每列的平均值為0,方差也為1。

  4.其他標準化

  還有一些標準化方法,其做法是將原始數據除以某一值,如將原始數據除以行或列的和,稱總和標準化;如果原始數據除以每行或每列中的最大值,叫做最大值標準化;如果原始數據除以行或列的和的平方根,則稱為模標準化(norm standardization)(陽含熙和盧澤愚 1981)。

  以上是主要標準化方法的基本計算。在實踐中,標準化往往還需要考慮權重,以更好地反映生態關係。比如,在對應分析(CA/RA)坐標值標準化中,一般以原始數據矩陣列之和為權重

數據標準化的意義[2]

  數據是信息系統的基礎,數據標準化主要包括數據交換、數據質量和數據說明文件等幾方面內容。數據交換即將一種數據格式轉換成為另外某種數據格式的技術。數據質量涉及數據要素的描述、分類,編碼等方面的內容。每個用戶都希望獲得現時的、完整而準確的數據。每個部門對數據的精度、流通性、完整性要求不同。數據質量標準對需要空間數據的一些要素進行描述,包括空間數據精度、屬性數據精度、邏輯一致性、數據完整性和層次關係等內容。

  數據標準化主要體現在對數據信息的分類和編碼。對數據信息的分類是指根據一定的分類指標形成相應的若幹層次目錄,構成一個有層次的逐級展開的分類體系。數據的編碼設計是在分類體系基礎上進行的,數據編碼要堅持系統性、惟一性、可行性、簡單性、一致性、穩定性、可操作性和標準化的原則,統一安排編碼結構和碼位。數據標準是數據共用和系統集成的重要前提,數據標準化可以節省費用,提高效率和方便應用,有利於系統推廣應用,實現數據共用,減少數據採集費用。

數據標準化與數據共用[2]

  數據可以在多個級別上共用,在最低級,多個記錄使用相同的數據項。在中級,多個應用使用相同的文件或數據項組合,多個數據項構成資料庫,一個系統可以包含許多單獨的資料庫。在數據共用的最高級,每一個完整的資料庫可以用於許多部門,同時也可以供其他行業乃至全社會使用。

  應用資料庫技術組織數據是實現數據共用的惟一的途徑。資料庫可以使數據與使用它們的各個應用程式相互獨立,互不依賴。不論程式改變還是數據改變都不引起另一方的改變,能夠很容易重新組織數據,加入新的數據。同樣,在數據結構、數據內容或數據存儲的物理介質發生改變,都不需要重寫程式。

  數據標準化是數據共用的前提,數據標準化的程度與數據共用的能力成正比。數據標準化能夠使各個應用系統對客觀實體的分類和描述手段一致,或者提供相應的轉換介面。在理解一致的前提下,應用標準數據編碼系統和統一的邏輯描述方式,使共用資料庫中成為可能。

企業數據標準化[3]

  企業信息化是指利用電腦網路技術,通過對信息資源的深度開發和廣泛利用,不斷提高生產和經營管理水平、提高相關決策的效率質量,從而提高企業經濟效益核心競爭力的過程。無疑,企業信息化是解決企業生產和管理中突出問題的有效措施,是促進企業高效生產、管理創新及體制創新的重要途徑,是帶動企業各項工作水平提升的重要突破口。信息化中關鍵的問題就是對信息資源的開發和利用,所謂的信息資源,歸根結底就是各類相關的“信息”,本質上就是數據,即有一定格式的、代表某些特殊意義的數據或數據集合。因此,企業信息化就是對企業數據集合進行數字化設計、實施、應用及管理,如何保證數據的規範化和標準化是企業信息化成敗最為關鍵的因素。數據標準化工作是企業進行信息化建設最基礎的工作,是信息化系統整體化和數據共用的基本保證。

  電腦系統是一套數據處理系統,要應用電腦處理各項業務,被處理的數據必須標準化、規範化,沒有標準化、規範化的數據,再大的投資也將付諸東流,業界流行的企業信息化是“三分技術、七分管理、十二分數據”,就是這個道理。只有實現數據的標準和統一,業務流程才能通暢流轉;只有實現數據的有效積累,決策才有據可循;只有數據準確,才能保證系統的完善。數據標準化、規範化是實現信息集成和共用的前提,在此基礎上才談得上信息的準確、完整和及時。沒有數據標準化,信息共用就無從談起,而數據標準化離不開業務模型的標準化、基礎數據的標準化和文檔的標準化,只有解決了這些方面的標準化,並實現信息資源的規範管理,才能從根本上消除各業務系統的“信息孤島”。以往許多企業信息化系統的失敗,在很大程度上是由於數據標準化工作的失誤造成的,或者是根本就沒有有效地進行數據標準化工作。

  企業信息化的最大效益來自信息的最廣泛共用、最快捷的流通和對信息進行深層次的挖掘。因此,如何將分散、孤立的各類信息變成網路化的信息資源,將眾多“孤島式”的信息系統進行整合,實現信息的快捷流通和共用,是企業信息化過程中亟待解決的問題。在企業信息化建設過程中,建設高質量的數據標準化體系,是開發企業信息資源、建立全面支持企業信息化運行的IT資源平臺的基本工作。數據標準化體系的設計目標是規範、標準、可控、支持高效數據處理和深層數據分析的數據結構以及穩定、統一的數據應用體系及管理架構。

  (1)數據標準化體系建設

  數據標準化體系建設需要綜合運用關鍵成功因素法企業系統規劃法等分析方法,一方面使用戰略目標集轉換法和關鍵成功因素法,自上而下分析企業數據類別;另一方面藉助系統規劃和業務流程優化思想,梳理部分業務流程,自下而上提取基礎數據;進而,提取並識別概念資料庫、邏輯資料庫、數據類、數據元素,建立數據模型,遵循關係資料庫規範設計資料庫結構,最終實現信息的全面性和數據的規範性。

  目前企業信息化過程中數據標準化建設有兩種:全面標準化和漸進式標準化。全面標準化首先實施獨立的、全面的數據標準化項目,可以在整個企業範圍內基本完成“信息資源規劃(IRP)”工作,建立長期穩定的主題資料庫體系,各子系統的建設在上述穩定的“信息資源平臺”的基礎上建設;漸進式標準化則首先建立企業的數據標準化框架,配合試點子系統的運行,完成與試點子系統相關的業務數據以及部分管理數據的標準化工作,其後在遵循統一原則的前提下,各子系統項目分別完成相關的數據標準化工作,並將標準化成果納入企業數據資源平臺中。一般情況下,數據標準化體系建設應採取漸進式,數據標準化進程與信息化項目建設進程同步進行,在保證建設速度的同時堅持標準化原則,以支持企業信息資源充分共用與各子系統的整合,實現“速度與標準並重”,同時確保數據標準化的實用性,防止數據標準化空洞或流於形式。

  (2)建立數據模型

  數據模型包括兩個層面:①邏輯模型,也稱信息模型或概念模型,按照用戶的觀點對數據和信息進行建模,通常用實體和關係來表示,不依賴於某一個DBMS支持的數據模型;②物理模型,面向實際的資料庫,表現為數據結構(用於描述系統的靜態特性,研究與數據類型、內容、性質有關的對象,例如關係模型中的域、屬性、關係等)、數據操作(主要有檢索和更新兩大類操作,數據模型必須定義這些操作的確切含義、操作符號、操作規則以及實現操作的語言)以及數據的約束條件(一組完整性規則的集合。完整性規則是給定數據模型中數據及其聯繫所具有的制約和存儲規則,用以限定符合數據模型的資料庫狀態以及狀態的變化,以保證數據的正確、有效、相容)。此外,數據模型還應該提供定義完整性約束條件的機制

  建立數據模型的步驟如下:從實際業務中抽取各類實體→定義各個實體自身的屬性→定義各個實體之間關係,設計出實體-關係圖(E-R圖)→根據E—R圖把邏輯模型轉換為符合相關模型類型的物理模型→建立物理模型數據結構→定義物理模型數據的操作→定義和檢查物理模型的完整性。

  數據模型應該具有以下幾個主要的特性:①先進性,數據模型應該符合當前的技術標準,適應企業3~5年的發展需要,就是說在3~5年之內具有先進性;②可擴展性,數據模型必須具有可擴展性,根據企業的需要對模型進行擴展,支持企業的可持續發展;③可靠性,設計的數學模型必須準確可靠,能夠保證基於這些數據模型的信息系統的安全可靠運行;④一致性,設計的數學模型在整個企業範圍內是完全一致的。

  (3)建立數據編碼標準

  在信息化推進過程中,除了建立合理、完整的數據模型外,數據編碼這項基礎工作也是非常複雜的,其複雜程度超過軟體廠商的想象,許多軟體的應用並不是軟體本身的問題,也不是用戶不想應用,而是不能正確收集到全部的基礎數據,其中編碼是最大的問題。經驗表明,企業應用信息化等是否成功,只要瞭解其數據編碼工作是否真正做好即可,數據編碼工作做好了,其它方面的問題就比較容易解決。

  數據編碼是建立企業信息的基礎,關係到信息系統的整體效果和成敗。必須對企業的所有管理對象進行編碼,並且要做到每一個管理對象的編碼都是唯一的。電腦系統嚴格按代碼管理,各種代碼始終貫穿於所有信息中,如供應商在電腦中有供應商代碼,合同有合同代碼,商品商品代碼商品條碼商品分類有商品分類碼,人員有人員編碼,部門有部門編碼,而且代碼與代碼之問有很大的關聯,因此在建立數據編碼標準時要充分考慮這些因素,使代碼與代碼之間進行協調統,在以後信息系統的數據準備中,嚴格依據所制定代碼按照標準化、規範化進行管理和執行。要進行編碼的管理對象大致包括下列各項:①產品系列編碼,包括產品編碼、原料編碼、輔料編碼、半成品編碼、在製品編碼、包裝材料編碼等;②對外系列編碼,包括客戶編碼、供應商編碼等;③倉庫系列編碼,包括倉庫編碼、庫區編碼、庫位編碼等;④組織系列編碼,包括部門編碼、人員編碼、職務編碼等,⑤設備系列編碼,包括設備編碼、備品備件編碼等;⑥財務系列編碼,包括科目編碼;⑦工藝流程與裝置編碼等。

  編碼的分類與取值是否科學合理直接關係到信息處理、檢索和傳輸的自動化水平與效率,信息編碼是否規範和標準影響和決定了信息的交流與共用等性能。因此,編碼必須遵循科學性、系統性、可擴展性、兼容性和綜合性等基本原則,從系統工程的角度出發,把局部問題放在系統整體中考慮,達到全局優化效果。遵循國際標準國家標準行業標準企業標準的原則,建立適合和滿足本企業管理需要的信息編碼體系和標準。只有信息分類編碼標準、統一,各信息系統才能夠有效地集成和共用。在編碼過程中,要遵循以下三個原則:首先要樹立整個企業一體化的思想,要求所有的編碼要站在整個企業的角度進行;其次,編碼既要考慮到現有的需求,也要結合未來的需求;第三,編碼要規範化。

  (4)信息系統集成標準化

  數據標準化也是信息系統集成項目中非常重要的一點,信息系統集成是一項具有知識密集、資料密集、工作量大等特點的系統工程,包括主要信息指標體系標準化、信息系統開發標準化、信息交換介面標準化等標準化工作。

  ①信息指標體系標準化信息指標體系是指一定範圍內所有信息的標準,按其內在聯繫所組成的、科學的有機整體,它應具有目標性、集合性、可分解性、相關性、適應性和整體性等特征。在管理層次和管理部門眾多的情況下,只有統一和規範指標體系,才能使各系統和各個層次開發和實施的信息系統能夠實現數據和信息的兼容與共用。

  ②信息系統開發標準化信息系統開發標準化主要指在系統開發中遵守統一的系統設計規範、程式開發規範和項目管理規範。系統設計規範定欄位、資料庫、程式和文檔的命名規則和編製方法,應用程式界面的標準和風格等。程式開發規範對應用程式進行模塊劃分、標準程式流程的編寫、對象或變數命名、數據校驗及出錯處理等過程和方法做出規定。項目管理規範規定項目開發過程中各類問題(如設計問題、程式問題等)的處理規範和修改規則,文檔的編寫維護,在信息系統開發過程中,必須遵守軟體工程設計規範,實現信息系統開發標準化。

  ③信息交換介面標準化目前有許多企業使用的各種應用系統,大多是在不同的操作系統、資料庫系統程式設計語言、硬體平臺和網路環境下開發與運行的,這些應用系統在開發時並沒有考慮到企業數據的集成,造成企業內部數據比較散亂,容易出現數據不一致的現象。可以說信息系統的質量與介面的標準化密切相關,介面標準化已成為企業數據信息標準化的重要一環。信息交換介面標準化對信息系統內部和信息系統之間各種軟體和硬體的介面與聯繫方式,以及信息系統輸入和輸出的格式制定規範和標準,包括網路的互聯標準和通信協議、各種資料庫的數據交換格式,不同信息系統之間數據的轉換方式等。

  總之,兩化融合建設是一項長期的系統工程,兩化融合的出發點和落腳點是實現信息共用和管理信息化。沒有標準化,就不能實現信息共用;沒有卓有成效的信息管理,就沒有成功高效的業務流程,更建立不起來全企業的清潔生產管理與信息化的兩化融合系統。標準化是企業兩化融合建設的基礎性工作,直接影響兩化融合成敗,只有管好數據、用好數據。保證數據的唯一性、完整性、準確性、及時性,才能使兩化融合系統真正發揮出應有的作用。企業進行兩化融合工作,在加快基礎設施建設和信息系統建設的同時,必須同樣加強相關的標準化工作,不僅要為兩化融合提供硬體基礎,更要為兩化融合提供軟體保障。標準化是兩化融合的基礎,只有實現了標準化,才能充分保障兩化融合的健康,才能保障企業兩化融合建設的經濟效益、支持企業的戰略發展。

參考文獻

  1. 張金屯著.第二章 數據的處理 數量生態學 第二版.科學出版社,2011.05.
  2. 2.0 2.1 李紀人,黃詩峰等編著.第十章 運行系統設計及數據標準語共用 “3S”技術水利應用指南.中國水利水電出版社,2003年04月第1版.
  3. 顧祥柏,耿志強編著.第一章 節能減排管理的引擎——標準化與信息化 石油化工節能減排智能管理.化學工業出版社,2011.08.
本條目對我有幫助19
MBA智库APP

扫一扫,下载MBA智库APP

分享到:
  如果您認為本條目還有待完善,需要補充新內容或修改錯誤內容,請編輯條目

本条目由以下用户参与贡献

李漠,连晓雾,Gaoshan2013,方小莉,Mis铭,寒曦.

評論(共0條)

提示:評論內容為網友針對條目"數據標準化"展開的討論,與本站觀點立場無關。

發表評論請文明上網,理性發言並遵守有關規定。

打开APP

以上内容根据网友推荐自动排序生成

闽公网安备 35020302032707号