數據倉庫

用手机看条目

出自 MBA智库百科(https://wiki.mbalib.com/)

數據倉庫(Data Warehouse,DW)

目錄

什麼是數據倉庫

  數據倉庫之父比爾·恩門(Bill Inmon)在1991年出版的“Building the Data Warehouse”(《建立數據倉庫》)一書中所提出的定義被廣泛接受,數據倉庫是一個面向主題的(Subject Oriented)、集成的(Integrate)、相對穩定的(Non-Volatile)、反映歷史變化(Time Variant)的數據集合,用於支持管理決策

  數據倉庫是一個過程而不是一個項目;數據倉庫是一個環境,而不是一件產品。數據倉庫提供用戶用於決策支持的當前和歷史數據,這些數據在傳統的操作型資料庫中很難或不能得到。數據倉庫技術是為了有效的把操作形數據集成到統一的環境中以提供決策型數據訪問,的各種技術和模塊的總稱。所做的一切都是為了讓用戶更快更方便查詢所需要的信息,提供決策支持。

數據倉庫的特點

  1、面向主題

  操作型資料庫的數據組織面向事務處理任務,各個業務系統之間各自分離,而數據倉庫中的數據是按照一定的主題域進行組織的。

  2、集成的

  數據倉庫中的數據是在對原有分散的資料庫數據抽取、清理的基礎上經過系統加工、彙總和整理得到的,必須消除源數據中的不一致性,以保證數據倉庫內的信息是關於整個企業的一致的全局信息。

  3、相對穩定的

  數據倉庫的數據主要供企業決策分析之用,所涉及的數據操作主要是數據查詢,一旦某個數據進入數據倉庫以後,一般情況下將被長期保留,也就是數據倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的載入、刷新。

  4、反映歷史變化

  數據倉庫中的數據通常包含歷史信息,系統記錄了企業從過去某一時點(如開始應用數據倉庫的時點)到目前的各個階段的信息,通過這些信息,可以對企業的發展歷程和未來趨勢做出定量分析和預測。

數據倉庫的組成

  1、數據倉庫資料庫

  數據倉庫的資料庫是整個數據倉庫環境的核心,是數據存放的地方和提供對數據檢索的支持。相對於操縱型資料庫來說其突出的特點是對海量數據的支持和快速的檢索技術。

  2、數據抽取工具

  數據抽取工具把數據從各種各樣的存儲方式中拿出來,進行必要的轉化、整理,再存放到數據倉庫內。對各種不同數據存儲方式的訪問能力是數據抽取工具的關鍵,應能生成COBOL程式、MVS作業控制語言(JCL)、UNIX腳本、和SQL語句等,以訪問不同的數據。數據轉換都包括,刪除對決策應用沒有意義的數據段;轉換到統一的數據名稱和定義;計算統計和衍生數據;給缺值數據賦給預設值;把不同的數據定義方式統一。

  3、元數據

  元數據是描述數據倉庫內數據的結構和建立方法的數據。可將其按用途的不同分為兩類,技術元數據和商業元數據。

  技術元數據是數據倉庫的設計和管理人員用於開發和日常管理數據倉庫是用的數據。包括:數據源信息;數據轉換的描述;數據倉庫內對象和數據結構的定義;數據清理和數據更新時用的規則;源數據到目的數據的映射;用戶訪問許可權,數據備份歷史記錄,數據導入歷史記錄,信息發佈歷史記錄等。

  商業元數據從商業業務的角度描述了數據倉庫中的數據。包括:業務主題的描述,包含的數據、查詢、報表;

  元數據為訪問數據倉庫提供了一個信息目錄(informationdirectory),這個目錄全面描述了數據倉庫中都有什麼數據、這些數據怎麼得到的、和怎麼訪問這些數據。是數據倉庫運行和維護的中心,數據倉庫伺服器利用他來存貯和更新數據,用戶通過他來瞭解和訪問數據。

  4、訪問工具

  為用戶訪問數據倉庫提供手段。有數據查詢和報表工具;應用開發工具;經理信息系統EIS)工具;聯機分析處理(OLAP)工具;數據挖掘工具。

  5、數據集市Data Marts

  為了特定的應用目的或應用範圍,而從數據倉庫中獨立出來的一部分數據,也可稱為部門數據或主題數據(subjectarea)。在數據倉庫的實施過程中往往可以從一個部門的數據集市著手,以後再用幾個數據集市組成一個完整的數據倉庫。需要註意的就是再實施不同的數據集市時,同一含義的欄位定義一定要相容,這樣再以後實施數據倉庫時才不會造成大麻煩。

  數據倉庫管理:安全和特權管理;跟蹤數據的更新;數據質量檢查;管理和更新元數據;審計和報告數據倉庫的使用和狀態;刪除數據;複製、分割和分發數據;備份和恢復;存儲管理。

  信息發佈系統:把數據倉庫中的數據或其他相關的數據發送給不同的地點或用戶。基於Web的信息發佈系統是對付多用戶訪問的最有效方法。

數據倉庫的步驟

  1、數據倉庫的設計步驟

  1)選擇合適的主題(所要解決問題的領域)。

  2)明確定義fact表。

  3)確定和確認維。

  4)choosing the facts。

  5)計算並存儲fact表中的衍生數據段。

  6)rounding out the dimension tables。

  7)choosing the duration of the database。

  8)the need to tracks lowly changing dimensions。

  9)確定查詢優先順序和查詢模式。

  2、數據倉庫的建立步驟

  1)收集和分析業務需求。

  2)建立數據模型和數據倉庫的物理設計。

  3)定義數據源。

  4)選擇數據倉庫技術和平臺。

  5)從操作型資料庫中抽取、凈化、和轉換數據到數據倉庫。

  6)選擇訪問和報表工具。

  7)選擇資料庫連接軟體。

  8)選擇數據分析和數據展示軟體。

  9)更新數據倉庫 。

數據倉庫和數據集市

  有關決策支持型資料庫的數據集市是面向企業中的某個部門或是項目小組的。一些專家顧問將數據集市的建造描述為建立數據倉庫全過程中的一步。首先,一個儲存企業全部信息的數據倉庫被創建,其中,數據均具備有組織的、一致的、不變的格式。數據集市隨後被創立,其目的是為不同部門提供他們所需要的那部分信息。數據倉庫聚集了所有詳細的信息,而數據集市中的數據則是針對用戶們的特定需求總結而出的。

  而另外一些專家則認為數據集市的建立並不需要首先建立一個數據倉庫。在這個模型中,數據直接由事務型資料庫轉入數據集市中。一個公司可能建立有多個數據集市,而彼此之間毫無聯繫。

  這種不在建立數據倉庫的基礎上創建數據集市的方式會更便宜、更快速,因為它的規模更加易於管理。

  第二種觀點的缺陷在於無法實現最初創建數據倉庫的最主要的目的——將企業所有的數據統一為一致的格式。現有的事務處理系統的數據往往是不一致、冗餘的。如果首先建立起一個全公司範圍的數據倉庫,組織就能夠獲得一個統一關於企業的活動和客戶的知識庫。如果先建立起一個個獨立的數據集市,那麼數據倉庫的諸多優勢都能夠得以實現,但是企業遠遠無法做到對數據的一致的儲存。

相關條目

本條目對我有幫助49
MBA智库APP

扫一扫,下载MBA智库APP

分享到:
  如果您認為本條目還有待完善,需要補充新內容或修改錯誤內容,請編輯條目

評論(共2條)

提示:評論內容為網友針對條目"數據倉庫"展開的討論,與本站觀點立場無關。
宋海波 (討論 | 貢獻) 在 2012年3月17日 22:17 發表

怎麼下載啊 ?

回複評論
203.187.183.* 在 2013年11月25日 15:27 發表

宋海波 (討論 | 貢獻) 在 2012年3月17日 22:17 發表

怎麼下載啊 ?

+1

回複評論

發表評論請文明上網,理性發言並遵守有關規定。

MBA智库
打开APP

以上内容根据网友推荐自动排序生成