全球专业中文经管百科,由121,994位网友共同编写而成,共计436,047个条目

數據粒度

用手机看条目

出自 MBA智库百科(https://wiki.mbalib.com/)

目錄

什麼是數據粒度

  數據粒度是屬於商業智能BI)中數據倉庫里的相關概念,所謂商業智能是指將數據轉換百成信息的過程,然後通過發現將信息轉化度為知識,實質上即是通過應用基於事實的支持系統來輔助商業決策的制定,有利於商務管理的信息化管理

  數據粒度是指數據倉庫的數據單位中保存數據的細化或綜合程度的級別。細化程度越高,粒度級就越小;相反,細化程度越低,粒度級就越大。確定粒度是數據倉庫開發人員須要面對的一個重要的設計問題。假設數據倉庫的粒度確定合理。設計和實現中的其餘方面就能夠很順暢地進行;反之,假設粒度確定的不合理就會是其它全部方面都很難進行。粒度的大小需要數據倉庫在設計時在數據量大小與查詢的詳細程度之間作出權衡。[1]

數據粒度的設計問題

  粒度對於數據倉庫體繫結構設計人員來說,十分重要。粒度會影響存放在數據倉庫中的數據量的大小,同時影響數據倉庫所能回答的查詢類型。粒度的主要問題是使其處於一個合適的級別,粒度的級別既不能太高也不能太低。低的粒度級別能提供詳盡的數據。但要占用較多的存儲空間和須要較長的查詢時間。高的粒度級別能高速方便的進行查詢。但不能提供過細的數據。在選擇合適粒度級別的過程中,要結合業務的特點、分析的類型、依據的總的存儲空間的等因素綜合考慮。

數據倉庫中的粒度模型[1]

  所謂粒度,指的是數據倉庫中數據單元的細節程度或綜合程度的級別。在數據倉庫中記錄數據或對數據進行綜合時所使用的時間段參數。它決定了數據倉庫中所存儲的數據單元在時間上的具體程度和級別。

  粒度可分為兩種形式:

  第一種形式的粒度是對數據倉庫中數據綜合程度高低的一個度量,它既影響到數據倉庫中數據量的多少,也能影響到數據倉庫所能回答的訊問的種類。粒度越小,則詳細程度越高,綜合程度就越低,回答詢問的種類也越多;相反,粒度越大,則詳細程度越低,綜合程度就越高,回答詢問的種類也就越少。

  另一種形式的粒度是樣本資料庫粒度,與通常意義下的粒度不同,樣本資料庫的粒度級別不是根據綜合程度的不同來劃分的,而是根據採樣率的高低來劃分的。採樣粒度不同的樣本資料庫可以具有相同的綜合級別。 樣本資料庫一般是以一定的採樣率從細節檔案數據或輕度綜.合數據中抽取的一個子集。它不是一般目的的資料庫,而是根據一定需求從數據源中獲得的一個樣本,因而也就不能回答一些細節性的問題。

  樣本資料庫的抽取可以按照數據的重要程度不同來進行。粒度的劃分是數據倉庫設計工作中一項重要內容。

數據粒度帶來的好處[1]

  數據倉庫中粒度化的數據是重用性的關鍵,這是因為它可以有眾多的用戶以不同的方式使用。如:數據可以同時滿足市場銷售財務部門需要。3個部門見到的數據基本上是相同的。市場部可以瞭解各地區每月的銷售情況,銷售部也可以瞭解每周各地區不同銷售人員的銷售情況,財務部可以瞭解各生產線的季度收入情況。粒度化帶米的另一個好處是其中包含了整個企業活動和事件的歷史。而且粒度的級別足夠詳細使得整個企業的數據為滿足不同的需而進行重構。

數據倉庫中的數據粒度的確定原則[2]

  1、確定數據粒度的基本準則

  在做數據倉庫設計時,設計者確定以數據的什麼層次作為粒度的劃分標準,將直接影響到數據倉庫中數據的存儲量及查詢質量,併進一步影響到系統是否能滿足最終用戶的分析需求。

  一般情況下,根據數據粒度劃分標準可以將數據倉庫中的數據劃分為:詳細數據、輕度總結、高度總結三級或更多級。在確定數據粒度時,應註意的一條原則是:細化程度越高,粒度越小;細化程度越低,粒度越大。確定數據粒度是數據倉庫設計的基礎,當數據粒度合理確定後,設計和實現的其他問題就會變得非常容易,相反,如果沒有合理地確定粒度,後續的工作就會很難進行下去。

  2、數據粒度劃分基本方法

  在數據倉庫邏輯設計過程中如何確定數據粒度,目前還沒有一個精確度量的方法,設計者應將考慮的重點放在數據倉庫中數據的存儲量大小及數據是否滿足最終客戶需求上。

  以參與的證券行業數據倉庫設計過程中數據粒度劃分為例,來說明數據粒度準則在實際工作中如何應用。證券行業屬於數據密集型企業,在日常的工作中積累了大量交易、財務、財經數據。證券公司通過建立數據倉庫可以充分利用這些數據,從這些數據中發現有價值的信息。利用數據倉庫提供的強大數據分析能力,能使證券公司在提升客戶服務、提高資產質量降低成本上起到非常重要的作用。數據倉庫具有面向主題的、集成的、相對穩定的、非易失性等特點。

  那麼,證券行業數據倉庫中數據粒度如何確定呢?首先是數據存儲量的估算,在這裡我們不可能知道精確的存儲量,但可採用粗略估算的方法來估算數據倉庫中將要使用到的DASD(直接存取存儲設備)數量。面對數據倉庫中確定的各主題域,設計者要建立若幹事實表,對每一個表中可能存儲的最多和最少數據進行估算是估算DASD的第一步。在估算過程中我們同樣不可能知道每個表的精確行數,這裡可以以數量級為估算單位初步估計行數的上下限。對於未來數據量變化趨勢,則只能以市場變化情況為依據來估算數據量的變化情況。例如證券行業,可以根據過去若幹年的客戶變化情況,估計未來一年內客戶數量的變化,進而估計5~10年的變化情況(註意要估算最多和最少的情況)。對每個事實表進行如上估算後,結合估算事實表的索引項大小,可以計算出最大、最小的DASD數。如證券行業數據倉庫系統Oracle作為DBMS,得到數據量估算表。(如表1)

  表1 數據量估算表

表空間名表空間說明用途MIN(M)MAX(M)
SYSTEM系統表空間系統X1Y1
TEMPI系統臨時表空間X2Y2
TOLS系統應用表空間X3Y3
TOLS系統用戶表空間X4Y4
小計 T1T2
TS_ORIGEN_TABLE原始層表事實表行大小*MIN(行數)*行大小*MAX(行數)*
TS_DC_IDX數據中心索引表空間估計索引項大小估計索引項大小
總計S1S2

  從表1我們得到了DASD的最大最小估算數據和行數的最大最小估算值,緊接著就是確定數據粒度了。這時可以參照行業經驗值來確定是否需要雙重或多重粒度, 但不管經驗值如何,筆者認為除非是輕量級的數據倉庫,一般均需要雙重粒度,大多數情況下數據倉庫需要多重粒度。表2是行業經驗值。

表2 數據粒度經驗值

一年期兩年期
10,000,000行雙重粒度級20,000,000行雙重粒度級
1,000,000行雙重粒度10,000,000行雙重粒度
100,000行都可以1,000,000行都可以
10,000行都可以100,000行都可以

  通過以上兩個步驟,我們對數據倉庫設計有一個初步認識,下麵是如何確定數據粒度級別。

  如果數據倉庫只需要單一粒度,則數據粒度的級別就沒有很高的討論價值,所以數據粒度級別是針對多重粒度而言出現的一個概念。什麼是數據粒度級別?數據粒度級別應該著重分析“級別”二字,其分析的對象是主題領域中某個確定的“維度”。例如對客戶交易在時間維度上進行分析,那麼就可以將數據粒度級別理解為:你準備在時間維上按什麼標準來對數據進行處理。對於雙重粒度和多重粒度的級別設計問題,沒有一個特別可行的方法來指導我們設計,唯一可行的辦法是採用猜測方法。在做數據倉庫設計時,你無法得到精確的需求,對DSS分析員來說,只有你拿出了具體的設計方案後,他們才能將有用的信息反饋給你,所以猜測法的出發點是DSS分析員的大概需求和你的實際經驗。總的來說,針對特定的主題域、特定的維度到底在何種級別上建立彙總數據,要根據項目大小來做決定,在太低細節級數據上建立彙總會使該彙總沒有任何實際意義,處理數據時將消耗大量資源;在太高細節級上建立彙總數據將會使處理時過多依賴真實檔案。筆者在設計證券行業數據倉庫時,粒度級別是這樣確定的:如果要對客戶交易行為分析,可以確定如下分析維度,交易方式(現場、非現場)、交易手段(互聯網電話、熱鍵、刷卡)、交易時間等等。現在DSS分析員要對客戶的交易手段進行分析,在設計數據倉庫時,多重粒度的設計是毫無疑問的了,那麼數據粒度級別如何確定呢?你在時間維上按什麼來彙總數據確保DSS分析員做分析時能得到他們需要的數據呢?首先考慮的是在詳細數據的基礎上以較低級別來彙總數據(如以交易日單位),那麼做年度數據分析時,系統必然要消耗很大資源;但如果在較高級別上彙總數據(以年為單位),則極有可能需要向下挖掘數據來分析其月或者日的數據。 因此,你唯一可行的辦法是猜測,進而與DSS分析員交流來確定數據粒度級別。在這裡,採用三重粒度設計方案,數據倉庫中包括詳細數據、按月彙總數據、按年彙總數據。經過上述幾個步驟,基本符合要求的數據粒度已經確立,在最終確定以前必須與用戶反覆討論,確定數據粒度劃分是否符合所有主題域分析需求

參考文獻

  1. 1.0 1.1 1.2 呂海燕,車曉偉.數據倉庫中數據粒度的劃分[J].電腦工程與設計,2009,30(09):2323-2325+2328.
  2. 李靜.數據倉庫中的數據粒度確定原則[J]. 電腦與現代化, 2007, 000(002):57-58,61.
本條目對我有幫助7
MBA智库APP

扫一扫,下载MBA智库APP

分享到:
  如果您認為本條目還有待完善,需要補充新內容或修改錯誤內容,請編輯條目投訴舉報

本条目由以下用户参与贡献

33,Tracy.

評論(共0條)

提示:評論內容為網友針對條目"數據粒度"展開的討論,與本站觀點立場無關。

發表評論請文明上網,理性發言並遵守有關規定。

打开APP

以上内容根据网友推荐自动排序生成

官方社群
下载APP

闽公网安备 35020302032707号