關於資料倉庫的特點及組成的概述

語言: CN / TW / HK

資料倉庫是一個過程而不是一個專案,資料倉庫是一個環境而不是一個產品。資料倉庫為使用者提供了用於決策支援的當前和歷史資料,這些資料在傳統的操作型資料庫中很難或不能得到。 資料倉庫技術是為了有效地把操作型資料整合到統一的環境中,以提供決策型資料訪問的各種技術和模組的總稱 。其所做的一切都是為了讓使用者更快、更方便地查詢所需要的資訊,提供決策支援。

1、資料倉庫的特點

(1)面向主題

操作型資料庫中的資料組織是面向事務來處理任務的,各個業務系統之間相互分離,而資料倉庫中的資料是按照一定的主題域進行組織的。

(2)整合

資料倉庫中的資料是在對原有分散的資料庫資料抽取、清理的基礎上經過系統加工、彙總和整理得到的,必須消除源資料中的不一致性,以保證資料倉庫內的資訊是關於整個企業的一致性的全域性資訊。

(3)相對穩定

資料倉庫中的資料主要供企業決策分析之用,所涉及的資料操作主要是資料查詢,一旦某個資料進入資料倉庫以後,一般情況下將被長期保留。也就是說,在資料倉庫中一般存在大量的查詢操作,但修改和刪除操作很少,通常只需要定期載入、重新整理即可。

(4)反映歷史變化

資料倉庫中的資料通常包含歷史資訊,系統記錄了企業從過去某一時間點(如開始應用資料倉庫的時間點)到目前的各個階段的資訊,通過這些資訊可以對企業的發展歷程和未來趨勢做出定量分析和預測。

2、資料倉庫的組成

(1)資料倉庫資料庫

資料倉庫的資料庫是整個資料倉庫環境的核心,是存放資料的地方,提供對資料檢索的支援。相對於操作型資料庫來說,其突出的特點是對海量資料的支援和快速檢索。

(2)資料抽取工具

資料抽取工具把資料從各種各樣的儲存方式中拿出來,進行必要的轉換、整理,再存放到資料倉庫內。對各種不同的資料儲存方式的訪問能力是資料抽取工具的關鍵。資料轉換包括:刪除對決策應用沒有意義的資料段、轉換為統一的資料名稱和定義、計算統計和衍生資料、給缺值資料賦預設值、統一不同的資料定義方式。

(3)元資料

元資料是描述資料倉庫內資料的結構和建立方法的資料。按用途可將元資料分為兩類:技術元資料和商業元資料。

技術元資料是資料倉庫的設計和管理人員用於開發和日常管理資料倉庫使用的資料。技術元資料包括:資料來源資訊、資料轉換的描述、資料倉庫內物件和資料結構的定義、資料清理和資料更新使用的規則、源資料到目的資料的對映、使用者訪問許可權、資料備份歷史記錄、資料匯入歷史記錄、資訊釋出歷史記錄等。

商業元資料從商業業務的角度描述了資料倉庫中的資料。商業元資料包括:業務主題的描述,以及所包含的資料、查詢、報表。

元資料為訪問資料倉庫提供了一個資訊目錄,這個目錄全面描述了資料倉庫中都有什麼資料、這些資料是怎麼得到的,以及怎麼訪問這些資料。它是資料倉庫執行和維護的中心,資料倉庫伺服器利用它來儲存和更新資料,使用者通過它來了解和訪問資料。

(4)訪問工具

訪問工具為使用者訪問資料倉庫提供手段。訪問工具有資料查詢和報表工具、應用開發工具、聯機分析處理(OLAP)工具、資料探勘工具。

(5)資料集市(Data Market)

資料集市是為了特定的應用目的或應用範圍,而從資料倉庫中獨立出來的一部分資料,也可稱為部門資料或主題資料。在資料倉庫的實施過程中往往可以從一個部門的資料集市著手,以後再用幾個資料集市組成一個完整的資料倉庫。需要注意的是,在實施不同的資料集市時,具有相同含義的欄位定義一定要相容,這樣在以後實施資料倉庫時才不會造成大麻煩。

在大資料時代,我們對資料倉庫的理解是,它代表的是一種對資料的管理和使用的方式,是一套包括 ETL、排程、建模在內的完整的理論體系。