數據整合是把在不同數據源的數據收集、整理(lǐ)、清洗,轉換後(有點像ETL)加載到一個新的數據源,爲數據消費者提供統一數據視圖的數據集成方式。
一:基本概念
數據整合是共享或者合并來(lái)自(zì)于兩個或者更多應用的數據,創建一個具有更多功能的企業應用的過程。傳統的商業應用有很強的面向對象性——即他(tā)們依靠持續的數據結構爲商業實體(tǐ)和過程建模。當這種情況發生(shēng)時,邏輯方式是通過數據共享或合并進行整合,而其他(tā)情況下,來(lái)自(zì)于一個應用的數據可(kě)能是重新構造才能和另一個應用的數據結構匹配,然後被直接寫進另一個數據庫。
二:數據整合工(gōng)具
比較成熟穩定的産品有:Kettle、Informatica、Datastage、ODI ,OWB、微軟DTS、HaoheDI、Teradata
三:如(rú)何選擇數據整合工(gōng)具一般來(lái)說(shuō)需要考慮以下幾個方面:
(1)對平台的支持程度。
(2)對數據源的支持程度。
(3)抽取和裝載的性能是不是較高,且對業務系統的性能影(yǐng)響大(dà)不大(dà),傾入性高不高。
(4)數據轉換和加工(gōng)的功能強不強。
(5)是否具有管理(lǐ)和調度功能。
(6)是否具有良好的集成性和開放(fàng)性
四:數據整合的必要性
1、數據和信息系統分(fēn)散
我國(guó)信息化經過多年(nián)的發展,已開發了衆多計(jì)算機(jī)信息系統和數據庫系統,并積累了大(dà)量的基礎數據。然而,豐富的數據資源由于建設時期不同,開發部門(mén)不同、使用設備不同、技術(shù)發展階段不同和能力水平的不同等,數據存儲管理(lǐ)極爲分(fēn)散,造成了過量的數據冗餘和數據不一緻性,使得(de)數據資源難于查詢訪問(wèn),管理(lǐ)層無法獲得(de)有效的決策數據支持。往往管理(lǐ)者要了解所管轄不同部門(mén)的信息,需要進入衆多不同的系統,而且數據不能直接比較分(fēn)析。
2、信息資源利用程度較低
一些信息系統集成度低、互聯性差、信息管理(lǐ)分(fēn)散,數據的完整性、準确性、及時性等方面存在較大(dà)差距 。有些單位已經建立了内部網和互聯網,但(dàn)多年(nián)來(lái)分(fēn)散開發或引進的信息系統,對于大(dà)量的數據不能提供一個統一的數據接口,不能采用一種通用的标準和規範,無法獲得(de)共享通用的數據源,于是不同的應用系統之間必然會形成彼此隔離(lí)的信息孤島。缺乏共享的、網絡化的可(kě)用度高的信息資源體(tǐ)系。
3、支持管理(lǐ)決策能力較低
同時,随着計(jì)算機(jī)業務數量的增加,管理(lǐ)人(rén)員(yuán)的操作也越來(lái)越多,越來(lái)越複雜 ,許多日(rì)趨複雜的中間業務處理(lǐ)環節依然或多或少地依靠手工(gōng)處理(lǐ)進行流轉;信息加工(gōng)分(fēn)析手段差,無法直接從(cóng)各級各類業務信息系統采集數據并加以綜合利用,無法對外部信息進行及時、準确的收集反饋,業務系統産生(shēng)的大(dà)量數據無法提煉升華爲有用的信息,并及時提供給管理(lǐ)決策部門(mén);已有的業務信息系統平台及開發工(gōng)具互不兼容,無法在大(dà)範圍内應用等。
數據的共享度達不到單位對信息資源的整體(tǐ)開發利用的要求。簡單的應用多,交叉重複也多,能支持管理(lǐ)和決策的應用少,能利用網絡開展經營活動的應用更少。數據中蘊藏着巨大(dà)信息資源,但(dàn)是沒有通過有效工(gōng)具充分(fēn)挖掘利用,信息資源的增值作用還(hái)沒有在管理(lǐ)決策過程中充分(fēn)發揮。