亚洲成精品动漫久久精久,九九在线精品视频播放,黄色成人免费观看,三级成人影院,久碰久,四虎成人欧美精品在永久在线

掃一掃
關(guān)注微信公眾號(hào)

數(shù)據(jù)治理與數(shù)據(jù)中臺(tái)架構(gòu)
2023-04-23   DataFunTalk

隨著工業(yè) 4.0 時(shí)代的到來(lái),傳統(tǒng)行業(yè)的數(shù)字化轉(zhuǎn)型是大勢(shì)所趨;將數(shù)據(jù)提高到數(shù)據(jù)要素層面,讓傳統(tǒng)的技術(shù)在新的場(chǎng)景下發(fā)揮出新的作用,是近期研究和探討的焦點(diǎn)話題。數(shù)語(yǔ)科技支持和服務(wù)傳統(tǒng)行業(yè)多年,聚焦于傳統(tǒng)數(shù)據(jù)建模和數(shù)據(jù)架構(gòu)設(shè)計(jì)。本文針對(duì)數(shù)據(jù)資產(chǎn)建模部分,介紹數(shù)語(yǔ)科技在數(shù)據(jù)治理和數(shù)據(jù)中臺(tái)架構(gòu)方面的相關(guān)技術(shù),并分享相關(guān)的企業(yè)實(shí)踐案例。

一、數(shù)據(jù)架構(gòu)與數(shù)據(jù)模型概述

1、DAMA DMBOK 數(shù)據(jù)架構(gòu)與數(shù)據(jù)治理

數(shù)據(jù)架構(gòu)及數(shù)據(jù)模型管理是數(shù)據(jù)治理體系的重要組成部分。類似于項(xiàng)目管理中的 PMI、PMP,國(guó)際上于 1980 年成立了 DAMA(數(shù)據(jù)資產(chǎn)管理協(xié)會(huì))。DAMA 凝集了數(shù)百位專家的經(jīng)驗(yàn),最終形成業(yè)界通用的數(shù)據(jù)管理框架(DMBOK)。DAMA-DMBOK 數(shù)據(jù)管理框架(又稱為 DAMA 車輪圖),主要由 11 個(gè)知識(shí)領(lǐng)域構(gòu)建而成,其中數(shù)據(jù)架構(gòu)和數(shù)據(jù)模型是這套方法論最重要的兩個(gè)維度。

數(shù)據(jù)架構(gòu)主要用來(lái)識(shí)別企業(yè)的數(shù)據(jù)需求,并設(shè)計(jì)藍(lán)圖,最終輸出數(shù)據(jù)架構(gòu)設(shè)計(jì)和實(shí)施路線圖,詳見(jiàn)下圖所示。

 

 

2、建設(shè)數(shù)據(jù)模型的流程

 

 

數(shù)據(jù)模型的建立,業(yè)界通用的方法論如下所述:

① 前期的設(shè)計(jì)主要聚焦于業(yè)務(wù),基于客戶需求,完成概念模型和邏輯模型的設(shè)計(jì);

② 進(jìn)一步,基于企業(yè)現(xiàn)有的技術(shù)環(huán)境和性能要求,將概念模型和邏輯模型轉(zhuǎn)化成可落地的物理模型;

③ 再進(jìn)一步,將物理模型結(jié)合實(shí)際數(shù)據(jù)轉(zhuǎn)化成數(shù)據(jù)庫(kù)表結(jié)構(gòu)(以及創(chuàng)建表結(jié)構(gòu)對(duì)應(yīng)的 DDL 腳本),最終形成數(shù)據(jù)庫(kù)表字段;

④ 對(duì)于模型的設(shè)計(jì)和落地過(guò)程中的重要節(jié)點(diǎn),往往會(huì)形成一套相應(yīng)的企業(yè)標(biāo)準(zhǔn),實(shí)現(xiàn)規(guī)范化。

不管源端系統(tǒng)有沒(méi)有進(jìn)行模型設(shè)計(jì),數(shù)據(jù) schema 都存在,都可以通過(guò)逆向工程抽取出來(lái)提煉成模型,這些模型更多地描述業(yè)務(wù)系統(tǒng)涵蓋的數(shù)據(jù)范圍,以及數(shù)據(jù)之間的關(guān)系;如果模型質(zhì)量高,可以更好地幫助企業(yè)理解數(shù)據(jù)資產(chǎn)的價(jià)值。因此可以認(rèn)為,所有的系統(tǒng)都有數(shù)據(jù)模型,只是有些模型更容易理解,也更容易對(duì)企業(yè)產(chǎn)生價(jià)值。

3、所有模型都是為了業(yè)務(wù)開(kāi)展,不同視角,不同階段

 

 

對(duì)于如今流行的大數(shù)據(jù)概念,人們普遍將關(guān)注點(diǎn)聚焦在分析側(cè)(即 AP 側(cè))。實(shí)際上,大數(shù)據(jù)模型不僅僅包含 AP 側(cè),TP 側(cè)(即企業(yè)的源端業(yè)務(wù)系統(tǒng))在信息化或數(shù)字化過(guò)程中同樣會(huì)構(gòu)建出各種各樣的數(shù)據(jù)產(chǎn)品(或系統(tǒng)),最終應(yīng)用于企業(yè)內(nèi)部或外部客戶。

對(duì)于數(shù)據(jù)庫(kù)底層設(shè)計(jì),現(xiàn)階段大部分企業(yè)仍然使用傳統(tǒng)的數(shù)據(jù)庫(kù)構(gòu)建范式: 

① 在 TP 側(cè),通常使用三范式模型這類 Inmon 模型;

② 在 AP 側(cè)的數(shù)據(jù)集市,通常使用維度模型(如雪花模型、星型模型)這類 Kimball 模型;

此外,近期迭代出更多更加新型的數(shù)據(jù)模型范式,如 Data Vault 模型、統(tǒng)一星型模型等,覆蓋范圍更加廣泛,可更加廣泛地應(yīng)用于 TP 側(cè)和 AP 側(cè)。

4、數(shù)據(jù)模型按階段分類

 

 

① 業(yè)務(wù)系統(tǒng)模型,通常選擇三范式模型;

② ODS 模型通常從業(yè)務(wù)系統(tǒng)直接接入,因此也選擇三范式模型;

③ DWD 模型和 DWS 模型作為企業(yè)級(jí)數(shù)倉(cāng),既可采用傳統(tǒng)的三范式模型,也可使用現(xiàn)代的 Data Vault 模型來(lái)構(gòu)建,都支持多對(duì)多的關(guān)系;

④ 集市模型一般使用維度模型,便于實(shí)現(xiàn)數(shù)據(jù)的上卷和下鉆等分析操作。

5、數(shù)據(jù)模型介紹

 

 

數(shù)據(jù)的關(guān)系卻錯(cuò)綜復(fù)雜,成千上萬(wàn)個(gè)表通過(guò)各種關(guān)系或約束互聯(lián)形成復(fù)雜的結(jié)構(gòu)。以生活中常見(jiàn)的場(chǎng)景為例,如房屋平面圖、地圖等,用不同的符號(hào)向相關(guān)用戶清晰展示相關(guān)信息。

通過(guò)數(shù)據(jù)模型,用戶可以清晰看到現(xiàn)有數(shù)據(jù)庫(kù)的結(jié)構(gòu),并更直觀地理解關(guān)鍵的概念。數(shù)據(jù)模型主要包括概念模型、邏輯模型和物理模型這三個(gè)層次。

① 概念模型:主要用來(lái)描述世界的概念化結(jié)構(gòu),是一個(gè)高層次的數(shù)據(jù)模型,由核心的數(shù)據(jù)實(shí)體或其集合,以及實(shí)體間的關(guān)系組成;

② 邏輯模型:對(duì)概念數(shù)據(jù)模型進(jìn)一步的分解和細(xì)化,描述實(shí)體、屬性以及實(shí)體關(guān)系;

③ 物理模型:面向特定的數(shù)據(jù)庫(kù),結(jié)合數(shù)據(jù)庫(kù)特征,便于計(jì)算機(jī)實(shí)現(xiàn)的模型。

開(kāi)發(fā)者在進(jìn)行模型設(shè)計(jì)的過(guò)程中,通常會(huì)將大部分時(shí)間和精力聚焦在概念模型和邏輯模型的設(shè)計(jì)和迭代優(yōu)化;物理模型則類似于對(duì)概念模型和邏輯模型的“編譯”操作,通過(guò)生成并執(zhí)行 DDL 腳本最終實(shí)現(xiàn)數(shù)據(jù)庫(kù)以及相應(yīng) schema 的創(chuàng)建。

二、數(shù)據(jù)架構(gòu)與模型解決方案

1、解決方案 1——模型設(shè)計(jì)和開(kāi)發(fā)平臺(tái)一體化

通過(guò) ER 圖可視化,可實(shí)現(xiàn)邏輯模型或物理模型的設(shè)計(jì)。以下圖為例,數(shù)據(jù)包括 hub、link、Satellite 三個(gè)核心概念;使用 Data Vault 模型,可實(shí)現(xiàn)更加靈活的數(shù)倉(cāng)自動(dòng)化操作,以更便捷的方式實(shí)現(xiàn)模型的解耦,來(lái)構(gòu)建復(fù)雜的、具有業(yè)務(wù)深度的行業(yè)模型。

 

 

完成模型的設(shè)計(jì)后,生成相應(yīng)的 DDL 腳本,通過(guò) Create 功能或 Alter 功能,最終實(shí)現(xiàn)模型的管理和迭代。

 

 

2、解決方案 2——數(shù)據(jù)標(biāo)準(zhǔn)管控,數(shù)據(jù)規(guī)范檢查

(1)數(shù)據(jù)標(biāo)準(zhǔn)管控

在模型設(shè)計(jì)階段,所涉及的模型字段要實(shí)現(xiàn)標(biāo)準(zhǔn)化;通過(guò)指定或引用相關(guān)的企業(yè)級(jí)數(shù)據(jù)標(biāo)準(zhǔn),利用智能推薦,更加方便地實(shí)現(xiàn)數(shù)據(jù)表字段的選取。

數(shù)據(jù)建模工具一般具有數(shù)據(jù)標(biāo)準(zhǔn)的功能,在模型設(shè)計(jì)期間,研發(fā)人員可以通過(guò)拖拉的方式直接引用數(shù)據(jù)標(biāo)準(zhǔn),也可以在實(shí)體設(shè)計(jì)器中,使用智能推薦的數(shù)據(jù)標(biāo)準(zhǔn),優(yōu)化數(shù)據(jù)應(yīng)用模式,提升模型設(shè)計(jì)效率。

如下圖所示,以電力系統(tǒng)模型為例,在表結(jié)構(gòu)設(shè)計(jì)過(guò)程中,通過(guò)關(guān)鍵詞(如變壓器)可以直接關(guān)聯(lián)到相應(yīng)的數(shù)據(jù)標(biāo)準(zhǔn),進(jìn)而查詢到標(biāo)準(zhǔn)的字段名稱、物理類型、長(zhǎng)度精度、業(yè)務(wù)定義等信息,進(jìn)而將標(biāo)準(zhǔn)引入到實(shí)體屬性中,同時(shí)實(shí)現(xiàn)了字段名稱、數(shù)據(jù)類型、數(shù)據(jù)精度的規(guī)范,進(jìn)而實(shí)現(xiàn)了源端業(yè)務(wù)系統(tǒng)數(shù)據(jù)模型質(zhì)量的把控。

 

 

(2)命名詞典構(gòu)建

如果相關(guān)的企業(yè)或部門沒(méi)有制定嚴(yán)格的企業(yè)數(shù)據(jù)標(biāo)準(zhǔn),企業(yè)可以基于業(yè)務(wù)術(shù)語(yǔ)構(gòu)建統(tǒng)一術(shù)語(yǔ)詞典庫(kù)(即命名詞典);借助這一詞典庫(kù),解決研發(fā)人員建模時(shí)常見(jiàn)的“同一指標(biāo)多種命名”這類易發(fā)生歧義的問(wèn)題;開(kāi)發(fā)人員在模型構(gòu)建的過(guò)程中,對(duì)于模型實(shí)體及屬性命名,自動(dòng)基于詞典庫(kù)進(jìn)行翻譯,實(shí)現(xiàn)數(shù)據(jù)模型的命名規(guī)范,使物理模型的設(shè)計(jì)質(zhì)量更高。

 

 

(3)中央模型庫(kù)

多人協(xié)作集成模型,會(huì)涉及復(fù)雜的版本迭代、版本對(duì)比等版本管理問(wèn)題。因此,可建立類似 git 的中央模型庫(kù),基于數(shù)據(jù)模型服務(wù)器實(shí)現(xiàn)數(shù)據(jù)模型設(shè)計(jì)規(guī)范、數(shù)據(jù)標(biāo)準(zhǔn)及模型設(shè)計(jì)成果的在線化管理;提供模型設(shè)計(jì)工具,實(shí)現(xiàn)模型設(shè)計(jì)規(guī)范、數(shù)據(jù)標(biāo)準(zhǔn)以及模型在線應(yīng)用,為數(shù)據(jù)標(biāo)準(zhǔn)落地提供手段;支撐設(shè)計(jì)態(tài)及運(yùn)行態(tài)模型匹配監(jiān)測(cè),實(shí)現(xiàn)數(shù)據(jù)模型從規(guī)范化設(shè)計(jì)到應(yīng)用全過(guò)程在線管理。 

(4)數(shù)據(jù)規(guī)范工具

將開(kāi)發(fā)規(guī)則內(nèi)置到建模過(guò)程中,開(kāi)發(fā)對(duì)應(yīng)的數(shù)據(jù)規(guī)范工具和數(shù)據(jù)標(biāo)準(zhǔn)一致性檢查工具,以解決研發(fā)人員設(shè)計(jì)不規(guī)范、缺少數(shù)據(jù)標(biāo)準(zhǔn)約束等業(yè)務(wù)痛點(diǎn),最大程度地降低數(shù)據(jù)治理的成本:

① 數(shù)據(jù)規(guī)范工具可以檢測(cè)以下內(nèi)容:表和字段中文名稱不能為空;表和字段物理名稱不能為空等多項(xiàng)內(nèi)容。 

② 數(shù)據(jù)標(biāo)準(zhǔn)一致性檢查工具可以檢測(cè):數(shù)據(jù)類型、中文名、英文簡(jiǎn)稱是否和標(biāo)準(zhǔn)一致性等多項(xiàng)內(nèi)容。

 

 

3、解決方案 3——模型變更自動(dòng)化、智能化

基于數(shù)據(jù)模型服務(wù)器構(gòu)建數(shù)據(jù)模型庫(kù),數(shù)據(jù)庫(kù)承載數(shù)據(jù)標(biāo)準(zhǔn)、命名詞典、規(guī)范報(bào)告等信息;迭代優(yōu)化的模型通過(guò)統(tǒng)一的發(fā)版系統(tǒng)(如 jira、confluence 等)進(jìn)行統(tǒng)一發(fā)版,實(shí)現(xiàn)數(shù)據(jù)模型的存儲(chǔ)管理和版本變更管理,并提供模型在線查看編輯和多人協(xié)作等功能。

 

 

其核心功能點(diǎn)在于:

① 統(tǒng)一模型存儲(chǔ),Web 模型共享和查詢;

②實(shí)現(xiàn)模型版本管理,模型變更全歷史記錄;

③ 自動(dòng)進(jìn)行模型合規(guī)檢查,標(biāo)準(zhǔn)落標(biāo)報(bào)告;

④ 多人協(xié)作,同時(shí)編輯和修改模型;

⑤ 自動(dòng)生成建庫(kù)腳本,數(shù)據(jù)字典管理。

采用類似 git 的代碼管理方式,模型設(shè)計(jì)工具從模型,分支,版本三個(gè)層面對(duì)模型進(jìn)行管理,最終有效解決研發(fā)人員的模型版本管理,實(shí)現(xiàn)協(xié)同共享。

4、解決方案 4——數(shù)據(jù)模型和業(yè)務(wù)場(chǎng)景業(yè)務(wù)對(duì)象對(duì)應(yīng)

大型企業(yè)除了數(shù)據(jù)模型設(shè)計(jì),還需要對(duì)大量的業(yè)務(wù)場(chǎng)景做整合。業(yè)務(wù)架構(gòu)包括業(yè)務(wù)流程、業(yè)務(wù)活動(dòng)等,涉及大量的業(yè)務(wù)表單和對(duì)應(yīng)的業(yè)務(wù)對(duì)象。在數(shù)據(jù)模型的數(shù)據(jù)實(shí)體頁(yè)面,將每一個(gè)實(shí)體和業(yè)務(wù)場(chǎng)景中的每一個(gè)業(yè)務(wù)對(duì)象進(jìn)行綁定,進(jìn)而通過(guò) Datablau 自研的模型管控體系實(shí)現(xiàn)血緣關(guān)系的跟蹤和分析。

 

 

5、Datablau 模型管控體系簡(jiǎn)介

 

 

?Datablau 模型管控體系包括事前、事中和事后這 3 個(gè)部分:

① 事前:通過(guò)統(tǒng)一的建模工具,進(jìn)行模型設(shè)計(jì)。

② 事中:增加模型評(píng)審環(huán)節(jié),由領(lǐng)域架構(gòu)師、企業(yè)架構(gòu)師負(fù)責(zé)模型的評(píng)審,通過(guò)資產(chǎn)平臺(tái)進(jìn)行完整性檢查。

③ 事后:部署生產(chǎn)環(huán)境后,通過(guò)數(shù)據(jù)資產(chǎn)平臺(tái)檢查并監(jiān)?控模型的一致性、完整性并出具相關(guān)報(bào)告。

6、Datablau 模型管控體系與數(shù)據(jù)開(kāi)發(fā)

將 Datablau DDM 工具納入開(kāi)發(fā)投產(chǎn)流程后,各業(yè)務(wù)模塊需要進(jìn)行相應(yīng)的模型遷移,并使用平臺(tái)提供的典型能力進(jìn)行模型設(shè)計(jì)、開(kāi)發(fā)測(cè)試和投產(chǎn)。

(1)模型導(dǎo)入

① 模型導(dǎo)入:通過(guò)導(dǎo)入工具,將 PD、ERWin 等工具的模型導(dǎo)入 DDM 中。

② 逆向工程:通過(guò)直聯(lián)數(shù)據(jù)庫(kù)的方式,逆向生成模型。

③ 信息補(bǔ)全:補(bǔ)充模型中缺失的字段信息,例如字段中文名稱。

(2)設(shè)計(jì)階段

① 模型設(shè)計(jì):使用客戶端設(shè)計(jì)器進(jìn)行模塊設(shè)計(jì)與維護(hù)。

② 影響分析:設(shè)計(jì)階段能夠顯示模型的修改對(duì)下游系統(tǒng)的影響。

③ 字段引標(biāo):設(shè)計(jì)工具中能夠引用數(shù)據(jù)標(biāo)準(zhǔn)。

(3)評(píng)審階段

① 任務(wù)管理:提交模型時(shí)需要與任務(wù)進(jìn)行關(guān)聯(lián)。

② 分支管理:按照推薦的最佳實(shí)踐進(jìn)行分支管理,分支間按照任務(wù)進(jìn)行內(nèi)容合并。

③ 模型評(píng)審:模型的變更必須經(jīng)過(guò)線上評(píng)審。

(4)投產(chǎn)階段

① DDL 校驗(yàn):將投產(chǎn) DDL 與模型工具導(dǎo)出 DDL 比對(duì)。對(duì)于不匹配的部分,近期可以人工確認(rèn),遠(yuǎn)期改為系統(tǒng)認(rèn)定。

 

 

7、Datablau 模型分支管理策略

版本分支管理包括設(shè)計(jì)態(tài)和運(yùn)行態(tài)這兩部分。數(shù)據(jù)模型按照開(kāi)發(fā)與測(cè)試環(huán)境進(jìn)行對(duì)應(yīng)的版本管理,并基于每個(gè)分支的開(kāi)發(fā)、SIT、UAT、版本等不同發(fā)布狀態(tài)進(jìn)行相應(yīng)的管理,最終形成統(tǒng)一的分支管理策略。

8、模型設(shè)計(jì)和開(kāi)發(fā)平臺(tái)一體化

構(gòu)建模型設(shè)計(jì)和開(kāi)發(fā)平臺(tái)一體化管理流程,實(shí)現(xiàn)模型設(shè)計(jì)人員從模型設(shè)計(jì)到數(shù)據(jù)架構(gòu)師審批模型,再到模型腳本入業(yè)務(wù)系統(tǒng)庫(kù),并生成代碼嵌入數(shù)據(jù)標(biāo)準(zhǔn)給到開(kāi)發(fā)平臺(tái)。

這套數(shù)據(jù)建模管理流程,可有效地將數(shù)據(jù)模型轉(zhuǎn)化為企業(yè)數(shù)據(jù)資產(chǎn)。相比于直接抽取技術(shù)元數(shù)據(jù),數(shù)據(jù)資產(chǎn)化模型一方面大大提升了數(shù)據(jù)的質(zhì)量,另一方面增加了數(shù)據(jù)間的關(guān)系,以及各類數(shù)據(jù)背后的業(yè)務(wù)定義,使得數(shù)據(jù)信息更加全面和系統(tǒng)。

 

 

三、大型企業(yè)實(shí)踐案例

1、企業(yè)數(shù)據(jù)架構(gòu)——制造業(yè)概念模型

以制造業(yè)為例,下圖呈現(xiàn)了制造業(yè)高階概念模型,涉及管理類、運(yùn)營(yíng)類、支持類等業(yè)務(wù)板塊。

 

 

2、建立企業(yè)數(shù)據(jù)架構(gòu)-開(kāi)發(fā)路線圖——主題域模型

將上述業(yè)務(wù)板塊轉(zhuǎn)化為高階的主題域模型。以汽車廠為例,首先是進(jìn)行產(chǎn)品研發(fā),輸出產(chǎn)品部品即 BOM 清單;基于 BOM 清單進(jìn)行裝配、生產(chǎn),并關(guān)聯(lián)銷售清單;同時(shí) BOM 也會(huì)關(guān)聯(lián)銷售項(xiàng)目管理,最終和客戶管理、訂單管理、銷售管理、財(cái)務(wù)管理等一系列數(shù)據(jù)進(jìn)行多重關(guān)聯(lián),構(gòu)建出高階主題域模型。

3、業(yè)務(wù)現(xiàn)狀

(1)業(yè)務(wù)現(xiàn)狀梳理:成果(1)L1-L3 高階流程架構(gòu)

 

 

將上述主題域模型進(jìn)一步細(xì)化,以采購(gòu)部為例,基于采購(gòu)部組織職能定位,與業(yè)務(wù)訪談?shì)斎耄媸崂聿少?gòu)域所包含高階業(yè)務(wù)架構(gòu)。

① L1 Category 域:企業(yè)業(yè)務(wù)的最高級(jí)別,可基于業(yè)務(wù)能力或端到端場(chǎng)景定義。 

② L2 Process Group 流程組:企業(yè)一級(jí)域的下級(jí)能力或流程集合。

③ L3 Process 流程:一系列將輸入轉(zhuǎn)化為輸出的相互關(guān)聯(lián)的活動(dòng)。流程消耗資源并且需要制定可重復(fù)執(zhí)行的標(biāo)準(zhǔn);流程需要遵從一個(gè)面向質(zhì)量、速度、成本績(jī)效要求的控制體系。 

(2)業(yè)務(wù)現(xiàn)狀梳理:成果(2)L1-L3 業(yè)務(wù)側(cè)數(shù)據(jù)目錄

基于采購(gòu)部門職能,梳理采購(gòu)域不同信息域下所包含標(biāo)準(zhǔn)化業(yè)務(wù)信息/表單,將其轉(zhuǎn)化為業(yè)務(wù)側(cè)的數(shù)據(jù)資產(chǎn)目錄,支持?jǐn)?shù)據(jù)認(rèn)責(zé)工作。

 

圖片

 

(3)業(yè)務(wù)現(xiàn)狀梳理:成果(3)L1-L3 業(yè)務(wù)全景圖

基于采購(gòu)業(yè)務(wù)價(jià)值鏈,繪制業(yè)務(wù)信息流圖:以端到端視角審視采購(gòu)業(yè)務(wù)全貌,識(shí)別業(yè)務(wù)信息來(lái)龍去脈。

4、數(shù)據(jù)資產(chǎn)

(1)數(shù)據(jù)資產(chǎn)梳理:成果 – 數(shù)據(jù)目錄(L1-L5 資產(chǎn)清單)

 

 

以上圖所示數(shù)據(jù)資產(chǎn)目錄為例,分成主題域組、主題域、業(yè)務(wù)對(duì)象、數(shù)據(jù)實(shí)體、屬性 5級(jí);每增加一個(gè)層級(jí),可理解成添加一個(gè)的葉子節(jié)點(diǎn)。

5、標(biāo)準(zhǔn)

(1)數(shù)據(jù)標(biāo)準(zhǔn)制定:成果 – 數(shù)據(jù)標(biāo)準(zhǔn)(L5 屬性標(biāo)準(zhǔn))

對(duì)于數(shù)據(jù)目錄中 L5 層屬性的標(biāo)準(zhǔn)化定義,通過(guò)補(bǔ)全數(shù)據(jù)的業(yè)務(wù)屬性(名稱、業(yè)務(wù)規(guī)則等)、技術(shù)屬性(數(shù)據(jù)類型、長(zhǎng)度等)以及管理屬性(數(shù)據(jù)維護(hù)責(zé)任人、數(shù)據(jù)管家等),最終形成數(shù)據(jù)標(biāo)準(zhǔn)。

 

 

6、數(shù)據(jù)模型

基于數(shù)據(jù)標(biāo)準(zhǔn)構(gòu)建數(shù)據(jù)模型。上圖為采購(gòu)域的數(shù)據(jù)模型,模型中的每個(gè)字段都與數(shù)據(jù)標(biāo)準(zhǔn)形成了映射關(guān)系。

(1)數(shù)據(jù)模型設(shè)計(jì):ONE ID 邏輯設(shè)計(jì)

 

 

基于上述數(shù)據(jù)模型,結(jié)合實(shí)際業(yè)務(wù)構(gòu)建數(shù)據(jù)應(yīng)用。以采購(gòu)域?yàn)槔瑢?duì)每個(gè)供應(yīng)商進(jìn)行全方位畫(huà)像,包括財(cái)務(wù)信息、經(jīng)營(yíng)狀態(tài)、業(yè)務(wù)信息等維度,構(gòu)成一套供應(yīng)鏈金融的服務(wù)模式。

(2)數(shù)據(jù)模型是數(shù)據(jù)中臺(tái)的核心位置

數(shù)據(jù)模型是數(shù)據(jù)中臺(tái)的核心數(shù)據(jù)資產(chǎn),關(guān)系到基礎(chǔ)數(shù)據(jù)整合,開(kāi)發(fā)效率,和數(shù)據(jù)質(zhì)量。數(shù)據(jù)中臺(tái)主要包括 ODS 層、DWS/DWD 層,以及數(shù)據(jù)集市層等,這些中間層模型設(shè)計(jì)的規(guī)范性和靈活性,決定了數(shù)據(jù)資產(chǎn)的管理和應(yīng)用效率。因此,如何整合好數(shù)據(jù)模型是數(shù)據(jù)中臺(tái)成功的標(biāo)志。

 

 

(3)全面管理和升級(jí)模型數(shù)據(jù)資產(chǎn)

傳統(tǒng)的數(shù)據(jù)模型構(gòu)建,往往是開(kāi)發(fā)人員基于業(yè)務(wù)邏輯通過(guò) SQL 腳本實(shí)現(xiàn)相應(yīng)功能,并轉(zhuǎn)化成存儲(chǔ)過(guò)程,進(jìn)而通過(guò)任務(wù)調(diào)度實(shí)現(xiàn)數(shù)據(jù)的轉(zhuǎn)化。這種方式靈活、便于實(shí)現(xiàn),然而會(huì)給后續(xù)的數(shù)據(jù)資產(chǎn)梳理、數(shù)據(jù)質(zhì)量排查以及數(shù)據(jù)修復(fù)等相關(guān)工作帶來(lái)麻煩。

 

 

因此,以數(shù)據(jù)模型為核心,通過(guò)對(duì)數(shù)據(jù)中臺(tái)模型的管理,實(shí)現(xiàn)從孤井式的代碼開(kāi)發(fā),到模型驅(qū)動(dòng)的代碼開(kāi)發(fā)階段的轉(zhuǎn)變。實(shí)現(xiàn)了模型驅(qū)動(dòng)的數(shù)據(jù)模型資產(chǎn)化,開(kāi)發(fā)過(guò)程可審查,代碼質(zhì)量可靠性等轉(zhuǎn)變,使中臺(tái)成為企業(yè)數(shù)據(jù)資產(chǎn)的沉淀和發(fā)布中心,進(jìn)而形成行業(yè)模型的影響力。 

(4)一體化建模架構(gòu)

 

 

從數(shù)據(jù)戰(zhàn)略角度看,將業(yè)務(wù)流程、業(yè)務(wù)架構(gòu)、數(shù)據(jù)責(zé)任、數(shù)據(jù)安全和入戶標(biāo)準(zhǔn)等相關(guān)模塊都承載到業(yè)務(wù)模型上;進(jìn)一步,業(yè)務(wù)模型通過(guò)數(shù)據(jù)模型落地實(shí)現(xiàn),結(jié)合相應(yīng)的企業(yè)標(biāo)準(zhǔn)進(jìn)行模型評(píng)審,評(píng)審?fù)ㄟ^(guò)的數(shù)據(jù)模型發(fā)布成數(shù)據(jù)資產(chǎn)目錄,并最終進(jìn)入數(shù)據(jù)湖。

 

 

由于數(shù)據(jù)模型存在迭代更新的周期性,因此在模型設(shè)計(jì)的過(guò)程中,數(shù)據(jù)標(biāo)準(zhǔn)的維護(hù)至關(guān)重要。所有的模型都是由數(shù)據(jù)標(biāo)準(zhǔn)組裝而來(lái);模型評(píng)審和模型發(fā)布作為重要的中間管控節(jié)點(diǎn),最終實(shí)現(xiàn)自助入湖,并周期性地和生產(chǎn)元數(shù)據(jù)做比對(duì)。

(5)企業(yè)級(jí)信息架構(gòu)的四個(gè)組件

企業(yè)級(jí)信息架構(gòu),本質(zhì)上是基于一套核心的信息架構(gòu),展現(xiàn)成數(shù)據(jù)資產(chǎn)目錄、數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)模型、數(shù)據(jù)分布 4 種不同的形式:

① 數(shù)據(jù)資產(chǎn)目錄

1)通過(guò)分層架構(gòu)表達(dá)。

2)對(duì)數(shù)據(jù)的分類和定義。

3)厘清數(shù)據(jù)資產(chǎn)。

4)建立數(shù)據(jù)模型的輸入 。

② 數(shù)據(jù)標(biāo)準(zhǔn)

1)業(yè)務(wù)定義的規(guī)范。

2)統(tǒng)一語(yǔ)言,消除歧義。

3)為數(shù)據(jù)資產(chǎn)梳理提供標(biāo)準(zhǔn)的業(yè)務(wù)含義和規(guī)則。

③ 數(shù)據(jù)模型

1)通過(guò) E-R 建模實(shí)現(xiàn)對(duì)數(shù)據(jù)及其關(guān)系的描述。

2)指導(dǎo) IT 開(kāi)發(fā),是應(yīng)用系統(tǒng)實(shí)現(xiàn)的基礎(chǔ)。

④ 數(shù)據(jù)分布

1)數(shù)據(jù)在業(yè)務(wù)流程和 IT 系統(tǒng)上流動(dòng)的全景視圖。

2)識(shí)別數(shù)據(jù)的“來(lái)龍去脈” 。

3)定位數(shù)據(jù)問(wèn)題的導(dǎo)航。

這套核心的信息架構(gòu)本質(zhì)上是從 4 個(gè)角度詮釋企業(yè)的數(shù)據(jù)資產(chǎn)信息:

數(shù)據(jù)模型作為最初的設(shè)計(jì)原型,經(jīng)過(guò)評(píng)審發(fā)布后形成數(shù)據(jù)資產(chǎn)目錄最終開(kāi)放到業(yè)務(wù)部門;模型內(nèi)部最細(xì)顆粒度的規(guī)范形成數(shù)據(jù)標(biāo)準(zhǔn);數(shù)據(jù)分布則體現(xiàn)的是某個(gè)具體的表或字段在整個(gè)業(yè)務(wù)流程體系中所處的位置,定位到對(duì)應(yīng)的具體業(yè)務(wù)對(duì)象并直觀地體現(xiàn)該業(yè)務(wù)對(duì)象的上下游關(guān)系。

(6)六項(xiàng)入湖標(biāo)準(zhǔn)

數(shù)據(jù)入湖的評(píng)審標(biāo)準(zhǔn),大概包括以下這 6 個(gè)方面:

① 明確數(shù)據(jù) Owner 

由數(shù)據(jù)產(chǎn)生對(duì)應(yīng)的流程 Owner 擔(dān)任,是所轄數(shù)據(jù)端到端管理的責(zé)任人,負(fù)責(zé)對(duì)入湖的數(shù)據(jù)定義數(shù)據(jù)標(biāo)準(zhǔn)和密級(jí),承接數(shù)據(jù)消費(fèi)中的數(shù)據(jù)質(zhì)量問(wèn)題,并制定數(shù)據(jù)管理工作路標(biāo),持續(xù)提升數(shù)據(jù)質(zhì)量 

② 發(fā)布數(shù)據(jù)標(biāo)準(zhǔn)

入湖數(shù)據(jù)要有相應(yīng)的業(yè)務(wù)數(shù)據(jù)標(biāo)準(zhǔn)。業(yè)務(wù)數(shù)據(jù)標(biāo)準(zhǔn)描述公司層面需共同遵守的“屬性層”數(shù)據(jù)的含義和業(yè)務(wù)規(guī)則,是公司層面對(duì)某個(gè)數(shù)據(jù)的共同理解,這些理解一旦明確并發(fā)布,就需要作為標(biāo)準(zhǔn)在企業(yè)內(nèi)被共同遵守。

③ 認(rèn)證數(shù)據(jù)源 

通過(guò)認(rèn)證數(shù)據(jù)源,能夠確保數(shù)據(jù)從正確的數(shù)據(jù)源頭入湖。認(rèn)證數(shù)據(jù)源應(yīng)遵循公司數(shù)據(jù)源管理的要求,一般數(shù)據(jù)源是指業(yè)務(wù)上首次正式發(fā)布某項(xiàng)數(shù)據(jù)的應(yīng)用系統(tǒng),并經(jīng)過(guò)數(shù)據(jù)管理專業(yè)組織認(rèn)證。認(rèn)證過(guò)的數(shù)據(jù)源作為唯一數(shù)據(jù)源頭被數(shù)據(jù)湖調(diào)用。當(dāng)承載數(shù)據(jù)源的應(yīng)用系統(tǒng)出現(xiàn)合并、分拆、下線情況時(shí),應(yīng)及時(shí)對(duì)數(shù)據(jù)源進(jìn)行失效處理,并啟動(dòng)新數(shù)據(jù)源認(rèn)證流程。

④ 定義數(shù)據(jù)密級(jí)

定義數(shù)據(jù)密級(jí)是數(shù)據(jù)入湖的必要條件,為了確保數(shù)據(jù)湖中的數(shù)據(jù)能充分地共享,同時(shí)又不發(fā)生信息安全問(wèn)題,入湖的數(shù)據(jù)必須要定密。數(shù)據(jù)定密的責(zé)任主體是數(shù)據(jù) Owner,數(shù)據(jù)管家有責(zé)任審視入湖數(shù)據(jù)密級(jí)的完整性,并推動(dòng)、協(xié)調(diào)數(shù)據(jù)定密工作。數(shù)據(jù)定級(jí)密度在屬性層級(jí),根據(jù)資產(chǎn)的重要程度,定義不同等級(jí)。不同密級(jí)的數(shù)據(jù)有相應(yīng)的數(shù)據(jù)消費(fèi)要求,為了促進(jìn)公司數(shù)據(jù)的消費(fèi),數(shù)據(jù)湖中的數(shù)據(jù)有相應(yīng)的降密機(jī)制,到降密期或滿足降密條件的數(shù)據(jù)應(yīng)及時(shí)降密,并刷新密級(jí)信息。

⑤ 制定數(shù)據(jù)質(zhì)量方案 

數(shù)據(jù)質(zhì)量是數(shù)據(jù)消費(fèi)結(jié)果的保證,數(shù)據(jù)入湖不需要對(duì)數(shù)據(jù)進(jìn)行清洗,但需要對(duì)數(shù)據(jù)質(zhì)量進(jìn)行評(píng)估,讓數(shù)據(jù)的消費(fèi)人員了解數(shù)據(jù)的質(zhì)量情況,并了解消費(fèi)該數(shù)據(jù)的質(zhì)量風(fēng)險(xiǎn)。同時(shí)數(shù)據(jù) Owner 和數(shù)據(jù)管家可以根據(jù)數(shù)據(jù)質(zhì)量評(píng)估的情況,推動(dòng)源頭數(shù)據(jù)質(zhì)量的提升,滿足數(shù)據(jù)質(zhì)量的消費(fèi)要求。

⑥ 注冊(cè)元數(shù)據(jù)

元數(shù)據(jù)注冊(cè)是指將入湖數(shù)據(jù)的業(yè)務(wù)元數(shù)據(jù)和技術(shù)元數(shù)據(jù)進(jìn)行關(guān)聯(lián),包括邏輯實(shí)體與物理表的對(duì)應(yīng)關(guān)系,以及業(yè)務(wù)屬性和表字段的對(duì)應(yīng)關(guān)系。通過(guò)連接業(yè)務(wù)元數(shù)據(jù)和技術(shù)元數(shù)據(jù)的關(guān)系,能夠支撐數(shù)據(jù)消費(fèi)人員通過(guò)業(yè)務(wù)語(yǔ)義快速地搜索到數(shù)據(jù)湖中的數(shù)據(jù),降低數(shù)據(jù)湖中數(shù)據(jù)消費(fèi)的門檻,能讓更多的業(yè)務(wù)分析人員理解和消費(fèi)數(shù)據(jù)。

(7)數(shù)據(jù)模型管控組織

從公司部門的組織架構(gòu)角度考慮,數(shù)據(jù)模型管控的推進(jìn),需要配備相應(yīng)的組織架構(gòu)予以監(jiān)督和支持。一方面,基于 DAMA 方法論,企業(yè)構(gòu)建不同的數(shù)據(jù)治理體系維度,如數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)質(zhì)量、數(shù)據(jù)模型、數(shù)據(jù)資產(chǎn)目錄等相關(guān)內(nèi)容;另一方面,基于傳統(tǒng)的 IT 相關(guān)部門下屬的各個(gè)項(xiàng)目小組,建議安排部分開(kāi)發(fā)人員以 part-time 的方式承擔(dān)部分?jǐn)?shù)據(jù)治理角色,使得數(shù)據(jù)治理架構(gòu)更加立體。此外,可以專門成立企業(yè)架構(gòu)辦(一般包括數(shù)據(jù)架構(gòu)、應(yīng)用架構(gòu)、技術(shù)架構(gòu)、業(yè)務(wù)架構(gòu)這 4 層架構(gòu)),與項(xiàng)目組聯(lián)合,實(shí)現(xiàn)更全面、更深入的數(shù)據(jù)模型管理服務(wù)。

因此,建立虛實(shí)結(jié)合的數(shù)據(jù)組織設(shè)置,是確保數(shù)工作能充分融入業(yè)務(wù),同時(shí)能夠在應(yīng)用系統(tǒng)中有效落地的關(guān)鍵。

 

 

以交通銀行為例,企業(yè)共計(jì)超過(guò) 500 套業(yè)務(wù)系統(tǒng),全部通過(guò)上述組織架構(gòu)協(xié)作實(shí)現(xiàn)模型管控。

四、問(wèn)答環(huán)節(jié)

Q1:按照全套組合架構(gòu)實(shí)現(xiàn)企業(yè)級(jí)數(shù)據(jù)治理,往往會(huì)帶來(lái)較高的時(shí)間成本;因此,如何平衡數(shù)據(jù)治理和開(kāi)發(fā)效率?

A1:① 數(shù)據(jù)治理架構(gòu)的開(kāi)展,需要一定的契機(jī);可以以企業(yè)新構(gòu)建的系統(tǒng)作為試點(diǎn);尤其是金融系統(tǒng),往往 5 年左右進(jìn)行一次更新?lián)Q代。因此,可以選擇合適的系統(tǒng)更新?lián)Q代節(jié)點(diǎn),推進(jìn)數(shù)據(jù)治理架構(gòu)。

② 如果企業(yè)的數(shù)據(jù)資產(chǎn)需求較為強(qiáng)烈和迫切,那么源端管控就是必要的工作。在此基礎(chǔ)上,可以先針對(duì)部分部門或項(xiàng)目組,通過(guò)小范圍試點(diǎn)方式進(jìn)行推進(jìn),后期再逐步進(jìn)行大范圍推廣。此外,可借助一些更高效的工具以提高開(kāi)發(fā)效率。

Q2:主數(shù)據(jù)在數(shù)據(jù)模型中如何體現(xiàn)?

A2:這類問(wèn)題在業(yè)內(nèi)曾引起廣泛的討論。對(duì)于金融行業(yè),客戶管理系統(tǒng)即是客戶的主數(shù)據(jù);對(duì)于業(yè)務(wù)鏈條較長(zhǎng)的企業(yè),例如制造業(yè)企業(yè),常用的方式是針對(duì)主數(shù)據(jù)進(jìn)行模型建模。而對(duì)于主數(shù)據(jù)建模,較為傳統(tǒng)的方式是開(kāi)發(fā)相應(yīng)的 MDM(主數(shù)據(jù)關(guān)系系統(tǒng)),典型的企業(yè)實(shí)踐案例是中石油系統(tǒng);然而 MDM 系統(tǒng)較為龐大,因此近年來(lái)主數(shù)據(jù)建模的趨勢(shì)是更加輕量化,通常是在各個(gè)系統(tǒng)(如組織機(jī)構(gòu)、客戶、物料、產(chǎn)品等系統(tǒng))對(duì)應(yīng)的數(shù)據(jù)庫(kù)中預(yù)留少量區(qū)域來(lái)存儲(chǔ)對(duì)應(yīng)的主數(shù)據(jù)模型,實(shí)現(xiàn)該系統(tǒng)主數(shù)據(jù)模型與各個(gè)系統(tǒng)的對(duì)接。總之,核心在于主數(shù)據(jù)模型的構(gòu)建,輕量化是趨勢(shì)。

Q3:數(shù)據(jù)質(zhì)量和數(shù)據(jù)標(biāo)準(zhǔn)該如何解決?

A3:如果企業(yè)的模型設(shè)計(jì)已經(jīng)落標(biāo),質(zhì)量管理這部分工作相對(duì)會(huì)容易很多;由于每個(gè)物理字段對(duì)應(yīng)的標(biāo)準(zhǔn)已經(jīng)確定,因此基礎(chǔ)的數(shù)據(jù)質(zhì)量檢測(cè)規(guī)則往往可以自動(dòng)生成,而復(fù)雜的數(shù)據(jù)質(zhì)量檢測(cè)規(guī)則和數(shù)據(jù)標(biāo)準(zhǔn)中的認(rèn)責(zé)板塊掛鉤,相應(yīng)部門提供各自的數(shù)據(jù)質(zhì)量檢測(cè)相關(guān)的業(yè)務(wù)規(guī)則,最后再由業(yè)務(wù)規(guī)則轉(zhuǎn)成技術(shù)規(guī)則,嵌入到系統(tǒng)中進(jìn)行周期性運(yùn)行。

熱詞搜索:數(shù)據(jù)治理 數(shù)據(jù)中臺(tái)

上一篇:2023年高級(jí)數(shù)據(jù)科學(xué)家必須掌握的十個(gè)技能
下一篇:最后一頁(yè)

分享到: 收藏