亚洲成精品动漫久久精久,九九在线精品视频播放,黄色成人免费观看,三级成人影院,久碰久,四虎成人欧美精品在永久在线

掃一掃
關注微信公眾號

IDCC2018|Datablau創始人&CEO王琤:企業數據資產化之路
2018-12-18   中國IDC圈

12月13日,2018數據資產管理大會在北京國家會議中心舉行。本次大會由中國信息通信研究院、中國通信標準化協會(CCSA)主辦,CCSA TC601大數據技術標準推進委員會承辦,中國IDC圈協辦。

會上Datablau創始人&CEO王琤發表了“企業數據資產化之路”的演講,以下為演講實錄:

Datablau創始人&CEO王琤

Datablau創始人&CEO王琤

首先感謝信通院給了這樣一個平臺讓各位同業、朋友有一個交流的機會。我把今天會議所有的演講都聽了一遍,非常的精彩,可以看到數據資產管理發展狀況百花齊放,既有一些成熟的方法論,還有不同的實踐——有主數據的實踐、有偏業務咨詢的實踐。我們的數據資產管理更多的偏技術一點,就是怎么用技術的方式把以前人工要做的事情給它降低成本,更快地、更高效地把這個事做下去。

簡單做一個自我介紹,我其實以前在CA做一個產品叫ERwin,年齡大一點的、以前一直做數據領域的朋友可能會用到這樣的產品,就是畫關系實際圖。我以前在大學的時候,學數據庫原理交作業就是用ERwin這個產品,很有緣分后來做這個產品做了十一年,負責這個產品的研發,在國際國內參與了很多相關項目,包括大型能源制造型企業,和建行新一代ERwin承載的企業級數據模型。

2016年我出來創業成立了Datablau數據科技,當前是偏產品型公司,做數據治理相關的產品,其他的業務比如做了蠻多的非關系型數據庫建模等工作這里就不多說了。

今天我演講的題目是企業的數據資產化之路,這里有一張圖我覺得很好,這是來自于IBM Watson的一張圖,現在根據中國的實際情況做了一些穩定化。我們大家知道IBM Watson更多做的是AI這塊的醫療相關分析,比如說癌癥分析,從這張圖可以看到,Watson是偏AI的但是它更關心的是數據資產。Watson把目前的資產分為四個階段,第一階段是數據庫運維。這張圖有一個虛線,虛線左邊是顯示數據在IT部門的兜里,IT部門關心的是我是不是能把數據存儲出來,我是不是有足夠的運算能力,然后出一些業務部門要的報表,這都是IT部門在想怎么利用這個數據。虛線右邊跟左邊是完全不一樣的,虛線右邊是說IT部門能不能從兜里面把數據掏出來,掏給不同的業務部門,業務部門發揮自己實際的業務場景,發揮數據實際的業務價值。這樣看的話,很多的企業當前還處在虛線的左邊,也就是說數據還在IT部門的兜兒里頭。企業如何從左邊這個階段往右邊階段邁,一定程度上是從量變到質變的過程。可以看到我這張圖里面有數據目錄,它是幫助企業從虛線的左邊階段往右邊階段邁的。

我這張圖左下角還有一個東西叫“元數據管理”,過去大家做了蠻多的元數據管理相關系統,但是發現效果都不好。原因是這個更多的被IT部門用于存儲相關的表、字段、數據,被當做幫助IT部門跟數據打交道的一個系統,沒有發揮出它實際的價值。所以數據目錄是對整個產業里的系統一個改造升級,可以把元數據系統變得能分享給不同的業務部門,這是從元數據到數據目錄整個的升級改造,再之后就是不同的IT部門或者業務部門能夠看到相關的數據,進而發揮實際的業務價值。圖右邊有一個總結,是從IT數據到企業數據資產,從管理控制到共享應用。這是說,原來企業更多關心的是IT部門的數據誰能訪問,擔心數據泄露問題,現在更多關心的是,能不能夠讓業務部門知道自己部門里有一些什么樣的數據。從IT元數據到業務數據目錄,數據在走向服務化、價值化,這是我們當年看到的非常明顯的一個國際趨勢,國內現在也在向這個方向發展。

之后的背景我不再贅述了,大家都在企業做了十幾年企業信息化,建設了很多的IT系統,不同的IT系統都是不同的IT供應商來做的,這就導致數據互相之間口徑不一致,無法拉通,有關系型數據庫有非關系型數據庫。

下面重點講一講,到底數據目錄是什么?它與元數據有什么差別?

左邊展示的是一個制造業的企業,核心業務版塊包括生產域、市場域、工程域等板塊,這版塊有一些什么樣的業務術語,每一個業務術語我們會將它往中間這一列去兌。中間這一列是物理的數據庫,比如當前的氣象預報,這個業務對應哪個表,具體哪個表對應的更細節的東西,比如一些字一些關聯關系數據信息都會把它展現出來。這樣從業務到物理的東西,如何把中間的GAP彌補上,就是通過數據目錄完成的。這些東西是分開開放給不同的業務部門的,生產部門進來系統后會看到生產域里面相關的信息,營銷部門的人應該看到的是營銷域里面的相關信息。

第二方面,基于我們公司的背景先把今天要討論的范圍界定一下,我們今天討論的是數據模型,數據模型是我們實際物理數據庫、邏輯模型、概念模型跟物理模型之間三層的關系。至于分析模型、挖掘模型是面向數據分析領域的。對數據模型定義好后,我們繼續往下說。

以前做傳統數倉的人不會對數據建模陌生,就像當我們要蓋建筑的時候一定要先設計一個圖紙。如果企業沒有數據模型,就相當于右下角這張圖——在一塊地面上先是蓋了一個小平房子,然后又往上建閣樓,閣樓建好后還沒有停止,繼續向上不斷的搭建,最終形成了一個不穩固的四不像建筑,這就是沒有設計就進行建造會造成的后果。當企業里的數據已經復雜到一定的情況,如果繼續單純往上不斷加蓋,是很危險的狀態,這樣就比較容易理解數據建模的重要性相當于蓋樓前做圖紙設計。

建筑圖紙設計中有一些標準組件,比如說到水管就是PVC水管,說到水泥就是用某某標號,我們畫的圖紙應該都是用這些標準組件組裝出來的。這些標準組件的標準,就相當于企業中的數據標準,應該用數據標準組裝設計出來的數據模型。今天上午建行的分享中提到的企業級數據模型就是這個樣子。

數據模型分為三個層次,概念模型、邏輯模型、物理模型,這個層次跟國際上的實踐方式是一樣的,核心就是邏輯模型,即C模型企業級數據模型。真正的物理模型是到物理數據庫的時候,實際物理數據庫有叫Client的,有叫CUST,有叫CTABLE-16,在邏輯上的物理數據庫概念都是叫CUST,數據模型等于是把這些東西都串起來。

大家做這些的最終的目標都是做好我的數據應用,把我們企業的數據分析模型做好,把分析模型的算法做好。數據應用一定是依賴于數據集市和數倉的,數據集市和數倉的質量對數據應用有很大的影響。數據集市和數據數倉要做到標準化,數據要清洗好、拉通好,每個數據源要理解透徹它對應的數據標準是什么樣的,它的補充語境等等這些東西都要放進來,才能把它順起來。我們過去十幾年在國內國外的一些實踐當中,就是從系統的數據模型做起,每個系統都應該在把數據模型弄清楚然后往上繼續加蓋“建筑”,不要在沙灘上蓋大廈。企業在每一個系統的數據模型理清楚之后再搞企業數據模型,未來的應用和數倉都是基于企業數據模型,然后在上面搭建數據應用等等一些分析場景。

傳統的數據建模跟數據模型不是一個概念,數據建模是一個行為,數據模型是這個行為的產物。企業數據建模是說企業進行多人協作,若干個人一塊兒做模型設計——可能是核心業務系統開發,也可能是一個數倉的開發。另外企業數據建模還有一個特點,就是開發維護的人員和最終使用的人員是兩波人,來自幾個不同的部門。這樣的話數據模型需要被多個部門去看這個東西,這件事才能變得有意義。   

關于數據模型,我們希望每一位專家不管是數倉的開發者還是建模的開發者都要做了解,所以在這里推薦幾本書給大家,例如《數據建模咨詢手冊》,《Data Model Resource》,大家都可以學習學習。

我剛才已經把建模和模型這件事闡述清楚了,接下來給大家做一些數據模型在企業中的實踐介紹。

第一是數據標準的落地。通常有很多企業已經做了數據標準的梳理,找咨詢公司做了相應的數據標準,然后會發現新問題,數據標準發布以后怎么產生效果?企業可能發布了兩三千條數據標準,最后發現這個標準沒有人看,沒有落地到不同的業務系統里面去。如何避免這個問題,我們花了很多的心思。我們把數據標準和數據模型結合在一起,也就是說數據標準會導入到建模工具里面來,數據模型是由數據標準組裝出來的,最終數據庫的實際跟數據標準是一致的,這樣物理名稱、數據類型、業務定義都跟標準是一致的。

第二是管控的模型。開發人員做模型的設計時,在設計每個字段時都應該用企業的數據標準來選,如果一旦發現該字段沒有相應的標準時應該提一個新的標準審批。這樣專門有一個標準架構組,由這個組來控制整個企業的數據標準,如果發現該需要審批的標準是一個新的標準,就將它加入到企業的數據標準庫中,這樣整個的數據模型中,業務系統的數據系統的跟它的數據標準是完全匹配的,是百分之百Cover到數據標準的。

剛才講的是一種人工的工作流方式,現在我們有一些更自動、更智能的方式做數據標準與數據模型的落標。隨著新系統的不斷上線和系統的升級改造,做自動采集,做相應的增量變更版本,然后把邏輯模型和標準自動相應匹配。這是用更智能、更制動化的方式做長期的標準和模型之間的數據對標和管理的管控模式。

再講設計態和運行態的一致性。剛才我們講模型設計,模型設計是在開發設計階段的一個手段,企業永遠希望生產態和開發態是一致的,未來大家都應該在模型上面做相應的數據管理、數據管控,這樣企業會周期性地去把模型基建和數據庫做比對。企業不希望在物理數據上做相應的修改,如果有相應的修改跟原本的模型基建不一致,就會把相應的差異找出來。有些人會上一個新的系統——說白了可能是黑項目,沒有報備到數據管理部門就直接上線,在數據庫新加了一大片的表。這種一定要管控起來,所有的東西都應該反映到企業的數據模型里面來,這才是正確的模式。

還有一個主動分析模型變更,就是說前面大家都在用我的建模工具來設計它的業務系統,當前業務系統是1.0、2.0、3.0這樣不斷迭代,在迭代過程中我們會把模型做比對,從1.0到2.0做了什么數據模型的修改,我會對這個修改做一個血緣關系的抽取,看這個修改對后面的數據集市的影響是什么樣的。現在我們經常碰到一些部門本身就是數據部門、數據創新部,他們最擔心的是前端業務系統不斷升級,因為升級的過程中有可能把后面的數據掛掉。我一定要知道前端有哪些要求要做一些什么樣的升級,這些升級對后面的應用是什么樣的影響。這樣靠的是主動方式不是被動方式,數據部門不想要每天都當救火隊員,每天突然一個東西掛了,然后去查問題是什么。而是數據部門在一開始做開發的時候就要知道建什么樣的數據結構,對后面的影響是什么樣的,這樣的模式。

整體說起來,我們Datablau就是一個產品型的公司,我們整體的產品方向也是跟著DAMA這套方法論走的,包括數據建模、數據架構、數據質量、元數據等等相關的東西。我們相關的兩個產品線,一個叫數據資產管理,一個叫數據建模,把生產態和開發態形成一個閉合的關系。Datablau總部在北京,大部分的人都是從Erwin出來的,擁有做產品的基因。

今天我的演講就到這兒,希望有機會跟大家在線下做一些交流,謝謝大家。

熱詞搜索:Datablau 數據資產

上一篇:251張CDN牌照已發 工信部將寬進嚴出強化事中事后監管
下一篇:大數據讓“東方祥云”飛翔

分享到: 收藏