- +1
把紙質家譜做成數據中臺,原來是這樣的體驗
機器之心報道
機器之心編輯部
從數據采集、數據治理,再到知識挖掘與推理,一個家譜數據中臺到底是怎樣煉成的?
說起「數據中臺」,很多人都不會感到陌生。但究竟如何定義「數據中臺」?也許就會難倒一大批人了。
「數據中臺」是近年來比較火熱的一個技術概念,最早源于國內的科技公司。簡單來說,就是
利用數據技術對海量數據進行采集、存儲、計算、加工、統一表示,形成標準后的數據 API,進而提高數據的共享能力。
目前數據中臺的建設尚處于起步階段, 還沒有統一的數據中臺建設標準、規范以及評價指標,且沒有統一規范的定義,其英文譯法也多種多樣:Middleware、Middle Platform、Middle Office 或 Platform ,甚至包括中文拼音「Zhongtai」,但這些名字都不能很好地體現其數據共享和數據價值最大化的實質。
近日,來自合肥工業大學、明略科技、北京大學等機構的研究者在《自動化學報》上介紹了關于構建家譜知識圖譜的數據中臺實踐。經過廣泛研究,研究者在這篇論文中給出了關于「數據中臺(Central-Platform)」的正式定義:數據中臺將一個機構 (企業、事業、或政府部門) 的數據作為戰略資產進行管理,是從數據收集到處理應用的一套管理機制, 以期提高數據質量,實現廣泛的數據共享,最終實現數據價值最大化。數據中臺建設覆蓋數據的邏輯管理和物理管理, 邏輯管理包括數據結構的設計和數據之間相關性的分析, 如數據倉庫; 物理管理包括數據的存儲和檢索。
此外,以華譜系統為例,這篇文章整體介紹了關于「數據中臺」的定義、功能模塊、關鍵技術、挑戰問題以及相應的解決方案。研究者利用知識圖譜構建和推理技術,從海量家譜數據采集、匯聚開始,在數據治理、數據開發、數據資產管理等模塊建設過程中輔以 「HI」 (人類智能)、 「AI」 (人工智能) 和 「OI」 (組織智能) 三者的交互和協同,創建了一個標準、可復用的家譜數據中臺架構。
華譜數據中臺的數據管理架構建設和關鍵技術下圖展示了華譜數據中臺的架構 Huapu-CP,我們以該架構為例,來分析一下家譜數據中臺系統核心模塊的主要技術以及要解決的問題。
圖 1:Huapu-CP 框架圖。具體而言,Huapu-CP 數據中臺架構特點可分為三個層面:
1) 基于數據的邏輯管理和物理管理,建設了家譜領域數據管理體系,提高數據服務效率,加速數據價值變現過程,打破了信息之間的屏障。
2) 基于 HAO (Human intelligence,artificial intelligence and organizational intelligence) 智能體系,采用數據規范、數據清洗等數據治理技術形成了包括家譜人物數據、人物關聯數據、社交數據、日志數據等的數據體系,更好地賦能于華譜系統前臺業務。
3) 融合知識圖譜技術,以家譜知識圖譜作為數據中臺架構的數據底座,從業務的角度組織數據。完成傳統數據模式無法支持的節點關聯分析、社區發現、用戶推薦等復雜計算和挖掘任務。
數據的物理管理
首先,從數據的物理管理層面看,Huapu-CP 選擇了圖數據庫集群的方式,將數據分布存儲到多個機器上,并進行實時同步,以保障數據的安全性、一致性及性能的可擴展性。如圖 2 所示:
圖 2:物理管理框架圖。針對圖數據規模較大、圖數據分析與挖掘耗時較長的問題,通過對大數據計算算法和框架的對比研究,華譜系統采用 Spark 分布式計算框架,在上層應用 (如子圖模式查詢、同名人物識別) 中,利用圖劃分算法將原始的圖數據拆分為多個子圖,基于分布式計算并行處理,以節省整體計算時間、 提高計算效率。
Huapu-CP 的數據采集方式包含 4 種,其數據采集架構如下圖所示:
數據采集架構圖。數據的邏輯管理:HAO 智能體系
在數據的邏輯管理階段,華譜系統將知識圖譜技術、專家智能、組織智能等技術融入數據表示、數據治理等子模塊中,協調邏輯管理整個流程。
邏輯管理框架圖。Huapu-CP 利用 HAO 數據治理構架進行數據規范、數據清洗、數據交換和數據集成等數據治理工作。
數據治理架構圖。數據安全和隱私保護
除此之外,家譜數據和家譜服務需要一系列資產管理和用戶關系管理算法支撐,Huapu-CP 已形成較為完善的算法開發體系。在數據安全和隱私保護上,Huapu-CP 架構也從用戶權限管理和應用權限管理兩個層面進行了設置。
針對用戶權限管理,Huapu-CP 架構中提出了基于圖數據庫的 「粗細粒度結合」的權限管理方法,并提出了基于 HAO 模型的權限管理閉環架構。
「粗細粒度結合」的權限管理方法。粗粒度表示該用戶所擁有的角色,細粒度指針對數據層面的權限管理。基于 HAO 模型的用戶權限管理架構。如上圖所示,基于 HAO 模型的用戶權限管理閉環架構的主要流程為: 由領域專家 (HI) 和組織智能 (OI) 設計用戶的權限體系, 由人類專家 (HI) 審核后在權限控制中心提供接口, 最后基于日志的智能分析 (AI) 提供權限調整方面的反饋, 并再由 HI 或 OI 審核、優化 。其中, 為了實現閉環權限控制,系統應實時地采集、存儲用戶行為數據和用戶操作數據,并設計智能的日志分析算法。
針對應用權限管理,研究者通過設置應用讀取數據的權限,避免惡意修改讀取數據程序而導致的數據泄露問題; 同時,加入 HAO 模型實現應用權限管理的閉環,便于應用的改進和升級。
在 Huapu-CP 架構中,開發新應用的權限管理流程如下: 首先,由于每個應用只需部分數據的讀取權限,為了系統中數據資產的安全性與隱私性, 應限制數據訪問權限為該應用所需的最小集合。因此,「HI」與 「OI」可基于該應用的實際需求設計該應用所具備的最大權限集合。其次,由于應用的需求可能存在變化, 該應用交付使用后可針對用戶行為數據分析或用戶反饋數據分析 (AI) 得出該應用改進方向和內容, 反饋至專家 (HI) 和組織 (OI) 重新設計應用權限, 形成權限管理的閉環。
Huapu-CP(https://www.zhonghuapu.com/)對數據中臺建設進行了一個成功的嘗試,目前已有千萬級數據節點,能提供秒級數據服務。但數據中臺技術尚處于起步階段,還面臨著技術不成熟、框架驗證標準不一、技術人員缺乏等困難和挑戰。新一代的數據中臺技術,在融合數據的基礎上,更需要關心是否能夠很好地沉淀行業知識。研究者表示,知識圖譜技術相對于傳統的二維表使用圖描述實體與關系,其復雜的圖結構更有利于探索數據之間的關聯關系和獲取知識。
本文為機器之心報道,轉載請聯系本公眾號獲得授權。
?------------------------------------------------
加入機器之心(全職記者 / 實習生):hr@jiqizhixin.com
投稿或尋求報道:content@jiqizhixin.com
原標題:《把紙質家譜做成數據中臺,原來是這樣的體驗》
本文為澎湃號作者或機構在澎湃新聞上傳并發布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。
- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司