- +1
年終盤點:2024年最炙手可熱的10家大數據初創公司
數據已經成為很多企業和組織的寶貴資產。他們正在分析數據以深入了解市場、客戶和他們自己的運營情況。他們正在使用數據來推動數字化轉型計劃,支持新的數據密集型服務。
而數據——大量的數據——是AI和機器學習計劃的關鍵組成部分。
但整理、管理和分析數據是一項重大挑戰。根據市場研究公司IDC的數據顯示,創建、捕獲、復制和使用的數據總量每年以超過20%的速度增長,預計到2027年將達到約291 ZB。
這就是為什么會有源源不斷的大數據初創公司開發出尖端的技術來幫助企業訪問、收集、管理、移動、轉換、分析、理解、衡量、管理、維護和保護數據。
以下就是2024年引起了我們關注的10家大數據初創公司。
Ariga
聯合創始人、首席執行官:Ariel Mashraki
數據庫模式是數據在數據庫系統中組織和結構的一種方式,包括了數據表以及定義不同數據元素之間關系的方式。
當數據更新或數據庫需要支持運行在數據庫上的應用的新特性和功能時,有時必須更改數據庫模式,這可能是一件苦差事。
Ariga開發了一個數據庫模式即代碼平臺,軟件工程師使用該平臺就可以通過代碼定義和管理數據庫模式,從而降低模式更改的復雜性并簡化數據庫管理。
Ariga的產品包括數據庫模式即代碼工具Atlas和用于Go編程語言的ent.go實體框架。
Ariga公司成立于2021年,總部位于以色列特拉維夫。2023年6月,Ariga宣布在A輪融資中獲得1500萬美元,以及此前未宣布的300萬美元種子輪融資。
DataPelago
聯合創始人、首席執行官:Rajan Goyal
初創公司DataPelago在今年10月走出隱身模式,推出了該公司所謂的全球首個“通用數據處理引擎”,可以應對當今數據的復雜性和數量,用于所謂的“加速計算”分析和AI工作負載。
DataPelago公司首席執行官Goyal表示,基于CPU和基本軟件架構的傳統數據處理系統無法應對當今數據的復雜性和數量。
他說:“數據在變化,應用在變化,最重要的是,[IT]基礎設施也在變化,當三種不同的顛覆性趨勢匯聚在一起時,你需要退后一步,看看未來會是什么樣子,數據處理平臺應該是什么樣子。”
為了解決這個問題,Goyal在2021年宣布推出了DataPelago,并組建了一支“多學科團隊”,由在系統架構、數據分析、云、SaaS、開源開發和其他技術領域擁有專業知識的人員組成。
DataPelago的通用數據處理引擎正在被一些客戶以試點或者預覽的方式使用,旨在克服當前IT系統的性能、成本和可擴展性限制。該系統是從零開始構建的,采用硬件和軟件協同設計的方法,支持生成式AI和數據湖屋分析工作負載。
DataPelago總部位于美國加利福尼亞州山景城,目前已經累計從投資方Eclipse、Taiwania Capital、Qualcomm Ventures、Alter Venture Partners、Nautilus Venture Partners和First Citizens Bank旗下Silicon Valley Back那里獲得了4700萬美元的種子輪和A輪融資。
DeasyLabs
聯合創始人、首席執行官:Reece Griffiths
AI模型的好壞取決于輸入的數據。DeasyLabs表示,該公司的使命是提供數據治理,以確保大型語言模型僅運行在安全的、相關的、高質量的數據上。
這家初創公司開發了一個元數據編排平臺,用于創建高質量、定制的元數據并將其嵌入到他們的AI工作流中,包括檢索增強生成和代理框架。
DeasyLabs公司成立于2023年,總部位于紐約,在2023年獲得了300萬美元的種子資金,并得到了Y Combinator的支持,資金來自General Catalyst、RTP Global和J12等投資方。
Diliko
首席執行官:Dave Albano
Diliko公司在11月7日剛剛走出隱身模式,它開發了一個具有自動數據管理和治理功能的代理AI平臺,并表示這可以降低運營復雜性和成本。
Diliko總部位于美國弗吉尼亞州雷斯頓,主要面向數據密集型醫療、金融和物流行業的中型企業。該公司表示,其服務為CIO、CFO和CDO等C級高管以及數據工程師、數據科學家和數據分析師等數據相關人員帶來了好處。
基于云的Diliko平臺優化了數據管理性能,無需部署和管理昂貴的基礎設施。該服務使用按需數據集成、ETL(提取、轉換、加載)和編排來實現復雜數據管理工作流程的自動化,并可在內部系統和外部系統之間實時同步數據。
Diliko平臺還通過零信任架構、端到端加密和多因素身份驗證等云原生安全功能確保數據治理和安全。
Dymium
聯合創始人、首席執行官:Denzil Wessel
Dymium開發了一個數據訪問管理平臺,可以在“數據所在位置”提供對數據的安全訪問,從而消除了將數據移動到數據倉庫和數據湖以進行分析和AI任務的相關成本和復雜性。
“通過復制數據向團隊提供各種格式數據的做法,每種格式都有不同的訪問控制、策略和安全要求,這就導致了前所未有的復雜性,阻礙了創新并破壞了安全和治理,”Wessel說。
Dymium平臺可以幫助組織以經濟高效的方式管理快速增長的數據源中的數據訪問要求,增強其安全態勢并幫助他們遵守監管要求。
該系統結合了零信任架構、集中訪問策略、實時數據轉換服務、AI和機器學習,以正確的格式向正確的用戶提供正確的數據。
Dymium公司成立于2022年,總部位于美國加利福尼亞州洛斯加托斯,在今年3月走出隱身模式并獲得700萬美元的融資。
Mind
聯合創始人、首席執行官:Eran Barak
初創公司Mind開發了下一代數據丟失預防技術,并且剛剛走出隱身模式,獲得來自YL Ventures的1100萬美元種子資金。該公司總部位于美國西雅圖。
Mind的平臺結合了AI和“智能自動化”來監控數據事件,識別、檢測和防止數據泄露。該系統發現并分類眾多IT工作負載中的敏感數據(包括靜態的、動態的和使用中的數據),覆蓋了SaaS、生成式AI應用、端點、本地系統和電子郵件。
Mind AI系統的核心是由數百種定制算法和專有AI引擎組成的,用于對敏感的非結構化數據進行分類和歸類,了解上下文感知業務視圖以確定風險嚴重性,并在需要時采取自動預防和補救措施。
Mind公司是由Eran Barak在2023年共同創立的,之前他創立了Hexadite公司,后來該公司被微軟收購。他和其他聯合創始人之前曾在以色列軍事情報局8200部門擔任領導職務。
MotherDuck
聯合創始人、首席執行官:Jordan Tigani
初創公司MotherDuck在2023年6月推出了無服務器的MotherDuck Cloud Analytics Platform平臺首個版本,該平臺結合了云和嵌入式數據庫技術,無論數據位于何處,都可以輕松地對其進行分析。
MotherDuck的軟件基于MotherDuck的DuckDB開源嵌入式數據庫。據稱,這個云系統通過將進程內數據庫的速度與云的可擴展性相結合,簡化了對任何規模數據的分析。
MotherDuck認為,近年來數據分析的大多數進步都是針對擁有超過1PB數據的大型企業和組織,而忽略了擁有類似規模數據量的中小型企業。
總部位于美國西雅圖的MotherDuck是由Google BigQuery創始工程師Tigani在2022年共同創立的。2023年9月,該公司在B輪融資中獲得了5250萬美元,總融資金額達到1億美元。
Onehouse
首席執行官:Vinoth Chandar
Onehouse公司提供了云原生、完全托管的通用數據湖屋服務,并表示,該服務旨在從任何來源提取數據,并可以支持所有查詢引擎。該系統是基于Apache Hudi開源數據湖平臺的。
Onehouse希望幫助企業和組織解決數據分散和孤立的問題——數據分散在本地和云端的數據存儲系統、運營數據庫和數據倉庫系統中。
今年6月,Onehouse公司推出了產品線的新增產品LakeView,這是面向開源社區的Lakehouse可觀察性工具,以及用于Lakehouse自動優化的Table Optimizer。8月,Onehouse推出了一個向量嵌入生成器,用于嵌入管道自動化,作為Onehouse管理中ELT(提取、性能和加載)云服務的一個組成部分。
Onehouse公司成立于2021年,總部位于美國加利福尼亞州門洛帕克,今年6月在由Craft Ventures領投的B輪融資中獲得了3500萬美元,早期投資方Addition和Greylock Partners也參與其中。
Scoop Analytics
聯合創始人、首席執行官:Brad Peters
初創公司Scoop Analytics在今年6月憑借其用于自動化報告流程和開發AI驅動的商業智能演示文稿和報告軟件脫穎而出。
據Scoop Analytics稱,該軟件使任何具有電子表格技能的人都可以從任何應用中收集數據,混合來自不同來源的數據,通過基于實時數據的幻燈片演示來創建“視覺上引人注目的數據故事”。
Peters表示,Scoop的使命是“以不需要數據團隊的形式提供數據分析”,并實現真正的自助式商業智能的長期目標。
總部位于美國舊金山的Scoop Analytics公司是由Peters和其他曾在商業分析軟件開發商Birst工作的人創立。該公司于6月18日正式成立,獲得了來自Ridge Ventures、Industry Ventures和Engineering Capital的350萬美元種子資金。
Unstructured
創始人、首席執行官:Brian Raymond
Unstructured因其用于訪問、準備和轉換數據(尤其是文檔和圖像等非結構化數據)的技術而受到關注,這些技術可用于為AI和生成式AI應用提供支持的大型語言模型。
在AI發展的浪潮中,各種組織正在努力清理和準備大量數據,尤其是文檔和圖像等非結構化數據。Unstructured公司表示,超過80%的企業數據都存儲在文檔和其他非結構化文件中。
Unstructured的平臺和開發工具可以將非結構化或“自然語言”數據轉換為可用于大型語言模型、矢量數據庫和LangChain的格式。Unstructured的系統適用于一系列難以使用的文件類型和格式,包括HTML、PDF、CSV、PNG、PPTX等。
今年7月,總部位于美國加利福尼亞州薩克拉門托的Unstructured分別在由Bain Capital Ventures和Madrona領投的種子輪和A輪融資中獲得了2500萬美元資金。
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。





- 报料热线: 021-962866
- 报料邮箱: news@thepaper.cn
互联网新闻信息服务许可证:31120170006
增值电信业务经营许可证:沪B2-2017116
© 2014-2025 上海东方报业有限公司