- +1
機器學習大牛吳恩達:調優數據比調優模型更重要
9月14日,在線上舉行的亞馬遜云科技中國峰會上,亞馬遜云科技人工智能與機器學習副總裁Swami Sivasubramanian對話人工智能教育公司DeepLearning.AI創始人吳恩達(Andrew Ng),討論機器學習的未來、下一代機器學習從業者需要掌握的基本技能以及如何彌合機器學習中概念驗證與生產之間的差距。
左為吳恩達,右為Swami Sivasubramanian
吳恩達是人工智能教育公司DeepLearning.AI的創始人,工業人工智能平臺公司Landing AI的創始人兼CEO ,在線學習供應商Coursera的聯合創始人兼董事長。吳恩達曾在谷歌工作,是谷歌大腦深度學習項目的創始人和負責人,曾任百度人工智能首席科學家。他還是斯坦福大學計算機科學的兼職教授,領導著一個關于人工智能、機器學習和深度學習的研究小組。
吳恩達在現場分享了將機器學習從概念驗證帶入生產的技巧,快速贏得第一個項目以獲得推進動力的重要性,以及確保負責制定和執行機器學習策略的高管獲得有關該技術的充分教育的建議。
"我看到組織所犯的第一個錯誤是啟動時間太長或計劃時間太長。CIO(Chief Information Officer,首席信息官)說‘我的數據一團糟,我的digital silo(數字筒倉)需要完全清理。'然而事實上,基本上每個人的silos(庫)中都有凌亂的數據,”吳恩達說。
吳恩達認為,啟動一個小型試點項目以獲得快速勝利非常重要。“幾乎每家公司都已經有足夠的數據開始著手,我發現直接加入進來,快速贏得一個較小的項目,并利用從中學到的知識隨著時間的推移,發展成越來越大的項目的這些公司發展情況更好?!?/p>
那么如何為機器學習項目制定關鍵績效指標呢?對此,吳恩達的回答是,“如果你是第一次從事一個項目,一個全新的應用程序,很難為AI團隊制定成功的目標指標。作為團隊正在開展的項目,很難建立一些合理的基線績效水平。我認為你只需要快速構建第一個原型系統(prototype system),了解可能的情況。
更進一步,很多公司起步時往往發現數據是不夠的,而數據是機器學習的燃料,這時候該怎么辦?吳恩達提出,“我的典型建議是直接進入并開始使用小數據集做一些事情,然后通常會收集到更多數據。我發現對于許多實際應用程序而言,與以模型為中心的方法(您持有數據修復并嘗試改進代碼)相比,持有代碼修復并迭代改進數據更有用。這是Mops(機器學習操作,Machine Learning Operations)的新生部分,我認為目前還沒有人真正擁有出色的工具。”
MLOps是AI領域中一個相對較新的概念,旨在確保模型輸出質量的同時,加快機器學習模型的開發和生產部署,是數據科學家與操作專業人員之間進行協作和交流以幫助管理機器學習任務生命周期的一種實踐。MLOps基于可提高工作流效率的DevOps(用于促進開發應用程序/軟件工程、技術運營和質量保障部門之間的溝通、協作與整合)原理和做法演變而來。
機器學習的進步是模型帶來的還是數據帶來的一直存在巨大爭議,吳恩達在2021年4月18日生日當天發布的一個視頻中表示,一個機器學習團隊80%的工作應該放在數據準備上,確保數據質量是最重要的工作。MLOps則是保證數據質量在整個的機器學習工程中是高質量、一致的重要工具,對此,吳恩達做了進一步解釋。
“在實驗室中訓練AI模型然后發表論文并產生良好結果令人興奮。但是當人們審視機器學習項目的生命周期時,需要做的不僅僅是訓練模型,還需要審視項目的范圍,決定做什么,不做什么,還有收集數據并確保數據的高質量等等。然后將其推向生產,審視其解決任何性能或公平問題的表現,”由此,吳恩達認為,如果能夠構建這樣的工具,那么就可以授權更多人構建、部署、維護和有效使用機器學習系統。
“AI系統不僅僅是代碼(code),而是代碼加數據(data)。對于代碼,我們有一個DevOps紀律。在數據方面,為了管理項目中持續的高質量數據流,MLOps需要更加迭代。他們需要共同努力,”吳恩達表示。
最后,對于剛畢業的工程師,吳恩達給出了自己的建議,“我發現人工智能領域表現最好的是‘T型’人才——擁有廣泛的技術知識基礎以及真正在某些領域深耕。課程作業往往是個人獲得廣泛的技術知識基礎的一種非常有效的方式。然后超過某個點,為了獲得更深入的知識,你必須跳進去做項目工作。我們都想建立一個能造福許多人,創造巨大的經濟的項目。社區也很重要,我認為我們都是由周圍的人塑造的,所以找志同道合的人互相分享知識?!?/p>
- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2025 上海東方報業有限公司