- +1
ChatGPT背后的打工人,月薪3000
人工智能訓(xùn)練師工作的背后,藏著哪些隱秘的故事?
作者 | 徐倩影
題圖 | 視覺中國
2023年第一季度,國內(nèi)多家互聯(lián)網(wǎng)企業(yè)相繼推出類ChatGPT產(chǎn)品。
復(fù)旦大學(xué)邱錫鵬教授團隊發(fā)布國內(nèi)第一個對話式大型語言模型MOSS,邀公眾參與內(nèi)測;百度推出類ChatGPT產(chǎn)品“文心一言”;秘塔科技自研LLM大模型“對話寫作貓”已正式上線……且不說產(chǎn)品的體驗感如何,它們均提醒了中國AI企業(yè)必須加速推進。
當(dāng)一眾互聯(lián)網(wǎng)大佬紛紛表示要在ChatGPT風(fēng)口尋求新的機會時,作為人工智能下游的數(shù)據(jù)標注行業(yè)從業(yè)者,楊科琪明顯感受到公司業(yè)務(wù)量出現(xiàn)了短期增長。但這種增長量是否會持續(xù)?他無法判斷,至少到目前為止,國內(nèi)做AI的公司有很多,但能夠盈利的卻少之又少。
早在2017年,伴隨無人駕駛與阿爾法圍棋(AlphaGo)帶來的AI浪潮,數(shù)據(jù)標注行業(yè)逐漸進入大眾視野。同年,國務(wù)院發(fā)布《新一代人工智能發(fā)展規(guī)劃》,明確新一代人工智能發(fā)展三步走戰(zhàn)略目標,人工智能上升為國家戰(zhàn)略層面。
圖源:圖蟲創(chuàng)意
2019年,即人工智能訓(xùn)練師被納入國家職業(yè)分類目錄的前一年,楊科琪和朋友在中國西北的一個小縣城開啟了AI數(shù)據(jù)服務(wù)生意。楊科琪說:“實際上,職業(yè)培訓(xùn)與做業(yè)務(wù)是兩回事,在數(shù)據(jù)標注公司,聰明、用功的人學(xué)習(xí)一周就能上手。”在他看來,數(shù)據(jù)標注是一份門檻低且又有些枯燥的工作,但這并不影響其成為時下中國部分縣城流行的職業(yè)之一。
2020年,楊科琪離開了初創(chuàng)公司,進入一家專業(yè)AI數(shù)據(jù)服務(wù)提供商企業(yè)。在他看來,數(shù)據(jù)標注行業(yè)必定要走向?qū)I(yè)化與職業(yè)化的發(fā)展方向。
以下為楊科琪的自述。
是安逸還是無趣?
1000個工位,1000臺電腦,目前有800位人工智能訓(xùn)練師,他們每天坐在電腦前畫框、放大畫面、調(diào)整框線、提交審核……這里有空調(diào)、有網(wǎng)絡(luò),每個人有不到2平方米的辦公區(qū)域。
目前,我們最大的業(yè)務(wù)是無人駕駛項目,標注員根據(jù)系統(tǒng)給出的方框,用鼠標細化一輛車的大體輪廓,然后將圖片放至最大,細心調(diào)整車輛邊緣的框線,再勾選屏幕左上角的車輛屬性。
所謂人工智能訓(xùn)練師就是讓汽車在行駛過程中自動識別馬路。如果只是將視頻傳給計算機,計算機是無法識別的,需要大量的標注員將視頻中的道路框出,再交給計算機,計算機多次接收此類信息后,才能逐漸學(xué)會在視頻和照片中識別出道路。
圖源:視覺中國
今年3月,德勤中國發(fā)布的《人工智能基礎(chǔ)數(shù)據(jù)服務(wù)白皮書》顯示,人工智能基礎(chǔ)數(shù)據(jù)服務(wù)下游應(yīng)用占比中自動駕駛占到52%。隨著自動駕駛AI算法的升級迭代及模型訓(xùn)練數(shù)據(jù)量的指數(shù)級增長,技術(shù)迭代帶來數(shù)據(jù)需求“大爆發(fā)”。相比其他項目,自動駕駛業(yè)務(wù)的持續(xù)性更好,而且服務(wù)周期也比較長。
人工智能的三大基石是數(shù)據(jù)、算力與算法。我們數(shù)過羊、數(shù)過木頭,還數(shù)過鐵塊,涉及的行業(yè)有醫(yī)學(xué)類、安防類、現(xiàn)在的自動駕駛等,還接過看手相的一個項目,甲方要求我們給手掌上的各種手紋進行標注,很多員工都開始研究手相,挺好玩的。一般而言,視覺類的內(nèi)容要做到機器準確識別,至少需要10萬張圖片。對于AI產(chǎn)品,數(shù)量越多、質(zhì)量越高的數(shù)據(jù),往往越能夠訓(xùn)練出更“聰明”的模型。
標注員一天的工作內(nèi)容就是畫框線,根據(jù)項目的難易程度,一個框3—8分錢,工作日8小時要畫2000個框以上,人均月收入在3000—4000元。
2023年2月16日,陜西省榆林市清澗縣,工作人員在進行數(shù)據(jù)標注。/視覺中國
以我們公司為例,人員流動率在30%—40%,因為工作比較簡單,每天8小時坐在電腦前,做著重復(fù)性工作,對于有的人而言是一份還算安逸的工作,但對另一些人而言就顯得非常枯燥和無趣。
一個AI產(chǎn)品的誕生一般需要經(jīng)歷數(shù)據(jù)準備、模型訓(xùn)練與優(yōu)化、模型管理、推理應(yīng)用等4個模塊,在國內(nèi)已經(jīng)形成了非常成熟的全產(chǎn)業(yè)鏈。目前,我所在的公司在做的就是數(shù)據(jù)準備,包括數(shù)據(jù)生產(chǎn)、數(shù)據(jù)清洗、數(shù)據(jù)標注三大方面。像我們這種布局在縣城的數(shù)據(jù)標注公司,一般主要負責(zé)數(shù)據(jù)清洗和數(shù)據(jù)標注。清除模糊的圖片、噪聲太多的語音、錯誤的文本內(nèi)容后,我們再進行畫框線和數(shù)據(jù)標注,根據(jù)甲方的不同需求進行操作。
技能等級認定中的初級工
根據(jù)《人工智能訓(xùn)練師國家職業(yè)技能標準(2021年版)》的定義,人工智能訓(xùn)練師是使用智能訓(xùn)練軟件,在人工智能產(chǎn)品使用過程中進行數(shù)據(jù)庫管理、算法參數(shù)設(shè)置、人機交互設(shè)計、性能測試跟蹤及其他輔助作業(yè)的人員。
在我看來,雖然標注員也被稱為人工智能訓(xùn)練師,但如果按照去年發(fā)布的《關(guān)于開展新職業(yè)技能等級認定工作的通知》的內(nèi)容,標注行業(yè)內(nèi)的人工智能訓(xùn)練師在技能等級認定中應(yīng)該屬于初級工,在其之上還有4個更高的職業(yè)技能等級。
其實,拿證和做業(yè)務(wù)真是兩回事。考取職業(yè)證書,按照職業(yè)教育的要求需要上滿 60 個課時,課程中會系統(tǒng)學(xué)習(xí)人工智能的概念、未來的發(fā)展方向,以及相對完整的知識構(gòu)架邏輯。但是在標注行業(yè),在數(shù)據(jù)標注公司,聰明、用功的人學(xué)習(xí)一周就能上手,只要會使用標注工具就能勝任。
標注行業(yè)作為勞動密集型產(chǎn)業(yè),運作模式主要有兩種。一種是專業(yè)AI數(shù)據(jù)服務(wù)提供商自己雇人自己做;另一種是他們接到業(yè)務(wù)后發(fā)包出去,使用更具性價比的人員或公司。我所在的公司也屬于后者,“層層發(fā)包”在標注行業(yè)比較常見。
2019年7月31,貴州銅仁。“AI豆計劃”的學(xué)院在萬山區(qū)人工智能產(chǎn)業(yè)扶貧孵化空間練習(xí)數(shù)據(jù)標注。/視覺中國
數(shù)據(jù)標注發(fā)展初期,就是由“眾包”模式而興起,當(dāng)時有很多眾包平臺,需求方項目要求有大量兼職人員接單,和目前的美團模式差不多。當(dāng)年,我們的初創(chuàng)公司也是利用信息差,從數(shù)據(jù)標注平臺接單,在市場上找更便宜的人力資源完成任務(wù),但隨著數(shù)據(jù)標注從野蠻生長階段進入規(guī)范化發(fā)展階段,市場上的兼職人員正在減少。越來越多的兼職業(yè)務(wù)正在被像我們這樣的縣城標注公司替代。
2019年,我剛剛創(chuàng)業(yè)時,知道數(shù)據(jù)標注的人不多,這行屬于剛剛興起。現(xiàn)在,這行的入門門檻變高了,參與的人也越來越多,市場壓價現(xiàn)象很普遍,與剛?cè)胄袝r相比,價格下降了30%左右,我個人覺得數(shù)據(jù)標注市場已經(jīng)有點“紅海”了。
目前,大部分互聯(lián)網(wǎng)企業(yè)都在自建基地,比如百度、阿里巴巴、京東等互聯(lián)網(wǎng)大廠在全國都建立了基地,從而獲得政策扶持、租金減免等條件。
人工智能的下一站是縣城
人工智能訓(xùn)練師流行于縣城?我覺得很正常。目前,國內(nèi)標注行業(yè)的價格戰(zhàn)愈演愈烈,在質(zhì)量、效率不斷提高的情況下,各大公司拼的無疑就是價格。隨著行業(yè)的發(fā)展,甲方需要不斷尋求價格更低的生產(chǎn)力區(qū)域,所以各大AI數(shù)據(jù)服務(wù)企業(yè)轉(zhuǎn)戰(zhàn)縣城非常正常。
在縣城辦公,房租、人力成本相對較低,同時互聯(lián)網(wǎng)企業(yè)確實可以解決一部分人的就業(yè)和收入問題。目前,百度擁有行業(yè)內(nèi)最大的自建標注團隊,在山東濟南、山西臨汾、重慶奉節(jié)、四川達州、甘肅酒泉、江西新余等10個地區(qū)有自建標注基地。
2022年2月21日,陜西省銅川市宜君縣。人工智能訓(xùn)練師張文濤正在做地圖數(shù)據(jù)標注工作。/視覺中國
除此之外,政府補貼也是相關(guān)企業(yè)選擇縣城的主要原因。2023年1月,貴陽市人民政府網(wǎng)發(fā)布的《貴陽鼓勵企業(yè)吸納就業(yè)政策》中提到,貴陽市符合條件的小微企業(yè)、民營經(jīng)濟組織和社會組織吸納高校畢業(yè)生就業(yè)的,給予800元/人的一次性吸納就業(yè)補貼及一定額度的創(chuàng)業(yè)擔(dān)保貸款。
數(shù)據(jù)標注作為勞動密集型產(chǎn)業(yè),當(dāng)企業(yè)更多地選在三四線城市落地,當(dāng)?shù)卣粗氐膭t是產(chǎn)業(yè)化的基地建成后,帶動當(dāng)?shù)鼐蜆I(yè)、促進當(dāng)?shù)亟?jīng)濟發(fā)展。智研咨詢發(fā)布的《2022—2028年中國數(shù)據(jù)標注與審核行業(yè)投資策略探討及市場規(guī)模預(yù)測報告》中提到,隨著人工智能成為國家發(fā)展戰(zhàn)略,其勢頭銳不可當(dāng),預(yù)計2028年我國數(shù)據(jù)標注與審核行業(yè)市場規(guī)模將達262.74億元。
不久前,Meta發(fā)布了史上首個圖像分割基礎(chǔ)模型——SAM(Segment Anything Model)。有人認為,這代表著計算機視覺領(lǐng)域的GPT-3時刻已經(jīng)到來。有人說這一模型會替代大量的標注員,我個人認為在數(shù)據(jù)處理的精度方面,人類無法被替代,至少目前不會,畢竟對于AI產(chǎn)品而言,數(shù)據(jù)越精準,模型才會越精準。
ChatGPT在社交媒體上引起了巨大的話題度后,國內(nèi)多家互聯(lián)網(wǎng)企業(yè)相繼推出類ChatGPT產(chǎn)品。對我們而言,短期內(nèi)AI企業(yè)對數(shù)據(jù)標注的需求量還會增加,畢竟數(shù)據(jù)標注在整個前期產(chǎn)品開發(fā)的過程中時間占比可能在全周期的20%—30%之間,目前這一塊的數(shù)據(jù)確實需要大量的人去做。但是,隨著平臺標注自動化和預(yù)識別的發(fā)展,未來一部分標注員可能會被淘汰。
未來,數(shù)據(jù)標注這行一定會向著規(guī)范化和職業(yè)化發(fā)展,因為需求方的類型和要求會增多,也會涉及各個領(lǐng)域的專業(yè)性方面。比如醫(yī)療,如果沒有醫(yī)學(xué)常識很難做好標注;金融數(shù)據(jù)也是如此,看不懂財報,就沒辦法做標注。
(應(yīng)受訪者要求,文中楊科琪為化名)
運營:嘻嘻,排版:韓博菲
原標題:“賽博流水線”里不被看見的一群人
本文首發(fā)634期《逃離工位》
原標題:《ChatGPT背后的打工人,月薪3000》
本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。
- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2024 上海東方報業(yè)有限公司