- +1
用數據說話就是用事實說話 | 專訪沈浩
說起數據新聞,你可能會想到數據圖表、炫酷的可視化效果;可能會想到一些工具,比如Excel、Python、Tableau等等;也可能一頭霧水。數據新聞在中國還年輕,但行業從業者、學術研究者、個人創作者們,已經圍繞著它做了不少探索。
這一次,中國傳媒大學新聞學院“白楊數新觀察”團隊和澎湃新聞“湃客·有數”共同推出系列訪談“數據新聞訪談錄”。
我們抱著觀察記錄、答疑解惑的想法,采訪了國內外十多位在數據新聞領域有創見、有思想的學者、媒體人及學子,闡釋數據新聞的新理念新發展,介紹數據新聞教育的經驗、方法和路徑,分享數據新聞作品的創作過程,在數據新聞的業務實踐前沿、行業發展前景、教學體系現狀等話題中進行思維碰撞。
輸入同一個問題,誕生于不同背景的 ChatGPT、文心一言等人工智能給出的回答不同,這是為什么?輸入給人工智能學習的數據,其背后是否隱藏了不同的價值取向,輸出反饋給人類時是否會隱含偏差和誤導?這對我們的認知又將產生怎樣的影響?對于以上問題,沈浩表示,人們應當對數據抱有信心——數據依舊是最有事實的東西,在大量數據中挖掘出的隱藏在數據中的模式、趨勢和相關性,幾乎不可能造假。而數據新聞,就是用數據去呈現真實。
沈浩,男,傳播學博士。中國傳媒大學新聞學院教授、博士生導師,中國傳媒大學媒體融合與傳播國家重點實驗室媒體大數據中心首席科學家,中國市場信息調查業協會副會長。
2003 年,沈浩開始研究數據挖掘相關領域,后投身于空間信息分析和大數據領域。從大數據和人工智能,到區塊鏈,再到元宇宙和虛擬數字人,沈浩一直在追尋科技的前沿。2013 年,在其引導下,數據新聞專業成立。
從專業上講,沈浩從“最理科”干到了“最文科”。畢業于北京師范大學數學系的他更偏好用數學的方式解決社科,特別是新聞方面的問題。
Q1:在跨專業過程中,不同學科的邏輯思維體系是否有很大的差別,您又是如何將它們融合再運用的?
沈浩:我可以說是從“最理科”干到了“最文科”。微博剛出來的時候,我經常在微博發一些數據相關內容,網上會有一些人會和我杠,質疑我一個新聞學老師怎么會懂大數據、人工智能呢?文科、理科的思維方式是普遍存在的,盡管我不喜歡這樣的二分。
近幾年我愈發認識到數學的重要性,會向文科生灌輸數學思維方式和腦句,這在解決實際問題中很有作用。雖然我現在可能有些走極端,就是說我更偏好用數學的方式解決社科問題,特別是新聞方面的問題,我越來越重視大數據智能技術對傳統新聞變革的影響,因為我們本身就是做傳播研究方法的,做方法需要定性定量。
不過,數據新聞做的是產品,是有組織的團隊創新。新聞報道的思路和深度的數據挖掘過程需要共同討論和仔細考量,靠一個人不能完成這么工作量大的任務。
Q2:您剛剛提到數據新聞的生產是需要團隊的,為什么當下中國沒有形成高度專業化的數據新聞團隊形式?
沈浩:我們是有意識在帶領學生形成團隊去做數據新聞生產的,但是互聯網或者說新媒體中傳播效率不如預期。
當數據新聞起來的時候,除了探討數據技術要求,我們還需探討這種數據報道形態。這種形態是一種產品,既然是產品,那就跟傳統的新聞宣傳報道是不一樣的。產品是有成本的,我們需要去考慮這個產品能不能賣得出去,它的受眾是什么,以此來衡量能不能做。如此龐大繁雜的過程,決定我們的數據新聞不是一個人能做出來的——我們需要 News room。國外就有很多這種 News room,News room 里有一些編碼程序員,還有數據科學家。境外的數據新聞主要是揭露造假腐敗國際政府陰暗面的維度,我們對這維度不擅長,于是我們更加偏向于人文關懷,還有社會重大事件,比如青島爆炸、深圳垮塌事件、周老虎事件,就是對已經確認的腐敗通過天眼查去做。
然而,數據新聞選題是最重要的,我們做的是一種新的深度報道,新聞的生產已經發生了根本的改變,現在的數據新聞已經不是以前狹義的數據新聞了。數據新聞傳入的時候,當時還沒有人工智能,只有大數據,但同學處理不了大數據,只能處理小數據,只是在可視化方面玩得好一點。
Q3:您剛剛提到現在挖的都是小數據,沒有真正應用到大數據。那作為一個學生,或是從業者,應該怎么利用大數據讓新聞更好地實現敘事作用呢?
沈浩:為什么說“大數據才有數據新聞,小數據沒有數據新聞”?這樣說可能有點絕對,但其中還是有些道理的。新聞要有 5W1H 要素,但小數據沒有這些要素。大數據是邊生產邊應用、邊應用邊生產,有時效性。而小數據是實證的,例如 45 天出一份報告,沒有時效性。真正的大數據新聞應當是具有時效性的深度報道。大數據挖出來的東西不是靠直覺發現的,甚至是違背直覺的東西,是事先不知道的,缺乏相關理論的。大數據運用的技術更像是類似知識圖譜或關系圖譜,關系圖和空間地理天生有可視化的效果,于是我們就有挖掘的能力。
目前來講,希望學習新聞的同學們能在數據選題和敘事上有特色,努力開辟報道角度和敘事方式的獨特性;并且了解數據新聞生產的過程,同時與寫代碼的、具有可視化表現能力的人通力合作。
Q4:數據的標準化過程中會不會存在傾向性,如何保證標準化后的數據的代表性呢?
沈浩:這是一個很技術的問題。為什么要標準化呢?其實主要是針對特定的分析,數據的量綱不一樣,所以我們需要標準化。標準化是數據處理,或者叫數據預處理的工作。這里邊包括三個方面。
第一個方面,就是我們在分析中把變量進行標準化。把量綱一致化之后,就可以進行相應的處理。在標準化的過程中可以產生“轉換”,比如說數據過去不服從正態分布,我們通過一種標準化的方式,那么就可以使它顯示出正態分布的形態。
第二個方面,就是在像排名這樣的問題上。排名是技術,發布是藝術。排名的過程中,數據可能來自于不同的指標和不同的權重,那么為了能夠加權,指標應該都是標準化的,但是在這個過程中如何標準化?是否會影響權重?這是很明顯的。
第三個方面,就是標準化的預處理模式。比如去除異常值,這個算不算標準化呢?這就看廣義的標準化概念。異常值的清洗,包括兩個變量的相關性。如果兩個變量具有相關性的話,那我們其實可以只用一個變量就可以了。所以標準化過程,其實也是一個數據消解的過程。
Q5:由數據分析得出的結論可信度高嗎?評估標準是什么呢?它能夠如實反映真實情況嗎?
沈浩:我剛才說了一句話,其實內涵比較深,就是“排名是技術,發布是藝術”。也就是說,什么樣的排名、用哪些變量,是人在決定。但如何排、如何標準化,其實也是一個重要的人為因素。在這個過程中,一個合格的數據分析人員應該秉承客觀的理念,循著符合數理邏輯的過程。這不是篡改數據,而是改變算法。像傳統的回歸、因子分析、主成分分析,甚至包括現在我們的深度學習技術、比如最近的火的 ChatGPT,所有輸入給計算機學習的數據都是需要經過標準化的。
那么標準化的過程會不會帶來所說的“偏向”呢?這就是看到底是算法的偏,還是人為的、有意或者無意的偏,這二者是截然不同的。如果探討人的原因,人有意篡改數據,希望模型怎么樣,那又是另一個問題,這事情就變得復雜了。所以我們只能談算法,這種算法會不會比另一種算法更有欺騙性?我們在模型訓練的時候,一般都有 training data 和 testing data 以及 validation,經歷不同的數據的分區和不同的標準化以后,算法是要經過不斷驗證的,以保證最后能夠實現對新數據的應用,這是算法的問題,而不是人類在這里考慮的因素。
Q6:《數據如何誤導了我們》一書中認為,“闡釋數據背后意義的權利”為國家所掌控,您認為這和實際情況相符嗎?當前數據新聞是否承擔起了“展現真實情況”的責任?
沈浩:除了上帝,都應該用數據說話,數據是最有事實的東西,用數據說話就是用事實說話。
在大量的數據中挖掘出的隱藏在數據中的模式、趨勢和相關性,幾乎不可能造假。在這種情況下,我們需要去思考數據的價值是什么,數據能否揭示商業和社會發展規律的問題。
到了大數據時代,數據已經不僅僅是我們的一門學科,而且成為國家掌控的重要的信息來源。我們經常談信息戰、輿論戰,實際上信息戰就是數據戰。
新聞是新近報道的事實。數據新聞從數據中挖掘,它一定是事實。事實是否是真相,是否符合社會倫理,這里面涉及到價值的問題。我們說數據呈現了真相,但是受眾如何理解,這需要我們去了解和判斷。當然結論一定是數據新聞通過數據展現真實,這是不可或缺的要件。否則你做出來的數據新聞可能就是假的,會誤導別人。
然而,這些概念、我們討論的語境都是普世價值范圍內的。如果我們要打的是輿論戰、認知戰,那我們也知道,“造假”也是一種新聞。這種 disinformation、misinformation,像 BBC、紐約時報,他們那些東西盡管呈現了所謂的客觀真實,但是他的用意可能對我們來講就是敵意。
我們還是需要有數據支撐的,至少比沒有數據更好。但是用數據說謊、統計的謊言——數據所帶來的偏,這些其實一直伴隨著數據和統計的發展。我們可以看一看 ChatGPT。ChatGPT 是一個由全人類的數據生成的一個知識信息機器人。但是我們同樣會思考,ChatGPT 后邊有沒有價值觀的問題?文心一言是不是也有這樣的問題呢?這些東西其實都是不可或缺的話題,也是需要我們去深入研究的。
Q7:您認為數據新聞為傳統新聞注入了怎樣的新鮮血液?
沈浩:未來的新聞是數據分析。今天的數據新聞是讓新聞更具有科技感,圖像、語言文字、聲音都可以進行智能處理,所以有“有圖像無真相”的事情。現在做新聞的人,都變成了事實審核師。對開源的情報信息可視化技術、對事實進行追查和核實,都將帶來數據新聞一種新的功能體現——新聞真實。尤其針對 disinformation(虛假信息),針對輿論戰和信息戰,對故意傳播的新聞進行審核,這是數據新聞的能力和方向,這是第一點。
第二點,數據新聞在智能媒體出現后,可能會借助智能媒體快速生成新聞的新的表達形式,生產出既具有數據新聞的特色,同時又有更好的表達形式和傳播能力的新聞產品,來測繪社會,使受眾感知。
第三點,現在的武器在媒介化,媒介在武器化,對于國際上的傳播,我們如何通過數據對敵,加強我們用數據說話外宣的能力,這是很重要的內容。
我作為一位 30 多年教齡的老教師,沒辦法跟上年輕人的節奏,這些東西都是年輕人的事業。我從數學到新聞又離開新聞,每天在寫代碼還有學新的東西。學生的創意完全超過老師,對于全新的東西,學生和老師都在共同成長。
采寫 / 文知知 黃燦 宋京豫 董雨荷
編輯 / 徐心遠 賈司瑒
統籌 / 詹新惠 汪惠怡 湃客·有數
本文為澎湃號作者或機構在澎湃新聞上傳并發布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。
- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯網新聞信息服務許可證:31120170006
增值電信業務經營許可證:滬B2-2017116
? 2014-2024 上海東方報業有限公司