- +1
圖靈測試誕生70年,機器像人類一樣思考過時了么?
作者 | 張依依
1950 年,艾倫·圖靈在《思維》雜志上發表了其著名論文《計算機器與智能》。其中,他提出一個影響深遠的問題:機器能思考么?
論文中給出的驗證方法是,假設一個游戲中有三個角色,兩名人類,其余一個是計算機。由人類擔任的評估員,分別向另兩位提出若干開放式的問題,如果根據回答他無法判斷哪一名是真的人類,那么這個計算機就被認為通過測試,它就像人類一樣智能。
這就是圖靈的模仿游戲,即如今廣為人知的圖靈測試。

圖片: 維基百科
在它誕生之后的數十年里,圖靈測試成為人工智能領域北極星般的存在,科研人員紛紛以其為航標而苦心鉆研。上世紀 60 年代和 70 年代最早的聊天機器人 ELIZA 和 PARRY, 都是圍繞著通過測試的目的而設計的。
隨著 AI 技術的發展,之后也有許多其他測試出世,但沒有一個能夠與之齊名。“圖靈測試展現出極致的簡單和優雅,這讓它在過去 70 年中長盛不衰。” DataRobot 數據科學副總裁扎克·麥耶說。
直至今日,亞馬遜智能助理 Alexa 的首席科學家羅希特·普拉薩德表示,他仍然時常被媒體、行業領袖和其他行業人士追著問:“ Alexa 什么時候能通過圖靈測試呢?”
近日,普拉薩德撰文整體回應了這個問題。他認為,是時候拋棄這個 70 年來鞭策人心的傳說,為人工智能設立一個新的挑戰了。
01////
圖靈的神壇
事實上,在圖靈提出模仿游戲時,人工智能(AI)的概念還尚不存在。直到六年之后,在美國達特茅斯大學的一場研討會上,它才由計算機科學家約翰·麥卡錫定義,為的是將其與控制論區分開來。
Forbes 指出,圖靈測試的巧妙在于,人們不必要去定義什么是“智能”。他將“能否思考”這個抽象的問題,引入了一個更精準,也看似更實用的場景。
它也為試圖參與科技進步的普通人提供了某種談資。在圖靈 1950 年的論文中,他樂觀地估計,到 2000 年,計算機就將精通模仿游戲,一個普通的人類評估員在五分鐘的提問后,只有不到 70% 的機會作出正確的人機識別。
1990 年,紐約商人休·羅布納宣布為第一個通過測試的計算機程序頒發 10 萬美元的獎金。之后,羅布納獎成為一年一度的“節目”,參賽者們前赴后繼地將編出的程序提交給圖靈測試檢驗。
#4:能跟我說說你的夢境么?
#8:你覺得特朗普怎么樣?
#12:烤面包需要準備什么?
#17:我試圖用鑰匙打開鎖,但是有人用口香糖填滿了鑰匙孔,我沒法把它弄出來。我弄不出去的是什么東西?
#18:獎杯沒法放在棕色的手提箱里因為它太小了。是什么東西太小了?
(羅布納獎測試 2017 部分試題)
但結果都不盡如人意。2014 年,一個名為尤金的俄羅斯機器人越過了這條 70% 的基準線,這是有史以來第一次。在測試現場,有 33% 的裁判對尤金是人類這點深信不疑。但這被普遍認為不具說服力,因為裁判數很少,無法可靠地反映出結果,也沒有超過羅布納后來設下的 50% 的判斷錯誤率。
而且有“作弊”的嫌疑。隨著時間的推移,為了通過圖靈測試,機器人使用的策略發生了變化。最初的障礙僅僅是理解評委們提出的問題,后來則是試圖以更“像人”的方式回答這些問題。近年來,挑戰者開始顧左右而言它,通過向評委發起反問,或模擬情緒和打字錯誤,來變得更像人類。
比如,尤金的策略就是以一個 13 歲男孩的角色出現。“我們的想法是,在尤金的年齡,他可以假裝自己無所不知,但實際表現出對于一些事物的無知也是合理的。”尤金的創造者這樣表示。

艾倫·圖靈的塑像。圖片: 維基共享資源
02////
過時的測試
在 AI 領域,目前最讓人興奮的模型之一,是舊金山人工智能公司 OpenAI 開發的 GPT-3。它被認為是人工智能的一個巨大飛躍。它可以生成小說、詩歌、新聞稿、代碼、音樂甚至笑話。但它仍然無法通過圖靈測試。
這也顯示出,開發者們如今不再唯圖靈測試是尊。無人駕駛汽車、語音處理和圖像識別等先進技術的出現,這些 70 年前無法想象的進步,都使通過測試本身變得不再那么重要。
普拉薩德指出,圖靈測試對 AI 的高速計算和信息查找能力幾乎不屑一顧。甚至于很多時候,機器需要特意放慢速度,增加停頓,“假裝思考”,來模仿人類。事實上,它們的檢索速度要遠高于人類。
而圖靈測試也僅限于文本交流,意味著它只能在對話的層面體現智能。
如今的 AI 在聽、看和感受等方面都獲得了拓展。這些都是為了滿足一些更實用的需求,比如智能家居,語音控制。而“模仿人類”的能力本身,也為人類的未來制造出更多潛在的問題,比如說用于實施釣魚攻擊的自動詐騙機器人,模仿人類用戶的網絡機器人水軍,散布假消息的假賬號。
普拉薩德認為, AI 需要新的基準測試,它所追求的目標應該遠超普通人類的能力。“它不僅能展現出類似人類的智力屬性——包括常識、自我監督和語言表達,還能完成快速搜索、歷史回溯和替代人類做任務等機器的屬性。”
因此,在 Alexa 的設計中,機器人是更偏重于任務導向的。即便是對話機器人,目的也是幫助人類促進學習、舒緩身心或是提供消遣。比如在對話時,機器人優先考慮的是適時表現出一些幽默感和同理心,而不是假裝自己是人類。
而對于人類智力的理解,在過去 70 年中也在不斷進步。“自從圖靈測試以來,人類實際上已經通過 fMRI (功能性磁共振成像)發現了更多關于我們自身思想和智力的秘密。” DataRobot 首席營銷專員本 · 泰勒說。“如果說圖靈測試是我們的登月計劃,那現在就來籌劃一下火星計劃吧。”
“圖靈測試并不是一個糟糕的測試,但它并不真正衡量智力。” Octane AI 的聯合創始人本·帕爾解釋道,“我們需要更清晰的知覺和自我意識測試。也許還需要幾十年甚至更長的時間,我們才能擁有一臺真正有知覺的機器。”

慕尼黑的網絡開發人員 Valentin Vieriu 的 AI 藝術項目,在其網站上會無限生成 AI 畫作。圖片:art42.net
但無可否認的是,圖靈測試仍然擁有某種魅力,它極大地激發了科技界的想象力,讓從業者們收獲創造的激情。
蘋果公司聯合創始人史蒂夫·沃茲尼亞克提出的測試也同樣有趣,他提議,讓一個機器人試圖進入你家,找到廚房,并幫你做一杯咖啡。除此之外,還有的測試試圖讓機器人觀看電視節目并提出有意義的問題,有的則通過創造藝術的能力來進行評判 AI 的創造力。對這些考驗的求索都在不斷拓寬人們對機器能力想象的邊界。
“我相信在本世紀末,文字使用和通識教育將進步到一種程度,那就是人們可以盡情談論會思考的機器,而不被駁斥。”在論文中,圖靈提出過這樣的設想。那至少,在圖靈測試蒙上時代灰塵的現在,這個期盼已經成真。
原標題:《圖靈測試誕生 70 年,讓機器像人類一樣思考過時了么?》
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。





- 报料热线: 021-962866
- 报料邮箱: news@thepaper.cn
互联网新闻信息服务许可证:31120170006
增值电信业务经营许可证:沪B2-2017116
© 2014-2025 上海东方报业有限公司