下载客户端

圖靈測試誕生70年，機器像人類一樣思考過時了么？

2021-05-17 21:24

来源：澎湃新聞·澎湃號·湃客

作者 | 張依依

1950 年，艾倫·圖靈在《思維》雜志上發表了其著名論文《計算機器與智能》。其中，他提出一個影響深遠的問題：機器能思考么？

論文中給出的驗證方法是，假設一個游戲中有三個角色，兩名人類，其余一個是計算機。由人類擔任的評估員，分別向另兩位提出若干開放式的問題，如果根據回答他無法判斷哪一名是真的人類，那么這個計算機就被認為通過測試，它就像人類一樣智能。

這就是圖靈的模仿游戲，即如今廣為人知的圖靈測試。

圖片: 維基百科

在它誕生之后的數十年里，圖靈測試成為人工智能領域北極星般的存在，科研人員紛紛以其為航標而苦心鉆研。上世紀 60 年代和 70 年代最早的聊天機器人 ELIZA 和 PARRY，都是圍繞著通過測試的目的而設計的。

隨著 AI 技術的發展，之后也有許多其他測試出世，但沒有一個能夠與之齊名。“圖靈測試展現出極致的簡單和優雅，這讓它在過去 70 年中長盛不衰。” DataRobot 數據科學副總裁扎克·麥耶說。

直至今日，亞馬遜智能助理 Alexa 的首席科學家羅希特·普拉薩德表示，他仍然時常被媒體、行業領袖和其他行業人士追著問：“ Alexa 什么時候能通過圖靈測試呢？”

近日，普拉薩德撰文整體回應了這個問題。他認為，是時候拋棄這個 70 年來鞭策人心的傳說，為人工智能設立一個新的挑戰了。

01////

圖靈的神壇

事實上，在圖靈提出模仿游戲時，人工智能（AI）的概念還尚不存在。直到六年之后，在美國達特茅斯大學的一場研討會上，它才由計算機科學家約翰·麥卡錫定義，為的是將其與控制論區分開來。

Forbes 指出，圖靈測試的巧妙在于，人們不必要去定義什么是“智能”。他將“能否思考”這個抽象的問題，引入了一個更精準，也看似更實用的場景。

它也為試圖參與科技進步的普通人提供了某種談資。在圖靈 1950 年的論文中，他樂觀地估計，到 2000 年，計算機就將精通模仿游戲，一個普通的人類評估員在五分鐘的提問后，只有不到 70% 的機會作出正確的人機識別。

1990 年，紐約商人休·羅布納宣布為第一個通過測試的計算機程序頒發 10 萬美元的獎金。之后，羅布納獎成為一年一度的“節目”，參賽者們前赴后繼地將編出的程序提交給圖靈測試檢驗。

#4：能跟我說說你的夢境么？

#8：你覺得特朗普怎么樣？

#12：烤面包需要準備什么？

#17：我試圖用鑰匙打開鎖，但是有人用口香糖填滿了鑰匙孔，我沒法把它弄出來。我弄不出去的是什么東西?

#18：獎杯沒法放在棕色的手提箱里因為它太小了。是什么東西太小了？

（羅布納獎測試 2017 部分試題）

但結果都不盡如人意。2014 年，一個名為尤金的俄羅斯機器人越過了這條 70% 的基準線，這是有史以來第一次。在測試現場，有 33% 的裁判對尤金是人類這點深信不疑。但這被普遍認為不具說服力，因為裁判數很少，無法可靠地反映出結果，也沒有超過羅布納后來設下的 50% 的判斷錯誤率。

而且有“作弊”的嫌疑。隨著時間的推移，為了通過圖靈測試，機器人使用的策略發生了變化。最初的障礙僅僅是理解評委們提出的問題，后來則是試圖以更“像人”的方式回答這些問題。近年來，挑戰者開始顧左右而言它，通過向評委發起反問，或模擬情緒和打字錯誤，來變得更像人類。

比如，尤金的策略就是以一個 13 歲男孩的角色出現。“我們的想法是，在尤金的年齡，他可以假裝自己無所不知，但實際表現出對于一些事物的無知也是合理的。”尤金的創造者這樣表示。

艾倫·圖靈的塑像。圖片: 維基共享資源

02////

過時的測試

在 AI 領域，目前最讓人興奮的模型之一，是舊金山人工智能公司 OpenAI 開發的 GPT-3。它被認為是人工智能的一個巨大飛躍。它可以生成小說、詩歌、新聞稿、代碼、音樂甚至笑話。但它仍然無法通過圖靈測試。

這也顯示出，開發者們如今不再唯圖靈測試是尊。無人駕駛汽車、語音處理和圖像識別等先進技術的出現，這些 70 年前無法想象的進步，都使通過測試本身變得不再那么重要。

普拉薩德指出，圖靈測試對 AI 的高速計算和信息查找能力幾乎不屑一顧。甚至于很多時候，機器需要特意放慢速度，增加停頓，“假裝思考”，來模仿人類。事實上，它們的檢索速度要遠高于人類。

而圖靈測試也僅限于文本交流，意味著它只能在對話的層面體現智能。

如今的 AI 在聽、看和感受等方面都獲得了拓展。這些都是為了滿足一些更實用的需求，比如智能家居，語音控制。而“模仿人類”的能力本身，也為人類的未來制造出更多潛在的問題，比如說用于實施釣魚攻擊的自動詐騙機器人，模仿人類用戶的網絡機器人水軍，散布假消息的假賬號。

普拉薩德認為， AI 需要新的基準測試，它所追求的目標應該遠超普通人類的能力。“它不僅能展現出類似人類的智力屬性——包括常識、自我監督和語言表達，還能完成快速搜索、歷史回溯和替代人類做任務等機器的屬性。”

因此，在 Alexa 的設計中，機器人是更偏重于任務導向的。即便是對話機器人，目的也是幫助人類促進學習、舒緩身心或是提供消遣。比如在對話時，機器人優先考慮的是適時表現出一些幽默感和同理心，而不是假裝自己是人類。

而對于人類智力的理解，在過去 70 年中也在不斷進步。“自從圖靈測試以來，人類實際上已經通過 fMRI （功能性磁共振成像）發現了更多關于我們自身思想和智力的秘密。” DataRobot 首席營銷專員本 · 泰勒說。“如果說圖靈測試是我們的登月計劃，那現在就來籌劃一下火星計劃吧。”

“圖靈測試并不是一個糟糕的測試，但它并不真正衡量智力。” Octane AI 的聯合創始人本·帕爾解釋道，“我們需要更清晰的知覺和自我意識測試。也許還需要幾十年甚至更長的時間，我們才能擁有一臺真正有知覺的機器。”

慕尼黑的網絡開發人員 Valentin Vieriu 的 AI 藝術項目，在其網站上會無限生成 AI 畫作。圖片：art42.net

但無可否認的是，圖靈測試仍然擁有某種魅力，它極大地激發了科技界的想象力，讓從業者們收獲創造的激情。

蘋果公司聯合創始人史蒂夫·沃茲尼亞克提出的測試也同樣有趣，他提議，讓一個機器人試圖進入你家，找到廚房，并幫你做一杯咖啡。除此之外，還有的測試試圖讓機器人觀看電視節目并提出有意義的問題，有的則通過創造藝術的能力來進行評判 AI 的創造力。對這些考驗的求索都在不斷拓寬人們對機器能力想象的邊界。

“我相信在本世紀末，文字使用和通識教育將進步到一種程度，那就是人們可以盡情談論會思考的機器，而不被駁斥。”在論文中，圖靈提出過這樣的設想。那至少，在圖靈測試蒙上時代灰塵的現在，這個期盼已經成真。

原標題：《圖靈測試誕生 70 年，讓機器像人類一樣思考過時了么？》

閱讀原文

特别声明

本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

我要举报

#圖靈測試 #圖靈 #人工智能

扫码下载澎湃新闻客户端

澎湃矩阵

新闻报料

报料热线: 021-962866
报料邮箱: news@thepaper.cn

沪ICP备14003370号

沪公网安备31010602000299号

互联网新闻信息服务许可证：31120170006

增值电信业务经营许可证：沪B2-2017116

反馈

百家乐官网 (中国）有限公司官网

圖靈測試誕生70年，機器像人類一樣思考過時了么？

扫码下载澎湃新闻客户端