2023年7月,人形機器人Ameca在日內瓦舉行的一個新聞發佈會上向媒體講話。(圖片来源:Johannes Simon/Getty Images)
【看中國2023年8月5日訊】(看中國記者程帆編譯綜合報導)近來越來越多ChatGPT的用戶反饋,新的基於OpenAI第四代生成式語言模型(GPT-4)聊天機器人明顯智力變低。特別在處理數學問題方面的能力可謂「雪崩式」狂跌,從三月版97.6%的準確度到六月只剩下可憐的2.4%。
與此同時,ChatGPT全球流量也首度出現下滑!數據公司SimilarWeb統計結果顯示,5至6月全球流量下降9.7%,獨立訪客也減少了5.7%,而人們在ChatGPT網站上停留的時間也跌了8.5%。
為此,史丹佛生物醫學數據科學副教授James Zou、加利福尼亞大學伯克利分校的柏克萊計算機科學教授Matei Zaharia及該校另兩位研究員,專門調查了3月至6月期間ChatGPT的性能。
上月出爐的最終調查結論是:GPT-4性能的確變糟了。腦白質或被切除?
據《經濟時報》(The Economic Times)和科學新聞網(Futurism)的報導,本次主要比較了GPT3.5和GPT-4兩個模型版本的四種能力,即數學問題、敏感/危險問題、代碼/寫程式能力和視覺推理能力。
在數學問題上,今年3月的GPT-4版識別質數的準確率可達到97.6%。但到了6月,更新版在同一任務上的表現卻異常糟糕(僅為2.4%),並且忽略了連貫的思考Prompt(一種提示,幫助AI系統回憶起自己在預訓練時學習到的東西)。這將意味著,在整個工作流程中,一旦模型對某個Prompt的響應突然發生變化(比如準確度或格式),就很可能會破壞需要完成的具體指令。
在敏感問題測試中,研究者創建了一個包含100個不應由大模型直接回答的敏感問題的數據集,並手動標記了所有回覆。結果發現,GPT-4變得更加安全,但缺乏拒答理由。
GPT-4在直接回覆敏感問題的比例從21.0%降到5.0%,而GPT-3.5的比例從2.0%上升到8.0%。此外,GPT-4回覆的文本長度也從600多字降到約140字。
在代碼生成測試中,研究者創建了新的代碼生成數據集,包括最新的50個LeetCode「容易」問題。最後顯示,生成的代碼更冗長但可直接執行的代碼更少。3月份,GPT-4認為超過50%是「可直接執行」的,但6月份僅剩下了10%。
在視覺推理能力檢測中,GPT-4和GPT-3.5的性能提升都很小。服務的整體性能也很低:GPT-4準確率為27.4%、GPT-3.5準確率為12.2%。
不過,對於GPT-4「智商下降」,學術界有觀點稱,如果要讓GPT-4變的更聽從人類的指揮且符合人類價值觀,它自身能力會變差。
換句話說,人類的「強硬教化」相當於把GPT-4的腦白質切除。這就像是破壞精神病人腦組織使其陷入痴呆狀態,以便於管理。
Christi Kennedy發文寫道,GPT-4不斷重複循環輸出程式碼和其他訊息,「與以前相比,這簡直是腦死!」
她補充道,「如果你沒有運用它以前的功能,你就不會注意到。但你要想真正充分使用它的一些功能,你會發現它明顯更愚蠢了。」