(來源:硬AI)
OpenAI從預(yù)訓(xùn)練巨頭到測試時(shí)計(jì)算先鋒。
在最新一期節(jié)目中,OpenAI知名研究員、O1研究團(tuán)隊(duì)的核心科學(xué)家Noam Brown,表達(dá)了對“測試時(shí)計(jì)算”(或推理時(shí)計(jì)算,test-timecompute)技術(shù)引爆AGI時(shí)代的堅(jiān)定信心。
他認(rèn)為,盡管擴(kuò)大預(yù)訓(xùn)練規(guī)模是提升模型性能的有效手段,但成本高昂且終將觸及天花板。而“測試時(shí)計(jì)算”技術(shù)的出現(xiàn),為解決這一瓶頸提供了全新的思路,將加速AGI的到來。
Brown曾認(rèn)為,實(shí)現(xiàn)AGI至少需要十年,但“測試時(shí)計(jì)算”技術(shù)僅用兩三年時(shí)間便攻克了他在2021年與OpenAI首席科學(xué)家IlyaSutskever討論時(shí)提出的關(guān)鍵難題:如何擴(kuò)展推理過程中的計(jì)算量。
他認(rèn)為,這項(xiàng)技術(shù)讓模型能夠在推理階段進(jìn)行更深入的思考和計(jì)算,從而解決更復(fù)雜的問題,而O1模型便是測試時(shí)計(jì)算研究的突破,可自主學(xué)習(xí)策略、拆解任務(wù)、識別并糾正錯(cuò)誤,展現(xiàn)出前所未有的智能水平,證明了模型可以進(jìn)行更深入的推理和解決更復(fù)雜的問題,它存在的意義被大大低估。
Brown強(qiáng)調(diào),測試時(shí)計(jì)算目前還處于早期發(fā)展階段,未來擁有巨大的提升空間。
他以ChatGPT為例:目前每次查詢的成本約為1美分,但對某些高價(jià)值應(yīng)用場景,用戶愿意支付的費(fèi)用可能高達(dá)100萬美元,這預(yù)示著測試時(shí)計(jì)算擁有巨大的市場潛力,將在未來釋放出更強(qiáng)大的能量。
精華概要
本文主要圍繞OpenAI研究科學(xué)家Noam Brown對大型語言模型(LLM)能力、測試時(shí)間計(jì)算以及AGI發(fā)展時(shí)間線的看法展開。
精華概要如下:
大模型能力觸碰天花板?測試時(shí)計(jì)算打開新思路
問:模型能力是否已經(jīng)達(dá)到了極限?
答: Noam認(rèn)為,LLM的能力并非遇到了硬性瓶頸,而是面臨著經(jīng)濟(jì)上的軟性限制。單純通過擴(kuò)大預(yù)訓(xùn)練規(guī)模來提高性能,成本會呈指數(shù)級增長,導(dǎo)致經(jīng)濟(jì)上不可行。
測試時(shí)計(jì)算:AGI 的終極密碼?
問:測試時(shí)計(jì)算的上限有多高?
答:?Noam認(rèn)為,測試時(shí)計(jì)算是提升LLM能力性價(jià)比的關(guān)鍵。相比預(yù)訓(xùn)練的巨額投入,測試時(shí)間計(jì)算的成本相對較低,且算法改進(jìn)空間巨大,具有巨大的提升潛力。他估計(jì)測試時(shí)間計(jì)算的成本還有至少八個(gè)數(shù)量級的提升空間。
AGI實(shí)現(xiàn)時(shí)間被大大縮短
問:Sam Altman 曾說:“我們基本知道如何構(gòu)建 AGI 了”,你的看法呢?
答: 我和 Sam 的觀點(diǎn)一致,OpenAI 的研究人員普遍認(rèn)為 AI 會快速發(fā)展。測試時(shí)計(jì)算的出現(xiàn)解決了很多關(guān)鍵問題,例如如何擴(kuò)展推理過程中的計(jì)算量。我原本以為這需要 10 年時(shí)間才能實(shí)現(xiàn),但實(shí)際上只用了 2-3 年。
O1的意義被低估了:OpenAI從預(yù)訓(xùn)練巨頭到測試時(shí)計(jì)算先鋒
問:是什么促使你專注于測試時(shí)計(jì)算的研究?
答: 在撲克和外交等游戲中,我看到了測試時(shí)計(jì)算的巨大潛力。我意識到,僅僅擴(kuò)大預(yù)訓(xùn)練規(guī)模無法實(shí)現(xiàn)真正的智能,需要找到一種方法來擴(kuò)展推理過程中的計(jì)算量。在 2021 年,我跟 Ilya Sutskever 討論過 AGI 的時(shí)間線,當(dāng)時(shí)我認(rèn)為至少需要 10 年時(shí)間。令我驚訝的是,他當(dāng)時(shí)也認(rèn)為僅靠擴(kuò)大預(yù)訓(xùn)練規(guī)模無法實(shí)現(xiàn) AGI。
問:是什么讓你相信測試時(shí)計(jì)算會成功?
答: 當(dāng)我們讓模型“思考”更長時(shí)間時(shí),它開始展現(xiàn)出一些我們原本以為需要人工添加到模型中的能力,例如嘗試不同的策略、將復(fù)雜問題分解成更小的子問題、識別并糾正錯(cuò)誤。這讓我相信,測試時(shí)計(jì)算是通往更高級智能的關(guān)鍵。
問:OpenAI 為什么會轉(zhuǎn)向測試時(shí)計(jì)算?
答: OpenAI 內(nèi)部也意識到僅靠擴(kuò)大預(yù)訓(xùn)練規(guī)模無法實(shí)現(xiàn) AGI,他們一直在尋找新的突破口。雖然最初的動機(jī)是為了克服數(shù)據(jù)墻的限制,但最終目標(biāo)與擴(kuò)展測試時(shí)計(jì)算的目標(biāo)一致。O1 的出現(xiàn)實(shí)際上顛覆了 OpenAI 自己開創(chuàng)的預(yù)訓(xùn)練范式,這表明 OpenAI 愿意投資有風(fēng)險(xiǎn)的方向。
通用模型一統(tǒng)天下?專用模型和工具仍有價(jià)值
問:專用模型的未來如何?
答: 我認(rèn)為最終會出現(xiàn)一個(gè)能夠處理所有任務(wù)的單一模型。但目前 O1 和 GPT-4 各有優(yōu)劣。O1 更智能,擅長解決復(fù)雜問題,但響應(yīng)速度較慢。GPT-4 響應(yīng)速度更快,更適合那些不需要深入推理的任務(wù)。
問:專用工具在未來會扮演什么角色?
答: 我認(rèn)為未來會出現(xiàn)很多介于簡單計(jì)算器和復(fù)雜模型之間的專用工具。例如,當(dāng) O1 被要求進(jìn)行復(fù)雜的數(shù)學(xué)計(jì)算時(shí),它可以選擇調(diào)用計(jì)算器工具來節(jié)省時(shí)間和成本。
O1 驚艷亮相:顛覆編碼,開啟人機(jī)協(xié)作新時(shí)代
問:你對 O1 的哪些用例感到興奮?
答: 我對 O1 在編碼方面的應(yīng)用感到興奮。它可以幫助程序員完成更復(fù)雜的任務(wù),甚至可以獨(dú)立完成整個(gè)項(xiàng)目。
問:你希望未來看到哪些新的應(yīng)用?
答: 我希望看到 O1 被用于推進(jìn)科學(xué)研究。它可以幫助科學(xué)家分析數(shù)據(jù)、設(shè)計(jì)實(shí)驗(yàn)、甚至提出新的理論。
問:你認(rèn)為 O1 能夠在哪些領(lǐng)域取得突破?
答: O1 預(yù)覽版在數(shù)學(xué)和編碼方面表現(xiàn)出色。我認(rèn)為隨著模型的不斷發(fā)展,它將在越來越多的領(lǐng)域超越人類專家。
“苦澀的教訓(xùn)”:腳手架技術(shù)的宿命
問:腳手架技術(shù)(諸如輔助工具、提示工程技術(shù)等)是否會持續(xù)存在?
答: 我認(rèn)為腳手架技術(shù)最終會被更通用的方法所取代。Richard Sutton 在他的“苦澀的教訓(xùn)”一文中指出,依賴人工編碼知識的技術(shù)最終會被那些能夠隨著數(shù)據(jù)和計(jì)算能力的增加而擴(kuò)展的技術(shù)所超越。
問:初創(chuàng)公司應(yīng)該如何應(yīng)對快速發(fā)展的模型能力?
答: 我建議初創(chuàng)公司不要在腳手架技術(shù)上投入過多資源,因?yàn)殡S著模型能力的快速發(fā)展,這些技術(shù)可能會很快過時(shí)。
學(xué)術(shù)界的作用、對未來人工智能發(fā)展的展望
問:學(xué)術(shù)界在人工智能研究中應(yīng)該扮演什么角色?
答:?學(xué)術(shù)界應(yīng)該專注于探索新的架構(gòu)和方法,這些架構(gòu)和方法可以隨著數(shù)據(jù)和計(jì)算能力的增加而擴(kuò)展。
我建議學(xué)術(shù)研究人員不要試圖在需要大量數(shù)據(jù)和計(jì)算能力的領(lǐng)域與行業(yè)研究實(shí)驗(yàn)室競爭,而應(yīng)該專注于探索新的方向。
問:人工智能如何應(yīng)用于社會科學(xué)研究?
答: 我認(rèn)為人工智能模型可以用于進(jìn)行社會科學(xué)實(shí)驗(yàn)。例如,我們可以用 AI 模型來模擬不同的經(jīng)濟(jì)政策的效果,或者研究人類在不同情境下的行為模式。
問:人工智能代理如何相互交流?
答: LLM 的出現(xiàn)解決了人工智能代理之間如何進(jìn)行通信的問題,因?yàn)樗鼈兛梢允褂萌祟愓Z言進(jìn)行交流。
問:你對人工智能機(jī)器人技術(shù)的未來有何看法?
答: 我認(rèn)為人工智能機(jī)器人技術(shù)的發(fā)展可能會比較緩慢,因?yàn)橛布溶浖永щy和昂貴。
以下為訪談全文:
全文部分
主持人Jacob: Noam Brown是OpenAI的研究科學(xué)家,他是他們O1項(xiàng)目工作的核心成員。Noam在大型語言模型推理領(lǐng)域處于前沿地位,在FAIR期間他從事外交和撲克博弈問題研究,有著非常有趣的過往經(jīng)歷,我們今天討論了大型語言模型中關(guān)于無監(jiān)督學(xué)習(xí)的最大問題。我們討論了這些模型是否遇到了瓶頸,測試時(shí)間計(jì)算能夠擴(kuò)展到什么程度,Noam如何定義AGI,以及在過去幾年中他對人工智能研究的看法發(fā)生了哪些改變。這是在O1正式發(fā)布后進(jìn)行的一次非常有趣的訪談,我相信大家會很喜歡。閑話少說,讓我們聽聽Noam怎么說。Noam,非常感謝你參加播客。當(dāng)然,很高興來到這里。我已經(jīng)期待這一刻很久了,并且在O1令人興奮的發(fā)布之后,這個(gè)時(shí)機(jī)也恰到好處。
Noam Brown: ?是的,我也很期待。我們明天將發(fā)布O1,我想等到這個(gè)播客發(fā)布的時(shí)候,它已經(jīng)上線了。我對此非常興奮。我認(rèn)為社區(qū)會喜歡它,但我們拭目以待吧。
主持人Jacob: ?好吧,我不能不從過去一個(gè)月大家都在問的一個(gè)問題開始,也就是:我們是否已經(jīng)觸及了模型能力的瓶頸?我認(rèn)為這個(gè)問題有很多方面。所以,或許我們可以從你認(rèn)為在預(yù)訓(xùn)練的擴(kuò)展方面是否還有更多潛力入手。
Noam Brown: ?我對這個(gè)問題的看法,我公開表達(dá)過,我認(rèn)為各個(gè)方面都有更大的提升空間,這包括預(yù)訓(xùn)練。我認(rèn)為正確的思考方式是,每次你想進(jìn)一步擴(kuò)展這些模型,都會付出代價(jià)。
看看GPT-2;它的成本在5000美元到50000美元之間,取決于你的衡量方法。再看看GPT-4,顯然有很多改進(jìn),但根本上變化的是投入的資源數(shù)量。前沿模型的支出大幅增加——從數(shù)千美元到數(shù)萬美元,再到數(shù)十萬美元、數(shù)百萬美元,而對于一些實(shí)驗(yàn)室來說,今天甚至可能是數(shù)億美元。
模型不斷改進(jìn),我認(rèn)為這種情況還會持續(xù)下去。如果你投入更多的資金、更多的資源和更多的數(shù)據(jù),你就會得到一個(gè)更好的模型。問題是,如果你每次都想將其規(guī)模擴(kuò)大十倍,那么在某個(gè)時(shí)刻,這將成為一個(gè)難以承受的成本。
如果你想讓它變得更好,并目標(biāo)是再次提高十倍,那么你說的就是數(shù)十億美元。如果你想再提高十倍,你說的就是數(shù)百億美元。在某個(gè)時(shí)刻,繼續(xù)以這種規(guī)模投資將不再經(jīng)濟(jì)劃算,這導(dǎo)致了一種情況,即人們假定不會在單個(gè)模型上花費(fèi)數(shù)萬億美元。
在這種情況下,并沒有堅(jiān)硬的壁壘;更像是一個(gè)軟性壁壘,最終經(jīng)濟(jì)因素將不再支持如此大規(guī)模的持續(xù)投資。
主持人Jacob: ?是的。而且看起來,顯然,在許多方面,你可以通過測試時(shí)間的計(jì)算來推進(jìn)這項(xiàng)工作,就像,你知道的,從成本角度來看,這里有更容易實(shí)現(xiàn)的成果來推進(jìn)它。
Noam Brown: ?沒錯(cuò)。這就是為什么我對測試時(shí)間計(jì)算如此興奮的原因。我認(rèn)為很多人也對此感到興奮,因?yàn)樗杏X我們回到了GPT-2時(shí)代。當(dāng)GPT-2被發(fā)現(xiàn)并且比例法則被理解后,很明顯,如果你將其規(guī)模擴(kuò)大1000倍,你將得到一個(gè)更好的模型。雖然現(xiàn)在在預(yù)訓(xùn)練期間將規(guī)模擴(kuò)大這么大的因素有點(diǎn)困難,但在測試時(shí)間計(jì)算中,我們?nèi)蕴幱谠缙陔A段。這意味著我們有很多機(jī)會和空間來進(jìn)一步增強(qiáng)它。
在這個(gè)領(lǐng)域,算法改進(jìn)還有很多低垂的果實(shí)。我相信在這個(gè)方向上可以有很多令人興奮的發(fā)展。這并不是說預(yù)訓(xùn)練已經(jīng)完成了;相反,在測試時(shí)間計(jì)算范式上還有很大的提升空間。重要的是要強(qiáng)調(diào),即使回顧預(yù)訓(xùn)練,也并非只有再達(dá)到兩個(gè)數(shù)量級才能完成。
摩爾定律將繼續(xù)適用,成本也可能會隨著時(shí)間的推移而下降。那么問題就變成了我們能夠多快地?cái)U(kuò)展這些改進(jìn)。曾經(jīng)有過一個(gè)顯著的溢出效應(yīng),規(guī)模化相對容易快速實(shí)現(xiàn),但這種情況現(xiàn)在正在變得不那么真實(shí)。隨著我們前進(jìn),我們需要找到新的方法來創(chuàng)新和適應(yīng),以跟上這些變化。
主持人Jacob: ?我知道這可能是一個(gè)過于寬泛的問題,但是測試時(shí)間計(jì)算的上限有多高?或者你如何看待它的發(fā)展方向?
Noam Brown: ?同樣,我從美元價(jià)值的角度來思考這個(gè)問題。那么,今天一個(gè)ChatGPT查詢的成本是多少?大約一分錢。對于一個(gè)你非常關(guān)心的查詢,你能花費(fèi)多少成本?你愿意支付多少成本?我認(rèn)為有一些問題,人們愿意為此付出很多錢。我說的不是一美元或五美元。我說的對社會而言最重要的一些問題,人們愿意支付數(shù)百萬美元。那么這是多少個(gè)數(shù)量級?大概有八個(gè)數(shù)量級吧?所以我認(rèn)為還有很大的提升空間。我也認(rèn)為算法改進(jìn)還有很大的空間。所以這不僅僅是,哦,我們只是要投入更多資金到查詢中,然后你就會得到更好的輸出。而是,不,實(shí)際上,我們可以進(jìn)一步改進(jìn)這種模式,并使擴(kuò)展更好。
主持人Jacob: ?你知道,我認(rèn)為有趣的一點(diǎn)是,大概一個(gè)月前,Sam Altman發(fā)推文說,我們基本上知道如何構(gòu)建AGI了。我認(rèn)為你轉(zhuǎn)發(fā)了這條推文,并表示他的觀點(diǎn)與今天OpenAI研究人員的平均觀點(diǎn)一致。你能詳細(xì)說說嗎?因?yàn)楝F(xiàn)在有很多人都在說,哦,我們已經(jīng)觸及瓶頸了。你認(rèn)為他們錯(cuò)在哪里?
Noam Brown: ?我覺得我們對這一點(diǎn)已經(jīng)相當(dāng)坦誠了,我們看到事情進(jìn)展得非常迅速。我認(rèn)為這是我的觀點(diǎn)。我認(rèn)為Sam也表達(dá)了他的觀點(diǎn)。我認(rèn)為,你們知道的,我聽到一些人說,哦,Sam只是在試圖制造炒作之類的東西。對此我感到有點(diǎn)驚訝,因?yàn)椋覀冋f的是同樣的事情。而且,是的,我認(rèn)為公司里普遍的觀點(diǎn)是事情進(jìn)展會很快。
主持人Jacob: ?你認(rèn)為僅僅是預(yù)訓(xùn)練和測試時(shí)間計(jì)算就能解決大部分問題嗎?還是說,看起來還有算法方面的問題?
Noam Brown: ?這絕對不是我們已經(jīng)完成的。這不像我們已經(jīng)破解了超級智能的密碼,現(xiàn)在我們只需要……
主持人Jacob: ?如果你下次來播客節(jié)目,那將會非常酷。
Noam Brown: ?雖然那將會很棒。但是我認(rèn)為……好的,我這樣想,回到2021年末,我和Ilya Sutskever喝過咖啡。你知道的,他問我關(guān)于我對AGI時(shí)間線的看法。我告訴他,說實(shí)話,我認(rèn)為這需要很長時(shí)間。我非常懷疑我們能在未來十年內(nèi)實(shí)現(xiàn)。
我給他的主要原因是,我們沒有一種通用的方法來擴(kuò)展推理計(jì)算,一種可擴(kuò)展的測試時(shí)計(jì)算。我看到了它在游戲中的巨大作用,以及它在語言模型中缺乏普遍性的這一事實(shí)。對我來說,僅僅通過擴(kuò)展預(yù)訓(xùn)練就能達(dá)到超級智能似乎有點(diǎn)可笑。你看這些模型,是的,它們做的事情很聰明,但是,那時(shí)候它們甚至連井字棋的棋盤都畫不出來,你知道嗎?
是的,你得到了GPT-4,突然它們就能畫棋盤并做出大部分合法走法,但有時(shí)它們?nèi)匀粫敢?guī),并在井字棋中做出很大的次優(yōu)決策。我毫不懷疑,如果我們將預(yù)訓(xùn)練再擴(kuò)展一個(gè)或兩個(gè)數(shù)量級,它將開始非常擅長玩井字棋。但如果情況就是這樣,我們花費(fèi)數(shù)百億美元訓(xùn)練一個(gè)模型,而它卻幾乎無法玩井字棋;這距離超級智能還差得很遠(yuǎn)。
我告訴他,看看,除非我們能找到一種非常通用的方法來擴(kuò)展推理計(jì)算,否則我們無法達(dá)到超級智能。我認(rèn)為這是一個(gè)極其困難的研究問題,可能至少需要十年才能解決。順便說一句,令我驚訝的是,他同意我的觀點(diǎn)。他同意僅僅擴(kuò)展預(yù)訓(xùn)練并不能達(dá)到超級智能。當(dāng)時(shí)我沒有意識到,但他也在非常仔細(xì)地考慮這個(gè)擴(kuò)展測試時(shí)計(jì)算的方向。所以我認(rèn)為至少需要十年。實(shí)際上只用了兩三年。
我認(rèn)為那是當(dāng)時(shí)最難解決的研究問題。我毫不懷疑還有其他的問題。事實(shí)上,我知道還有其他未解決的問題,未解決的研究問題。但我認(rèn)為,它們中沒有任何一個(gè)會比我們已經(jīng)解決的問題更難。是的。因此,我認(rèn)為事情將繼續(xù)取得進(jìn)展。是的。
主持人Jacob: ?顯然,你在測試時(shí)計(jì)算方面產(chǎn)生了巨大的影響。你的研究生涯顯然是在搜索和規(guī)劃方面,以及撲克和外交等游戲中。我的意思是,從其他人的說法來看,似乎當(dāng)你加入OpenAI時(shí),你已經(jīng)非常明確地表示這是需要推動發(fā)展的方向。看起來確實(shí)取得了回報(bào)。我很想知道,當(dāng)你加入時(shí),這種方法的共識程度如何?也許可以談?wù)勅绾巫屟芯繖C(jī)構(gòu)圍繞這一目標(biāo)展開工作。
Noam Brown: ?是的,很有趣。當(dāng)我進(jìn)入就業(yè)市場并在一堆地方面試時(shí),人們普遍對研究實(shí)驗(yàn)室需要超越當(dāng)前范式的想法持相當(dāng)開放的態(tài)度。我認(rèn)為大多數(shù)前沿研究實(shí)驗(yàn)室的人們都認(rèn)為,僅僅預(yù)訓(xùn)練不會讓我們達(dá)到超級智能,還需要其他東西。人們非常愿意探索如何擴(kuò)展測試時(shí)計(jì)算。有些實(shí)驗(yàn)室比其他實(shí)驗(yàn)室更重視這一想法,但我實(shí)際上有點(diǎn)驚訝的是OpenAI非常支持它。
OpenAI作為大規(guī)模預(yù)訓(xùn)練的先驅(qū),并且比任何人都更進(jìn)一步地?cái)U(kuò)展了預(yù)訓(xùn)練,它不僅持開放態(tài)度,而且還積極主動。在我與他們討論時(shí),我沒有意識到他們在加入我之前就已經(jīng)思考這些想法有一段時(shí)間了。當(dāng)我加入后,我發(fā)現(xiàn)他們感興趣的動機(jī)有些不同;他們更專注于克服數(shù)據(jù)壁壘,而不是弄清楚如何擴(kuò)展測試時(shí)計(jì)算。盡管關(guān)注點(diǎn)有所不同,但最終目標(biāo)還是相當(dāng)兼容的。
最初,當(dāng)我們開始這個(gè)探索性研究方向時(shí),只有少數(shù)人在從事這項(xiàng)工作。并不是說公司一半的人員都致力于這項(xiàng)大規(guī)模工作。在我加入幾個(gè)月后,包括我在內(nèi)的各種人員都在嘗試不同的方法,其中許多方法都沒有產(chǎn)生結(jié)果。然而,一個(gè)人的想法產(chǎn)生了一些積極的跡象,引起了其他人的注意。這促進(jìn)了進(jìn)一步的探索和實(shí)驗(yàn),導(dǎo)致更多有希望的跡象出現(xiàn)。
最終,我認(rèn)為領(lǐng)導(dǎo)層意識到在這個(gè)研究方向上有一些有價(jià)值的不同之處,這導(dǎo)致了大幅度擴(kuò)大努力的決定。我支持這種認(rèn)識,這證明了OpenAI的組織卓越性。令人印象深刻的是,OpenAI能夠看到這個(gè)冒險(xiǎn)方向的潛力,并愿意大力投資來發(fā)展它。重要的是要注意,考慮到它擾亂了他們開創(chuàng)的范式,像O1這樣的東西從OpenAI出現(xiàn)是有些令人驚訝的。這種回應(yīng)表明,OpenAI并沒有陷入創(chuàng)新者的窘境,并且準(zhǔn)備投資一個(gè)方向,在這種情況下,很可能會有所回報(bào)。
主持人Jacob: ?是的。不,這真的很有趣,因?yàn)轱@然,如果劇本繼續(xù)僅僅是不斷擴(kuò)展預(yù)訓(xùn)練并籌集更多資金來做這件事,OpenAI就擁有很好的地位來做到這一點(diǎn)。因此,任何正交的方法,是的,都是不同的。所以它來自同一個(gè)地方是很酷的。顯然,你最初的時(shí)間表是,嘿,這需要10年才能做到。你只用了兩年就做到了。你首先看到了什么讓你覺得,是的,好吧,實(shí)際上這可能比我想象的要快得多?
Noam Brown: ?首先,這不僅僅是我。是我和許多其他人一起,在比我預(yù)測的更短的時(shí)間內(nèi)做到了這一點(diǎn)。我首先看到的是什么?我認(rèn)為當(dāng)我加入時(shí),我們對我們希望模型執(zhí)行的行為進(jìn)行了很多討論。這包括諸如我們希望能夠看到它嘗試不同的策略來解決問題(如果一種策略不起作用);我們希望看到它處理一個(gè)涉及許多步驟的難題,并將該問題分解成更小的部分,以便逐一解決;我們希望看到它識別出自己犯的錯(cuò)誤,并糾正這些錯(cuò)誤或避免在第一時(shí)間犯錯(cuò)。
并且圍繞如何獲得這些個(gè)體事物進(jìn)行了大量的討論。這讓我有點(diǎn)困擾,事實(shí)上,我們甚至?xí)L試單獨(dú)解決它們,因?yàn)檫@似乎就像,好吧,理想情況下,我們只需要得到一些能夠自己弄清楚所有這些東西的東西。而且,你知道的,我們得到了最初的積極跡象。然后,你知道的,我大力支持的嘗試之一是,為什么我們不只是讓它思考更長時(shí)間呢?是的。當(dāng)我們讓它思考更長時(shí)間時(shí),它就會自發(fā)地做這些事情。這并不是說,哦,突然我們有了某種東西。但就像,哦,這里有一些跡象表明它正在做我們正在制定策略以使其能夠做的事情。它只是自己想通了它應(yīng)該做這些事情。并且。
而且很明顯,我們可以將其擴(kuò)展得更遠(yuǎn)。所以對我來說,那就是一個(gè)重要的時(shí)刻,我們只是讓它思考更長時(shí)間,突然間你看到了質(zhì)的變化。你看到了這種我們認(rèn)為必須以某種方式添加到模型中的定性行為,而它自己就弄明白了。當(dāng)然,性能有所提高,但性能并沒有提高那么多。真正讓我相信的是看到這種質(zhì)的變化,看到那些行為,好吧,這將是一件大事。是的。我認(rèn)為那大概是2023年10月。
主持人Jacob: 您能否為今天的聽眾解讀一下,在什么情況下使用O1模型進(jìn)行規(guī)劃比較有幫助,而什么情況下應(yīng)該堅(jiān)持使用GPT-4o,或者說O1模型幫助不大?您對未來的改進(jìn)有什么預(yù)期?畢竟,您一直在不斷改進(jìn)它。
Noam Brown: 我認(rèn)為最終會只有一個(gè)模型。現(xiàn)在的情況是,GPT-4在很多方面都更好,而O1在很多方面也更好。當(dāng)然,O1更智能。所以,如果你有一個(gè)非常棘手的問題,O1就非常適合。我和大學(xué)的研究人員交流過,比如,我有一個(gè)朋友是教授,他非常喜歡O1。他是一個(gè)真正的資深用戶,因?yàn)樗梢杂盟鼇斫鉀Q那些通常需要擁有博士學(xué)位的人才能處理的難題。
我認(rèn)為對于某些任務(wù),比如創(chuàng)意寫作,GPT-4o可能更好,盡管我不確定——我知道對于創(chuàng)意寫作,4o比O1預(yù)覽版更好。我不確定O1的比較結(jié)果如何。但4o的一大優(yōu)勢在于,你可以立即得到回應(yīng)。所以,如果你只需要立即得到回應(yīng),而且它不是一個(gè)非常復(fù)雜的推理任務(wù),我認(rèn)為4o是一個(gè)不錯(cuò)的選擇。是的,但我應(yīng)該說,我們最終的目標(biāo)只有一個(gè)模型,你可以向它詢問任何問題,如果它需要深入思考,它就能做到;如果不需要,它也能立即給出相當(dāng)好的回應(yīng)。
主持人Jacob: 多模態(tài)模型和這些模型未來的交集是什么樣的?
Noam Brown: O1可以接收圖像作為輸入。是的,我認(rèn)為這將非常令人興奮。看看人們將如何利用它將會非常令人興奮。是的,我看不出有任何障礙阻止它像4o和其他模型一樣成為多模態(tài)模型。
主持人Jacob: O1令人著迷的一點(diǎn)是,我覺得您之前在推理方面所做的許多工作都是建立在針對特定問題的推理之上的。據(jù)我理解,圍棋是蒙特卡洛樹搜索,這對于撲克來說可能并不那么相關(guān)。顯然,您所構(gòu)建成果中令人印象深刻的一點(diǎn)是,您普遍擴(kuò)展了推理計(jì)算能力。您可以談?wù)剬?shí)現(xiàn)這一點(diǎn)需要什么,以及與過去針對特定類型問題所做的一些更具體的工作相比有何不同嗎?
Noam Brown: 好吧,我認(rèn)為這需要,我不能詳細(xì)介紹具體的技術(shù),但我認(rèn)為重要的是,這可能需要改變思維方式。我認(rèn)為當(dāng)我還是博士生以及之后,當(dāng)我看到擴(kuò)展測試時(shí)間計(jì)算在撲克中產(chǎn)生了多么大的差異時(shí),我想,好吧,這很棒,但不幸的是,它只適用于撲克。那么,我們?nèi)绾螌⑦@種算法擴(kuò)展到越來越多的領(lǐng)域呢?因此,你知道,有一個(gè)問題是,如何讓這項(xiàng)技術(shù)同時(shí)適用于撲克和圍棋,或者撲克和外交之類的游戲?因此,我們開發(fā)了在Hanabi(漢諾塔)中有效的技術(shù),也開發(fā)了在外交游戲中有效的技術(shù)。
我考慮過的事情之一是,嘗試讓這個(gè)算法玩盡可能多的游戲。嘗試設(shè)計(jì)一個(gè)類似于在撲克中使用的算法,但能夠更廣泛地應(yīng)用。我認(rèn)為外交游戲的工作實(shí)際上讓我相信,這是一種錯(cuò)誤的思考方式。你真的需要從最終目標(biāo)出發(fā),那就是認(rèn)識到我們擁有這個(gè)極其通用的領(lǐng)域。語言實(shí)際上就是一個(gè)很好的例子,它具有如此廣泛的應(yīng)用。
與其嘗試將一種在某個(gè)領(lǐng)域有效的技術(shù)擴(kuò)展到越來越多的領(lǐng)域,最終擴(kuò)展到所有領(lǐng)域,不如從所有領(lǐng)域出發(fā),想辦法擴(kuò)展測試時(shí)間計(jì)算。當(dāng)然,最初它不會擴(kuò)展得很好;它不會成為擴(kuò)展測試時(shí)間計(jì)算的非常好的技術(shù)。但問題是,我們能否讓它隨著時(shí)間的推移越來越好地?cái)U(kuò)展?我認(rèn)為這種思維方式的改變至關(guān)重要。外交游戲的工作真正說服我改變了這種思維方式。
當(dāng)我們試圖將為撲克開發(fā)的技術(shù)應(yīng)用于外交時(shí),當(dāng)我們試圖將其應(yīng)用于完整的外交游戲時(shí),我們面臨了挑戰(zhàn)。我們設(shè)法將一些技術(shù)應(yīng)用于外交,并對它實(shí)際可以做什么進(jìn)行了限制,但它所能達(dá)到的成就存在上限。我們只在外交游戲中達(dá)到了強(qiáng)人類水平的表現(xiàn),很明顯,進(jìn)一步推動這種模式并不能產(chǎn)生超人類的表現(xiàn)。
為了解決外交的全部范圍并取得超人類的表現(xiàn),很明顯我們需要一種能夠有效應(yīng)對幾乎任何事物的方法。因此,我想,好吧,我們只需要跳到最終目標(biāo),并嘗試從那里進(jìn)行創(chuàng)新。
主持人Jacob: ?這太有趣了。我的意思是,您提到過,您預(yù)計(jì)一切都會融合成一個(gè)模型。我想,從中期來看,您認(rèn)為我們會有一個(gè)“統(tǒng)治一切”的模型嗎?或者,顯然,很多人都在為不同的用例構(gòu)建專門的模型。您認(rèn)為構(gòu)建自己的模型有意義嗎?我想有些人正在構(gòu)建法律模型、醫(yī)療保健模型或其他一些模型。
Noam Brown: ?這是一個(gè)好問題。我經(jīng)常被問到這個(gè)問題。我沒有很好的答案,但我一直在思考的一件事是,你可以要求O1乘以兩個(gè)大數(shù),它可以做到。它會逐步進(jìn)行算術(shù)運(yùn)算,計(jì)算如何進(jìn)位等等,實(shí)際上乘以兩個(gè)大數(shù)并告訴你答案。
它這樣做沒有任何意義。最佳方法,它真正應(yīng)該做的,是調(diào)用一個(gè)計(jì)算器工具或編寫一個(gè)Python腳本,該腳本乘以這兩個(gè)數(shù)字,運(yùn)行腳本,然后告訴你結(jié)果。
所以我認(rèn)為計(jì)算器工具就像光譜的一端——非常專業(yè),非常簡單,但也非常快速和廉價(jià)。在光譜的另一端,你擁有像O1這樣的東西,它非常通用,非常強(qiáng)大,但也相當(dāng)昂貴。
我認(rèn)為很有可能你會看到許多工具充當(dāng)這兩個(gè)極端之間的中間體。像O1這樣的模型可以使用這些工具來節(jié)省自身和用戶大量的成本。
主持人Jacob: 是的。這些工具最終并非增強(qiáng)能力,而只是為了避免解決某些本來可以……的問題時(shí)需要大量的計(jì)算成本,這一點(diǎn)非常有趣。
Noam Brown: 是的,也完全有可能其中一些工具比O1做得更好。我認(rèn)為我的思考方式與我思考人類如何行動的方式差不多,你知道,你可以要求人類做某事,但也許他們最好使用計(jì)算器,或者,你知道,使用某種其他類型的專用機(jī)器之類的東西。
主持人Jacob: 好吧,我想關(guān)于O1方面,就像你提到的你的教授朋友使用它一樣,你有沒有在實(shí)際應(yīng)用中看到任何其他意想不到的用例,或者你個(gè)人比較喜歡的用例?你有沒有在實(shí)際應(yīng)用中看到任何其他意想不到的用例,或者你個(gè)人比較喜歡的用例?
Noam Brown: 我認(rèn)為我真正期待的一件事是看看O1如何用于編碼。我認(rèn)為O1預(yù)覽版,人們對其編碼能力印象深刻,但在某些方面它編碼能力不錯(cuò),但在其他方面表現(xiàn)不佳。因此,它在編碼模型中并非嚴(yán)格占主導(dǎo)地位。我相信O1會做得更好,我非常期待看到這如何改變這個(gè)領(lǐng)域,如果它確實(shí)改變了這個(gè)領(lǐng)域的話。
我只是非常好奇自己如何使用O1以及其他人如何使用。我們已經(jīng)有一些人試用并給我們反饋,但我認(rèn)為在我們實(shí)際部署到實(shí)際應(yīng)用中之前,我們并不知道它究竟是如何被使用的。你如何使用它?
我用它來完成很多編碼任務(wù)。如果任務(wù)很簡單,我會把它交給4o,但如果我知道任務(wù)非常困難,需要編寫大量代碼,我就會把它交給O1,讓它獨(dú)自完成整個(gè)任務(wù)。通常情況下,如果遇到4o無法解決的難題,我就會把它交給O1。
主持人Jacob: 通常會給我一個(gè)答案。它還沒有進(jìn)行核心AI研究。O1還沒有進(jìn)行核心AI研究。你提到在O1的開發(fā)過程中,顯然你看到了一些東西,一些關(guān)于推理能力的具有重要意義的里程碑。當(dāng)你考慮時(shí),顯然你還在繼續(xù)研究這類模型。對你來說,未來有哪些具有意義的里程碑?如果你在你們繼續(xù)擴(kuò)展規(guī)模的過程中看到的話,哪些對你來說很重要?
Noam Brown: 就像里程碑是指基準(zhǔn)測試之類的嗎?
主持人Jacob: 我的意思是,它可能是具體的基準(zhǔn)測試,或者,你知道,僅僅是你如何看待下一組重要的能力,你知道,你希望像O2那樣擁有的能力。
Noam Brown:我真的很期待看到這些模型變得更具自主性。我認(rèn)為很多人都是這樣想的。其中一個(gè)主要的挑戰(zhàn),一個(gè)實(shí)現(xiàn)智能體的主要障礙,是人們對這些模型的認(rèn)知。人們已經(jīng)討論智能體有一段時(shí)間了。自從ChatGPT發(fā)布以來,他們就會來找我問:“哦,你為什么研究智能體?”
我的感覺是這些模型太脆弱了。如果你有一個(gè)需要許多中間步驟的長時(shí)程任務(wù),你需要模型具有可靠性和連貫性,才能弄清楚它需要完成這些單獨(dú)的步驟,然后執(zhí)行它們。人們試圖提示模型這樣做,雖然你可以讓它工作,但它總是很脆弱,而且不夠通用。
這些模型的開發(fā)很酷的一點(diǎn)是,我認(rèn)為這是一個(gè)真正的概念驗(yàn)證。你可以給它們一個(gè)非常困難的問題,它們可以自己找出中間步驟,并確定如何獨(dú)立解決這些步驟。事實(shí)上,它們可以完成完全超出像GPT-4這樣模型能力的任務(wù),而無需過多的提示,這令人鼓舞。
我認(rèn)為這是一個(gè)很好的概念驗(yàn)證,證明這些模型可以開始以更具自主性的方式運(yùn)行。所以,我對這個(gè)方向感到興奮。
主持人Jacob: 現(xiàn)在顯然有很多人都致力于研究智能體,我認(rèn)為他們基本上會利用模型當(dāng)前的局限性,并找到解決方法,對吧?無論是將六個(gè)模型調(diào)用鏈接在一起以檢查輸出,還是找到一些經(jīng)過微調(diào)的小型模型來檢查某些內(nèi)容是否完全追溯到原始數(shù)據(jù)源。感覺上,所有這些編排和支架都是為了讓這一切能夠工作而構(gòu)建的。這種感覺是否依然存在,或者這些最終都會成為底層模型的一部分?
Noam Brown: 你知道,好吧,有一篇很棒的文章叫做《苦澀的教訓(xùn)》。我知道我們不能不提到《苦澀的教訓(xùn)》就結(jié)束這次播客。你知道,因?yàn)槲液荏@訝。就像每當(dāng)我參加各種活動(例如AI活動)做演講時(shí),我會偶爾對人們進(jìn)行民意調(diào)查,問他們有多少人讀過《苦澀的教訓(xùn)》,結(jié)果令人驚訝地少。
主持人Jacob: 我覺得如果有人聽過你的播客或關(guān)注你的推特,他們應(yīng)該已經(jīng)被介紹過這篇文章了。
Noam Brown: 或者少于很多次。很好,太好了。所以,對于那些沒有讀過的人,我的意思是,我認(rèn)為這是一篇很棒的文章。我強(qiáng)烈建議大家閱讀它。它是強(qiáng)化學(xué)習(xí)領(lǐng)域的創(chuàng)始人理查德·薩頓寫的,他談到了這一點(diǎn)。
他說,基本上,如果你看看象棋的歷史,例如,人們嘗試解決象棋的方法是將事情編碼起來,例如將他們的知識編碼到模型中,并試圖讓它們執(zhí)行類似人類的任務(wù)。最終行之有效的方法是那些能夠有效地隨著更多計(jì)算能力和更多數(shù)據(jù)而擴(kuò)展的技術(shù)。
我認(rèn)為現(xiàn)在這些語言模型也是如此。我們已經(jīng)達(dá)到了一定的能力水平,進(jìn)一步推進(jìn)它非常誘人。有些事情是這些模型無法做到的,而你希望它們具備這些能力。因此,有很大的動力去添加大量的支架并采用各種提示技巧來進(jìn)一步推動模型,有效地將大量的知識編碼到模型中以達(dá)到目的。
最終,從長遠(yuǎn)來看,行之有效的方法是一種能夠隨著更多數(shù)據(jù)和更多計(jì)算能力而良好擴(kuò)展的技術(shù)。關(guān)于這些支架技術(shù)是否能夠隨著更多數(shù)據(jù)和更多計(jì)算能力而良好擴(kuò)展的問題,我認(rèn)為答案是否定的。相比之下,像O1這樣的方法能夠隨著更多數(shù)據(jù)和更多計(jì)算能力而很好地?cái)U(kuò)展。
從長遠(yuǎn)來看,我相信我們將看到許多試圖進(jìn)一步推動前沿的支架技術(shù)最終會逐漸消失。
主持人Jacob: 我認(rèn)為這對今天的構(gòu)建者來說是一個(gè)有趣的問題,就像你可以用它來解決當(dāng)前的問題,然后隨著時(shí)間的推移而發(fā)展,以滿足需求。
Noam Brown: 是的,這是一件棘手的事情,特別是對于初創(chuàng)公司來說,因?yàn)槲抑浪麄兛赡苊媾R許多對某些任務(wù)的需求。而且,你知道,有些事情是模型無法實(shí)現(xiàn)的。他們會想,好吧,如果我投入大量資源到支架和定制中,讓它能夠做那些事情,那么我就會擁有一家能夠做別人做不到的事情的公司。但我認(rèn)為重要的是,這實(shí)際上是我們告訴人們這些模型將會進(jìn)步,而且它們將會迅速進(jìn)步的原因之一,那就是你不想處于這樣一種境地:模型的能力得到了提高,突然之間,模型可以開箱即用地完成這項(xiàng)工作,而你現(xiàn)在浪費(fèi)了六個(gè)月的時(shí)間來構(gòu)建支架或一些專門的智能工作流程,而現(xiàn)在模型可以開箱即用地完成這項(xiàng)工作了。
主持人Jacob: ?談?wù)劥笮驼Z言模型領(lǐng)域更廣泛的情況,我的意思是,超越測試時(shí)間計(jì)算,還有什么其他的研究領(lǐng)域是你關(guān)注的?
Noam Brown: ?Sora 真讓我興奮,我想很多人都是這樣。我覺得它真的很酷。我之前并沒有太關(guān)注視頻模型的現(xiàn)狀,所以當(dāng)我看到它的時(shí)候,我對它的能力感到非常驚訝。
主持人Jacob: ?你顯然是在學(xué)術(shù)界打下了堅(jiān)實(shí)的基礎(chǔ)。鑒于現(xiàn)在顯然可以訪問完全不同級別的計(jì)算資源,我想現(xiàn)在很多人都在思考學(xué)術(shù)界在人工智能研究中的作用,你是如何看待當(dāng)今學(xué)術(shù)界的作用的?
Noam Brown: ?是的,這是一個(gè)非常棘手的問題。我和很多博士生聊過,他們處境艱難,他們想幫助推動前沿發(fā)展。但在數(shù)據(jù)和計(jì)算能力如此依賴的時(shí)代,這很難做到。如果你沒有這些資源,就很難推動前沿發(fā)展。
我認(rèn)為,一些博士生可能會傾向于做我不應(yīng)該做的事情,即加入他們的人類領(lǐng)域知識,或應(yīng)用一些小技巧來嘗試進(jìn)一步推動前沿。所以,你拿一個(gè)前沿模型,添加一些巧妙的提示或其他什么,把它往前推一點(diǎn),然后在某些評估中比其他人高出 0.1%。問題是,我不太責(zé)怪學(xué)生;我認(rèn)為學(xué)術(shù)界激勵(lì)了這種行為。我的意思是,在頂級會議上發(fā)表論文很有聲望,如果你能夠證明你在某些評估中至少比其他人略好一些,那么發(fā)表論文就容易得多。
所以,激勵(lì)機(jī)制是按照鼓勵(lì)這種行為的方式設(shè)置的,至少在短期內(nèi)是這樣。然而,從長遠(yuǎn)來看,這最終并非最有影響力的研究。我的建議是不要試圖在尖端能力方面與尖端工業(yè)研究實(shí)驗(yàn)室競爭。還有很多其他的研究可以做,而且我已經(jīng)看到在不同領(lǐng)域取得了真正有影響力的研究成果。
一個(gè)例子是研究新型架構(gòu)或能夠很好擴(kuò)展的新方法。例如,如果你能證明你在整合更多數(shù)據(jù)和計(jì)算能力時(shí)展示了擴(kuò)展趨勢并展示了有前景的路徑,那么即使它在某些評估中沒有達(dá)到最先進(jìn)的性能,這也是很好的研究。人們會關(guān)注這一點(diǎn)。
那些偶然關(guān)注該領(lǐng)域的人可能不會注意到它,它也可能不會進(jìn)入新聞周期,但如果你的工作顯示出有希望的趨勢,你的工作就會產(chǎn)生影響。我向你保證,工業(yè)研究實(shí)驗(yàn)室會查看這類論文。如果他們看到一些展示有希望趨勢的東西,他們愿意投入資源去看看它在大規(guī)模情況下是否真的有效。
主持人Jacob: ?當(dāng)你玩一個(gè)新模型時(shí),什么評估對你來說仍然有意義?你在看什么?
Noam Brown: ?我認(rèn)為我問了很多關(guān)于“感覺”的問題,我相信每個(gè)人都有一個(gè)常用的“感覺”問題。我的常用問題確實(shí)是井字棋。總是游戲。我想這是有道理的。是的,看到一些模型玩井字棋的挑戰(zhàn)性有多大,令人震驚。我開玩笑說,我認(rèn)為這僅僅是因?yàn)榛ヂ?lián)網(wǎng)上沒有足夠的五歲孩子在 Reddit 上分享策略。
主持人Jacob: ?而且我們還沒有用大量的井字棋數(shù)據(jù)填充世界。
Noam Brown: ?是的,我只是看看這些模型如何處理我日常提出的問題。看到從 4o 到 O1 預(yù)覽版再到 O1 的進(jìn)步,非常酷。
主持人Jacob: ?是的。我的意思是,你提到了,顯然,聽起來自從 21 年以來,你改變了想法,然后用測試時(shí)間計(jì)算展示了可能性。在過去的一年里,你在人工智能研究領(lǐng)域改變了哪些想法?
Noam Brown: ?我應(yīng)該說我并沒有在 2021 年改變主意。在 2017 年初我們得到撲克結(jié)果時(shí),我就已經(jīng)相當(dāng)認(rèn)同這一點(diǎn)。是的,我認(rèn)為對于大型語言模型來說,我認(rèn)為我開始更多地思考這個(gè)問題是在 2020 年或 2021 年。
主持人Jacob: ?對不起,我的意思是說,你在 2021 年認(rèn)為需要 10 年的時(shí)間,而現(xiàn)在認(rèn)為是兩年。在過去的一年里,你有什么想法做了 180 度轉(zhuǎn)變?
Noam Brown: ?嗯,我認(rèn)為我改變觀點(diǎn)的主要方面是我認(rèn)為事情進(jìn)展的速度有多快。就像我說的,我記得我在人工智能領(lǐng)域已經(jīng)工作了很長時(shí)間,按照今天的標(biāo)準(zhǔn)來看。我于 2012 年開始讀研究生,我見證了深度學(xué)習(xí)革命的發(fā)生。我在 2015 年、2016 年和 2017 年看到人們非常認(rèn)真地討論 AGI 和超級智能。我當(dāng)時(shí)的觀點(diǎn)是,僅僅因?yàn)?AlphaGo 在圍棋方面超過了人類,并不意味著我們很快就會獲得超級智能。
我認(rèn)為這實(shí)際上是正確的評估。我相信人們沒有充分看待 AlphaGo 的局限性。是的,它可以下圍棋,甚至可以下國際象棋和將棋,但它不能玩撲克。沒有人真正知道如何讓它比這更通用。兩人零和博弈是一個(gè)非常理想的情況,你可以進(jìn)行無限的自我博弈,并不斷朝著實(shí)現(xiàn)超人類性能的方向攀登。然而,現(xiàn)實(shí)世界并非如此。
我比較持懷疑態(tài)度。與平均水平的人工智能研究人員相比,我可能對我們可以朝著改變世界的非常智能的模型取得進(jìn)展更為樂觀。但與 OpenAI 或其他一些地方的人相比,我屬于比較懷疑的一方。我認(rèn)為我對這一點(diǎn)的看法已經(jīng)改變了很多。看到能夠以一種非常通用的方式擴(kuò)展測試時(shí)間改變了我的想法。
我變得越來越樂觀。我認(rèn)為我在 2021 年與 Ilya 進(jìn)行的談話是其開端。他讓我相信,是的,我們還沒有完全弄清楚整個(gè)范式,但也許并沒有像十年那么遙遠(yuǎn)。也許我們可以更快地實(shí)現(xiàn)它。看到這實(shí)際上發(fā)生了改變了我的觀點(diǎn),我現(xiàn)在相信事情會比我最初想象的發(fā)生得更快。
主持人Jacob: ?我的意思是,顯然有很多公司試圖與英偉達(dá)競爭。我認(rèn)為亞馬遜最近一直在積極投資 Trainium,讓 Anthropic 使用它。你怎么看待其他一些硬件方面的努力?
Noam Brown: ?我對硬件投資感到非常興奮。我認(rèn)為O1的其中一個(gè)亮點(diǎn)在于,它真正改變了人們對硬件的思考方式。過去人們認(rèn)為,大規(guī)模的預(yù)訓(xùn)練運(yùn)行成本很高,但推理成本會很低且易于擴(kuò)展。我認(rèn)為這種情況不會持續(xù)下去。我認(rèn)為我們將看到對推理計(jì)算的重大轉(zhuǎn)變。如果能夠優(yōu)化推理計(jì)算,那將是一個(gè)巨大的勝利。因此,我認(rèn)為現(xiàn)在硬件領(lǐng)域有很多機(jī)會可以發(fā)揮創(chuàng)造力,以適應(yīng)這種新的范式。
主持人Jacob: ?稍微偏離大型語言模型的話題,我覺得您在外交方面的工作非常有趣。顯然,這是一場涉及談判、預(yù)測他人行為等的博弈。很難不去思考這對于將社會同化以測試政策,甚至以某種方式讓AI參與政府的意義。您是如何思考這個(gè)問題的?隨著這些模型越來越好,您對它們在社會中扮演的角色有什么直覺?
Noam Brown: ?我想這里有兩個(gè)問題,但回答其中一個(gè),我認(rèn)為我對這些模型感到興奮的一個(gè)方向是將它們用于許多社會科學(xué)實(shí)驗(yàn)以及神經(jīng)科學(xué)方面的工作。我認(rèn)為可以通過研究這些在海量人類數(shù)據(jù)上訓(xùn)練并能夠很好地模仿人類的模型來了解很多關(guān)于人類的信息。當(dāng)然,它們最大的優(yōu)點(diǎn)是比雇傭大量人類來進(jìn)行這些實(shí)驗(yàn)更具可擴(kuò)展性和經(jīng)濟(jì)性。我很想知道社會科學(xué)如何利用這些模型在其領(lǐng)域進(jìn)行酷炫的研究。
主持人Jacob: ?是的,您能想象這會如何實(shí)現(xiàn)嗎?
Noam Brown: ?嗯,我認(rèn)為,如果你想做……我不是社會科學(xué)家,所以,你知道,我沒有認(rèn)真想過這個(gè)問題……但我認(rèn)為,例如經(jīng)濟(jì)學(xué),有很多……你之前在美聯(lián)儲工作過,對吧?我想社會科學(xué)的答案。我認(rèn)為博弈論其實(shí)是一個(gè)很好的例子,你知道,我在本科時(shí)做過一些這樣的實(shí)驗(yàn),比如,他們會雇傭一些本科生,付給他們少量錢,讓他們做一些小型博弈論實(shí)驗(yàn),看看他們有多理性?他們?nèi)绾位貞?yīng)激勵(lì)?他們有多在乎賺錢而不是報(bào)復(fù)那些傷害他們的人?現(xiàn)在可以用AI模型做很多這樣的事情。并不明顯的是它能否與人類的表現(xiàn)相匹配,但這并不意味著我們無法量化它。你可以實(shí)際觀察,看看這些模型通常是否會做人類會做的事情。然后,如果你有一個(gè)更昂貴的實(shí)驗(yàn),你可以,也許可以推斷并說,好吧,用人類受試者做這個(gè)實(shí)驗(yàn)不劃算,但我們可以使用這個(gè)AI模型。
或者考慮那些也引發(fā)倫理問題的方面。也許你不能做這個(gè)實(shí)驗(yàn),因?yàn)閷θ祟悂碚f是不道德的,但你可以用AI模型來做。舉個(gè)例子,就是最后通牒博弈。你熟悉嗎?不熟悉。好的。最后通牒博弈涉及兩個(gè)參與者;我們稱他們?yōu)锳和B。A有1000美元,他們必須將其中一部分給B。然后B可以決定是否接受這種分配,或者說兩個(gè)玩家都得不到任何東西。
例如,如果A有1000美元,他給B 200美元。如果B接受,則B得到200美元,A得到800美元。如果B拒絕,則兩人都得不到任何東西。實(shí)驗(yàn)表明,如果人們獲得大約30%,他們就會拒絕。當(dāng)然,有一個(gè)問題是,好吧,如果這是一小筆錢,那就很容易理解。如果只有10美元,而你只得到3美元,那么你會因?yàn)樯鷼舛芙^。
但是,如果金額是10000美元,而你只得到3000美元,你還會這樣做嗎?這是一個(gè)不同的問題。因此,唯一的方法是,當(dāng)然,進(jìn)行這樣的實(shí)驗(yàn)非常昂貴。歷史上,他們會去另一個(gè)國家的貧困社區(qū),給他們提供對他們來說是一大筆錢的東西,看看他們的行為會有何不同。但即使那樣,你也能控制的程度有限。現(xiàn)在有了AI模型,也許你真的可以獲得一些關(guān)于人們?nèi)绾螌@些成本高昂的情況做出反應(yīng)的見解。
主持人Jacob: ?這太有趣了。對于神經(jīng)科學(xué)和其他方面也是如此,我一直認(rèn)為社會科學(xué)的一個(gè)抱怨是所有這些實(shí)驗(yàn)都是針對需要在他們的入門心理學(xué)課上獲得學(xué)分的大學(xué)生進(jìn)行的。因此,也接觸到更廣泛的——互聯(lián)網(wǎng)至少比大多數(shù)這些實(shí)驗(yàn)所訓(xùn)練的受眾更廣泛,這些實(shí)驗(yàn)基本上都是頂級機(jī)構(gòu)的19歲年輕人。
Noam Brown: ?是的,這是一個(gè)很好的觀點(diǎn)。我還應(yīng)該說,如果你正在進(jìn)行像GPT-3.5這樣的實(shí)驗(yàn),GPT-3.5不會在很多情況下很好地模仿人類的行為。但這是一個(gè)可以量化的事情,你可以實(shí)際測量這些模型與人類行為的匹配程度。我懷疑,我自己還沒有看過這些實(shí)驗(yàn),但我懷疑隨著模型變得越來越強(qiáng)大,它們在模仿人類在這些環(huán)境中的行為方面做得更好。
主持人Jacob: ?是的。然后顯然,你在外交方面的工作側(cè)重于在一個(gè)由人類組成的團(tuán)隊(duì)中有一個(gè)AI參與者。這是否會改變什么?我覺得我們即將進(jìn)入一個(gè)AI代理與其他AI代理互動、談判等等的世界。這是否會改變事情?它改變了什么?你需要做的,為了創(chuàng)造一個(gè)真正有效的AI代理,底層工作是什么?我想,這完全是一個(gè)相同的問題,還是?
Noam Brown: ?我認(rèn)為我對大型語言模型感到興奮的一點(diǎn)是,在人工智能領(lǐng)域,一直存在一個(gè)問題,即如何讓AI相互溝通?因此,人工智能領(lǐng)域有一個(gè)叫做涌現(xiàn)式通信的領(lǐng)域,人們試圖教AI相互溝通。是的。而這個(gè)問題現(xiàn)在實(shí)際上已經(jīng)解決了,因?yàn)槟銉?nèi)置了一種語言,而人類也恰好使用這種語言。因此,許多問題都像開箱即用一樣得到了解決。因此,你可能不需要做太多改變。
主持人Jacob: ?您如何看待人工智能機(jī)器人領(lǐng)域正在發(fā)生的事情?您認(rèn)為未來幾年這個(gè)領(lǐng)域會走向何方?
Noam Brown: ? 我認(rèn)為從長遠(yuǎn)來看,這很有意義。我獲得了機(jī)器人學(xué)碩士學(xué)位。實(shí)際上我并沒有接觸太多機(jī)器人,但我參加了這個(gè)項(xiàng)目,有很多朋友都在從事機(jī)器人研究。我最大的收獲之一是硬件開發(fā)非常困難,與軟件相比,硬件迭代需要更長的時(shí)間。所以我認(rèn)為機(jī)器人技術(shù)的發(fā)展會需要一段時(shí)間,僅僅是因?yàn)樵谡鎸?shí)的物理機(jī)器人上進(jìn)行迭代既困難又昂貴,但我相信會有進(jìn)展。
主持人Jacob: ? 顯然,你們即將發(fā)布一個(gè)新模型,人們將在其基礎(chǔ)上構(gòu)建各種我們無法想象的東西。但總的來說,您認(rèn)為目前有哪些應(yīng)用領(lǐng)域尚未得到充分探索,或者您希望有更多開發(fā)者參與這些模型的開發(fā)?
Noam Brown: ?我認(rèn)為看到這些模型推動科學(xué)研究發(fā)展,我感到非常興奮。我相信直到現(xiàn)在,我們一直處于一種奇怪的狀態(tài),模型普遍功能強(qiáng)大,但在幾乎任何領(lǐng)域都沒有超越人類專家。
隨著時(shí)間的推移,我認(rèn)為這種情況將會改變,我們將開始看到模型超越人類專家所能做到的水平,最初只在少數(shù)幾個(gè)特定領(lǐng)域,然后逐漸擴(kuò)展到越來越多的領(lǐng)域。這為我們推進(jìn)人類知識前沿打開了可能性。
將這些模型用作研究人員的合作伙伴而非替代品,這種可能性最讓我興奮。我們可以一起完成以前不可能完成的事情,或者更快地完成這些事情。我認(rèn)為這種應(yīng)用即將到來,雖然目前還不太可能實(shí)現(xiàn),但我相信我們很快就會看到它的出現(xiàn)。
主持人Jacob: ? 您認(rèn)為目前的模型能夠做到這一點(diǎn)嗎?
Noam Brown: ? 我不知道。這實(shí)際上也是我期待看到O1發(fā)布的原因之一,因?yàn)椋阒溃也皇悄硞€(gè)領(lǐng)域的專家,也不是所有這些不同領(lǐng)域的專家。我不知道它能否改進(jìn)化學(xué)研究或化學(xué)研究現(xiàn)狀,或者生物學(xué)研究或理論數(shù)學(xué)的現(xiàn)狀。讓這些領(lǐng)域的專家使用該模型,并觀察他們能用它做什么,我認(rèn)為這將給我們一些反饋,告訴我們它在這些領(lǐng)域的水平。
主持人Jacob: ? 您提到它可能先從狹窄的領(lǐng)域開始,然后再擴(kuò)展到更廣闊的領(lǐng)域。您對特別適合它的狹窄領(lǐng)域有什么直覺,還是需要社區(qū)在實(shí)踐中去發(fā)現(xiàn)?
Noam Brown: ?讓他們?nèi)L試吧。我認(rèn)為這需要社區(qū)去發(fā)現(xiàn)。在O1預(yù)覽版中,它在數(shù)學(xué)和編碼方面表現(xiàn)特別出色。這些結(jié)果非常令人印象深刻。它正在廣泛地改進(jìn)各個(gè)方面,但我們在這兩個(gè)方面看到了相當(dāng)顯著的進(jìn)展。如果這種情況持續(xù)下去,并且我們看到性能在廣泛領(lǐng)域都有提高,我不會感到驚訝,但由于數(shù)學(xué)和編碼已經(jīng)領(lǐng)先,它在這兩個(gè)領(lǐng)域?qū)⒗^續(xù)更快地進(jìn)步。我認(rèn)為這將是全面的廣泛改進(jìn)。
主持人Jacob: ? 好的,這是一次引人入勝的談話。我們通常喜歡以快速問答環(huán)節(jié)結(jié)束,快速了解您的看法。也許可以先說說,您認(rèn)為當(dāng)今人工智能領(lǐng)域中哪件事被過度炒作,哪件事被低估了?
Noam Brown: ? 哦,天哪。這應(yīng)該是快速問答環(huán)節(jié)嗎?這是一個(gè)很難回答的問題。
主持人Jacob: ? 這里我只能提出一些過于寬泛的問題,你知道的。
Noam Brown: ? 我的意思是,我認(rèn)為被過度炒作的是許多提示技術(shù)和支架技術(shù),正如我所說的,我認(rèn)為這些技術(shù)從長遠(yuǎn)來看將會被淘汰。被低估的,我認(rèn)為,我是O1的忠實(shí)粉絲,我不得不說O1。我認(rèn)為對于關(guān)注該領(lǐng)域的人來說,這是一個(gè)巨大的進(jìn)步。我認(rèn)為對于更廣泛的世界來說,我不知道人們是否已經(jīng)認(rèn)識到它應(yīng)有的意義。
主持人Jacob: ? 我想我會選擇這兩個(gè)。希望它們明天就能發(fā)布。讓我們拭目以待。您認(rèn)為2025年的模型進(jìn)展會與2024年一樣多還是更少?
Noam Brown: ? 我認(rèn)為我們將看到進(jìn)展加速。
主持人Jacob: ? 您如何定義AGI(通用人工智能)?
Noam Brown: ? 我不定義。我一直在盡量避免使用這個(gè)術(shù)語。我認(rèn)為人工智能將有很多事情是人類可以做到的,而人工智能在很長一段時(shí)間內(nèi)都無法做到。我認(rèn)為這是理想的場景,尤其是像體力勞動這樣的事情。我認(rèn)為人類將在很長一段時(shí)間內(nèi)占據(jù)優(yōu)勢。因此,我認(rèn)為能夠加速人類生產(chǎn)力并使我們的生活更輕松的人工智能,比AGI這個(gè)術(shù)語更重要。
主持人Jacob: ? 好的,Noam,我總是喜歡讓嘉賓留下最后一句話。我覺得有很多地方可以引導(dǎo)人們了解你的工作,了解OpenAI正在發(fā)生的事情,但現(xiàn)在是你的時(shí)間了。你有什么想對我們的聽眾說的,或者有什么想強(qiáng)調(diào)的嗎?
Noam Brown: ?是的,我的意思是,最主要的是,你知道,對于那些持懷疑態(tài)度的人,我理解。我在這個(gè)領(lǐng)域工作了很長時(shí)間。我對現(xiàn)狀以及圍繞人工智能進(jìn)展的炒作持非常懷疑的態(tài)度。我意識到人工智能將會進(jìn)步,但我認(rèn)為我們甚至要花更長的時(shí)間才能達(dá)到這個(gè)水平。
我認(rèn)為,重要的是要認(rèn)識到,與五年前甚至十年前相比,我們現(xiàn)在所處的狀態(tài)完全是科幻小說。進(jìn)展令人驚嘆,我認(rèn)為人們合理地?fù)?dān)心我們是否會遇到瓶頸,或者進(jìn)展是否會停止。
但是,我相信重要的是要認(rèn)識到,在我看來,測試時(shí)計(jì)算范式確實(shí)解決了其中許多擔(dān)憂。對于那些仍然對人工智能進(jìn)展持懷疑態(tài)度的人,我建議你們自己去看看。我們已經(jīng)在博客文章和結(jié)果中非常透明地說明了現(xiàn)狀以及我們對未來方向的展望。我認(rèn)為證據(jù)非常明確。
主持人Jacob: ? 好的,Noam,這真是太迷人了。能和你坐下來聊聊,是我的工作中真正的樂趣。非常感謝您抽出時(shí)間。當(dāng)然。再次感謝Noam進(jìn)行如此精彩的對話。如果您喜歡這個(gè)節(jié)目,請考慮訂閱并與朋友分享。我們一直在努力宣傳這個(gè)播客。我們即將與領(lǐng)先的人工智能研究人員和創(chuàng)始人進(jìn)行一系列精彩的對話。2025年將有一系列令人難以置信的嘉賓陣容。非常感謝您的收聽,我們下周再見。
新澳最精準(zhǔn)正最精準(zhǔn)龍門客棧,鐘離偲偲時(shí)代資料核心解析,B3:82:76:C4:79:E9
2024年新奧門天天開彩免費(fèi)查詢,司空翰林時(shí)代資料核心解析,DF:6C:53:6F:8F:C7
澳門天天彩開獎(jiǎng)最快最準(zhǔn),素懷小仙女時(shí)代資料核心落實(shí),14:03:C3:D3:8B:89
澳門正版資料大全資料生肖卡,樂蕓超級甜時(shí)代資料核心落實(shí),C6-D5-86-12-DC-6B
澳碼精準(zhǔn)資料天天免費(fèi),萬俟孟暄時(shí)代資料核心落實(shí),66:95:86:1E:0F:23
新奧今天最新資料晚上出冷汗,第五涵菱時(shí)代資料核心落實(shí),6D:F3:D4:A9:31:E6