專題:DeepSeek為何能震動全球AI圈
當(dāng)?shù)貢r間1月31日,OpenAI宣布推出新一代推理模型o3系列的mini版本。據(jù)OpenAI介紹,o3-mini是其最具成本效益的推理模型,在科學(xué)、數(shù)學(xué)、編程等領(lǐng)域的能力較強,同時兼具o1-mini的低成本和低延遲特點,o3-mini可與聯(lián)網(wǎng)搜索功能搭配使用,不過o3-mini還不支持視覺功能。
“o3-mini的能力可設(shè)置為低等、中等、高等。能力設(shè)置為中等的o3-mini與o1在數(shù)學(xué)、編程和科學(xué)方面的表現(xiàn)相當(dāng),但反應(yīng)速度更快。專家測試人員的評估表明,o3-mini給出的答案比o1-mini更準(zhǔn)確且清晰。測試者觀察到,在有關(guān)現(xiàn)實世界的難題上,o3-mini的主要錯誤減少了39%。”O(jiān)penAI表示。
從能力上看,作為mini版本,o3-mini在一些測試中的表現(xiàn)略超o1。在數(shù)學(xué)測試AIME 2024、博士水平測試GPQA Diamond、競賽編碼測試Codeforces、軟件工程測試sw -bench中,o3-mini得分分別為87.3、79.7、2130、49.3,高于o1的得分83.3、78、1891、48.9。
此外,o3-mini在編碼測試LiveBench中表現(xiàn)優(yōu)于o1,在一般知識測試General knowledge中表現(xiàn)優(yōu)于o1-mini。從速度上看,o3-mini在A/B測試(一種對比測試)中的平均響應(yīng)時間為7.7秒,響應(yīng)速度比o1-mini快24%。
此前國內(nèi)大模型公司DeepSeek發(fā)布DeepSeek-R1,并稱該模型性能對標(biāo)OpenAI o1正式版,該模型不僅開源,API(接口)價格還明顯低于o1。DeepSeek-R1輸入(緩存命中)、輸出定價分別為每百萬tokens1元、6元,低于o1的55元、438元。或是迫于壓力,OpenAI CEO山姆·奧爾特曼(Sam Altman)在當(dāng)?shù)貢r間1月23日宣布,OpenAI將推出新一代o3系列的o3-mini版本,且ChatGPT免費用戶將能使用o3-mini。
此次OpenAI正式推出o3-mini后,OpenAI再次強調(diào),ChatGPT是首次向免費用戶提供推理模型,用戶可以在消息編輯器中選擇“Reason”來嘗試使用OpenAI 3-mini。不過,付費用戶的使用范圍更廣,可以使用o3-mini的高等能力。ChatGPT Plus和Team用戶的流量限制從01 -mini的每日50條增加到03 -mini的每日150條,Pro用戶則可以無限制地使用o3-mini。
OpenAI也在提供越來越低的API調(diào)用價格,據(jù)其介紹,自GPT-4推出以來,每個token的定價下降了95%。o3-mini輸入(緩存命中)、輸出每百萬tokens的定價為0.55美元、4.4美元,仍高于DeepSeek-R1。
雖然DeepSeek并未公開DeepSeek-R1的訓(xùn)練成本,但此前DeepSeek公開了另一個模型DeepSeek-v3的訓(xùn)練預(yù)算為“2048個GPU、2個月、近600萬美元”,外界認(rèn)為DeepSeek-R1在能力對標(biāo)o1的同時,訓(xùn)練成本可能也偏低,這可能意味著DeepSeek團(tuán)隊的技術(shù)水平較高。隨著DeepSeek近期受到關(guān)注,OpenAI客觀上也承受了一定壓力。
OpenAI正在采取措施維持自身的優(yōu)勢,除了推出o3-mini“應(yīng)戰(zhàn)”,近日還有消息稱,OpenAI正在就新一輪融資進(jìn)行談判,擬籌資金額高達(dá) 400 億美元,該輪融資將由軟銀集團(tuán)牽頭,使OpenAI的估值達(dá)到3000億美元,不過該傳言尚未得到OpenAI證實。
(本文來自第一財經(jīng))