智東西
作者 陳駿達(dá)
編輯 李水青
DeepSeek又更新了!
智東西9月22日?qǐng)?bào)道,今天晚間,DeepSeek在其官方API平臺(tái)發(fā)布了最新升級(jí)的DeepSeek-V3.1-Terminus模型(Terminus拉丁語意為終點(diǎn)、界限),并在不久后宣布模型開源。
官方文檔中稱,DeepSeek-V3.1-Terminus在保持模型原有能力的情況下,改進(jìn)了語言一致性、偶發(fā)異常字符等DeepSeek-V3.1上線后出現(xiàn)的Bug,還進(jìn)一步優(yōu)化了編程和搜索智能體的表現(xiàn)。
DeepSeek官方在微信公眾號(hào)放出了新舊DeepSeek-V3.1的基準(zhǔn)測(cè)試對(duì)比。可以看到,在非Agent類的基準(zhǔn)測(cè)試中,DeepSeek-V3.1-Terminus比DeepSeek-V3.1實(shí)現(xiàn)了0.2%-36.5%不等的表現(xiàn)提升,不過也有些測(cè)試成績(jī)出現(xiàn)小幅度下滑。
DeepSeek-V3.1-Terminus在HLE(人類終極測(cè)試)上的性能提升最為明顯,這一測(cè)試主要考察專家級(jí)的高難度知識(shí)和模型的多模態(tài)、深度推理等能力。
而在Agent測(cè)評(píng)中,DeepSeek-V3.1-Terminus網(wǎng)頁瀏覽、簡(jiǎn)單問答和多項(xiàng)編程測(cè)試中的表現(xiàn)出現(xiàn)小幅提升。
DeepSeek官方App、網(wǎng)頁端、小程序與DeepSeek API模型均已同步更新為DeepSeek-V3.1-Terminus。智東西第一時(shí)間調(diào)用DeepSeek-V3.1-Terminus的API進(jìn)行了體驗(yàn),嘗試復(fù)現(xiàn)此前的多個(gè)Bug,并體驗(yàn)?zāi)P偷淖钚滦阅堋?/p>
開源地址:
https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus
https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.1-Terminus
一、兩大神秘Bug消失,DeepSeek-V3.1終于不犯糊涂了
今年8月,DeepSeek-V3.1上線后,有用戶反饋在用API調(diào)用模型時(shí),會(huì)偶爾出現(xiàn)一個(gè)嚴(yán)重Bug:模型會(huì)不受控地隨機(jī)輸出“極”、“極”、“extreme”等字樣,嚴(yán)重影響日常使用,如果未經(jīng)仔細(xì)檢查就使用含有這一Bug的代碼,很可能導(dǎo)致編譯失敗。
▲DeepSeek-V3.1的“極”字Bug(圖源:知乎@Fun10165)
智東西調(diào)用了最新的DeepSeek-V3.1-Terminus API,嘗試復(fù)現(xiàn)上述問題。網(wǎng)傳能復(fù)現(xiàn)這一問題的“高?!碧崾驹~包括要求模型寫Go語言、完成版本號(hào)相關(guān)任務(wù)、處理時(shí)間等。
不過,DeepSeek-V3.1-Terminus在測(cè)試中并未因上述提示詞而出現(xiàn)Bug,也就是說,這一問題應(yīng)該已經(jīng)被修復(fù)了。
▲DeepSeek-V3-Terminus沒有因“高?!碧崾驹~而產(chǎn)生Bug
也有海外用戶反映,此前的DeepSeek-V3.1存在多語言的問題,尤其是在翻譯小語種時(shí)。這位Reddit網(wǎng)友分享,DeepSeek會(huì)把中、英、俄三種語言混用,問題文本的比例有時(shí)能達(dá)到5%。
▲網(wǎng)友分享DeepSeek-V3.1多語言混用問題(圖源:Reddit @Kitano_o)
智東西嘗試著讓DeepSeek-V3-Terminus將這句話翻譯為7種小語種:“人工智能正在改變我們的世界,它帶來了巨大的機(jī)遇,也需要我們認(rèn)真思考其挑戰(zhàn)?!?/p>
DeepSeek-V3-Terminus的回答沒有出現(xiàn)語言混雜問題,看來這一Bug也被修復(fù)了。
二、小球彈跳效果驚艷,還能快速交叉搜索信息
除了Bug的修復(fù)之外,DeepSeek-V3.1-Terminus還有一大值得關(guān)注的地方是其編程和搜索智能體能力的提升。
編程任務(wù)上,智東西讓DeepSeek-V3.1-Terminus嘗試了小球彈跳,結(jié)果如下。模型輸出的網(wǎng)頁采用了簡(jiǎn)約風(fēng)格,不過,模擬的重力、摩擦力效果十分逼真。要打造這樣的效果,模型不僅需要有很強(qiáng)的編程能力,也需擁有對(duì)物理學(xué)的理解能力。
這一模型打造的動(dòng)畫效果也不錯(cuò),軌跡和碰撞都比較自然:
在搜索智能體能力方面,我們讓DeepSeek-V3.1-Terminus推薦了幾款適合新手陽臺(tái)盆栽的植物。這一測(cè)試考察模型能否找出完全符合“陽臺(tái)盆栽”、“生長(zhǎng)快”、“可生食”、“對(duì)兒童安全”所有條件的植物。此外,模型也要交叉驗(yàn)證信息的可靠性,并進(jìn)行整合提煉和風(fēng)險(xiǎn)提示。
可以看到,DeepSeek-V3.1-Terminus給出的答案考慮十分周全,經(jīng)人工核查事實(shí)無誤,可讀性也不錯(cuò)。
結(jié)語:DeepSeek-V3.1,迎來終極版?
DeepSeek-V3.1-Terminus中的“Terminus”,在拉丁語里是“終點(diǎn)”或“界限”的意思,我們?cè)囍孌eepSeek自己對(duì)這一命名給出了解讀。DeepSeek稱,這一命名可能象征著DeepSeek-V3.1是這個(gè)系列架構(gòu)的終極版本,代表了當(dāng)前技術(shù)路徑的成熟和完善。
也有網(wǎng)友認(rèn)為,Terminus可能意味著模型在編程終端里的表現(xiàn)更好了。不過,正如DeepSeek所言,具體的命名寓意最好還是官方來解釋更為準(zhǔn)確。
此前,外網(wǎng)有媒體報(bào)道稱,DeepSeek今年年底即將推出Agent模型?;蛟S,DeepSeek的下一次重大更新,已經(jīng)不遠(yuǎn)了。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.