昨天晚上,DeepSeek因一起“大模型世子之爭”久違的登上了微博熱搜。
有網(wǎng)友問D老師,你和豆包刪一個你刪誰?
DeepSeek思考了12秒之后說了三個字:刪豆包。
比起豆包茶茶的說,“你刪我吧,需要我的時候再把我下回來”,DeepSeek顯得十分直男。
黑馬也去試了一下:
網(wǎng)友說的是真的。
其實(shí)DeepSeek從爆火到現(xiàn)在,也是經(jīng)歷了不少風(fēng)風(fēng)雨雨。
今年年初,DeepSeek橫空出世的時候,黑馬身邊幾乎所有人都在用Deepseek算命、寫東西。
但隨著元寶、百度、豆包、夸克紛紛上線了深度思考模型,我就發(fā)現(xiàn)身邊用DeepSeek的人越來越少了。
一方面DeepSeek在使用體驗(yàn)上確實(shí)不太舒服,整個系統(tǒng)延遲很高,問個很簡單的問題都要響應(yīng)半天,黑馬幾乎不會用DeepSeek查資料。
其次它記性也不太好,上下文長度只支持到64k,你多追問幾次,就會發(fā)現(xiàn)它直接把你的上文忘了,非常腦淤血。
另一方面,DeepSeek自己好像也對搞這種To C產(chǎn)品不太感興趣,本來今年5月就跟應(yīng)該迭代的DeepSeek-R2一再跳票,到現(xiàn)在都還沒有準(zhǔn)確的信息。
反而在給友商開放API接口,以及開源上面非??犊?,有數(shù)據(jù)顯示DeepSeek R1和V3在第三方主機(jī)上的總使用量增長了將近20倍
前段時間,DeepSeek還被帶了一波節(jié)奏,說是使用率從50%跌到了3%,雖然我不知道這個數(shù)字他們是從哪挖出來的。
不過據(jù)黑馬看到的資料顯示,DeepSeek的份額確實(shí)從年初的7%下滑到了四月底的3%,腰斬了。
考慮到DeepSeek本身顯卡資源短缺,也不知道這種情況是否是DeepSeek有意蟄伏。
不過DeepSeek前幾天倒是終于暗戳戳更新了一個小版本——DeepSeek V3.1。
黑馬研究了一下DeepSeek這波低調(diào)的迭代,發(fā)現(xiàn)這是真的低調(diào),誰也沒通知不說,連迭代內(nèi)容也很克制:
上下文長度拓展到128k(大概10萬-16萬漢字的超長文本),多語言編程能力大幅度提升,推理和知識準(zhǔn)確性提升。
黑馬也一直在留意媒體老師們的測評,得到的反饋基本上都是挺正面的:
什么“編程測試確實(shí)有兩把刷子”、“長文本處理也很精準(zhǔn)”、“邏輯分析很?!?、“搜索整合信息很準(zhǔn)確”……
圖源:APPSO
但黑馬作為一個文字編輯,我其實(shí)還是更看重大模型的寫作能力——當(dāng)年DeepSeek出圈就是因?yàn)閯?chuàng)作力強(qiáng),這次更新之后AI味兒會不會少點(diǎn)?跟聲名在外的Claude比誰更好用?
反正都是賽博斗蛐蛐,我把最近幾個比較火的大模型都拉過來一起對比。
參賽選手包括:Gemini2.5 Pro、ChatGPT-5、Grok 3、Deepseek V3.1、Claude-Sonnet-4。
但這次我沒準(zhǔn)備讓AI幫我寫稿,而是直接讓它們進(jìn)行比較純粹的文字創(chuàng)作,弱化了對信息搜集整理的需求。
黑馬找來了一個很有水平的“恐怖小說提示詞”,喂給了幾個AI。
(36:李繼剛老師的提示詞,感覺比正文還克蘇魯)
結(jié)合最近的生活經(jīng)歷,我把主題定為了“蚊子”。
先來看看DeepSeek V3.1的作品:
在提示詞的影響下,DeepSeek創(chuàng)作的文字非常的有那味道,用一些看似正常的細(xì)節(jié)描述,完成了一篇處處詭異的文章,也沒有太多的場景描寫,全篇都是和蚊子的瘋狂拉扯。
但這個詭異感吧不是很有感覺,越往后面我越感覺有一種“我”被蚊子煩了一晚上終于瘋了,還不幸患上了“夏夜被蚊叮的睡不著”PTSD的感覺。
對于文字風(fēng)格我還是比較滿意的,雖然仔細(xì)讀下來割裂感比較嚴(yán)重,但是這種咯噔感放到恐怖小說里,反而渲染了詭異的氛圍。
同樣的提示詞,我也喂給了Claude Sonnet 4:
這是它給我的故事:
Claude不一樣的地方在于,它真的給這個故事套了個背景,初讀就給我一種沉浸感。
它給的恐怖來自于“我”的意識被蚊子群體意識侵蝕,是一種比較常見的恐怖流派,Claude在套公式這一塊還是很強(qiáng)的。
至于文字表達(dá)上,黑馬主上覺得要比DeepSeek要更有可讀性一點(diǎn),大家可以自行判斷。
然后是ChatGPT-5:
ChatGPT比Claude還要激進(jìn)一點(diǎn),它直接讓蚊子把“我”寄生了,這個流派比意識奪舍流還要大眾。
至于可讀性上個人感覺和DeepSeek不相上下。
接下來是Gemini 2.5 Pro:
故事的恐怖程度和Claude、ChatGPT比要差一點(diǎn),可能是因?yàn)闆]有套公式的原因,有一種自己嚇自己的感覺。
但在可讀性上,個人感覺Gemini和Claude不相上下,有故事性邏輯也很連貫。
最后是Grok 3:
可能是沒有用到Grok3.5的原因吧,感覺Grok的效果是五個里面最差的,遣詞造句非常大眾,也沒有營造出詭異的氛圍。
這篇大家就自行體會吧。
總的來說,如果讓我給五個AI的表現(xiàn)排名,應(yīng)該是:
Claude Sonnet4>Gemini2.5 Pro>ChatGPT-5=Deepseek V3.1>Grok 3
以上均為純主觀看法,個人感覺提示詞加分不少,下次有機(jī)會再試試普通提示詞的效果。
其實(shí)從迭代版本的編號能看出,DeepSeek V3.1也沒邁大步子,但可能是黑馬一直在等DeepSeek更新,期待比較高,所以覺得這次更新稍顯平淡。
有消息稱,DeepSeek V3.1 可能是融合推理模型與非推理模型的混合模型,但混合模型的精度和質(zhì)量似乎還有待證明。
最后,我就只有一個問題了,R2什么時候可以端上來???!
撰文:柯然
編輯:小馬哥
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.