智東西
編譯 王涵
編輯 漠影
智東西10月14日消息,今日凌晨,微軟AI推出其首款完全自研的文生圖模型MAI-Image-1。該模型首次亮相即以1096分排在權(quán)威評測平臺(tái)LMArena文生圖榜單第9名。
▲LMArena文生圖榜單(來源:LMArena)
在實(shí)際性能方面,MAI-Image-1在光影效果、自然景觀等超寫實(shí)圖像生成上表現(xiàn)突出。相比規(guī)模更大、響應(yīng)更慢的模型,該模型在保證生成質(zhì)量的同時(shí)顯著提升了處理速度,讓創(chuàng)作者能夠快速實(shí)現(xiàn)創(chuàng)意可視化并進(jìn)行迭代優(yōu)化。
▲MAI-Image-1生成圖像實(shí)例(來源:微軟AI)
微軟透露,研究團(tuán)隊(duì)在模型訓(xùn)練階段特別注重避免輸出內(nèi)容的重復(fù)與同質(zhì)化問題,通過嚴(yán)格篩選訓(xùn)練數(shù)據(jù)并引入創(chuàng)意行業(yè)專業(yè)建議,讓模型在真實(shí)創(chuàng)作場景中展現(xiàn)出更好的實(shí)用性。MAI-Image-1后續(xù)也將集成至Copilot和Bing Image Creator等微軟核心產(chǎn)品中。
微軟AI(Mircosoft AI,簡稱MAI)創(chuàng)立于2024年3月,是微軟為推進(jìn)Copilot及其他消費(fèi)者AI產(chǎn)品研發(fā)而設(shè)立的專門機(jī)構(gòu)。
該機(jī)構(gòu)首席執(zhí)行官M(fèi)ustafa Suleyman曾作為聯(lián)合創(chuàng)始人創(chuàng)立DeepMind并領(lǐng)導(dǎo)其應(yīng)用AI部門,隨DeepMind被谷歌收購后加入谷歌,后于2022年離開谷歌創(chuàng)辦大模型初創(chuàng)企業(yè)Inflection AI。
2024年初,微軟以6.5億美元(約合人民幣46.3億元)完成對Inflection AI的“人才收購”,Suleyman隨即帶領(lǐng)團(tuán)隊(duì)核心成員加入MAI,14個(gè)月后,他們交付了首批全自研AI模型,分別為基礎(chǔ)模型MAI-1-preview和語音生成模型MAI-Voice-1。(參見智東西此前報(bào)道:微軟AI首個(gè)自研模型來了,實(shí)測可玩性超強(qiáng),CEO回應(yīng)與OpenAI隔閡)
結(jié)語:微軟多模態(tài)場景產(chǎn)品藍(lán)圖逐漸清晰
微軟AI全自研文生圖模型雖然闖進(jìn)LMArena文生圖榜單前十,但與谷歌等公司的自研模型仍有差距,如此看來微軟收購Inflection AI的效果還沒有完全顯現(xiàn)出來。
在文生圖模型領(lǐng)域,MAI-Image-1需要來自面對Midjourney、Stable Diffusion等海外成熟模型以及hunyuan-image、seedream等中國文生圖模型的激烈競爭,壓力不算小。
不過,從其發(fā)布的三款模型的類型來看,從語音、對話到圖像生成,微軟正試圖打造覆蓋多模態(tài)場景的自主產(chǎn)品矩陣,其似乎是想要通過自研模型逐步構(gòu)建獨(dú)立技術(shù)體系。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.