微軟AI推出首款自研圖像生成模型！

2025-10-14 21:19:10　來源: 智東西

北京舉報(bào)

分享至

智東西
編譯王涵
編輯漠影

智東西10月14日消息，今日凌晨，微軟AI推出其首款完全自研的文生圖模型MAI-Image-1。該模型首次亮相即以1096分排在權(quán)威評測平臺(tái)LMArena文生圖榜單第9名。

▲LMArena文生圖榜單（來源：LMArena）

在實(shí)際性能方面，MAI-Image-1在光影效果、自然景觀等超寫實(shí)圖像生成上表現(xiàn)突出。相比規(guī)模更大、響應(yīng)更慢的模型，該模型在保證生成質(zhì)量的同時(shí)顯著提升了處理速度，讓創(chuàng)作者能夠快速實(shí)現(xiàn)創(chuàng)意可視化并進(jìn)行迭代優(yōu)化。

▲MAI-Image-1生成圖像實(shí)例（來源：微軟AI）

微軟透露，研究團(tuán)隊(duì)在模型訓(xùn)練階段特別注重避免輸出內(nèi)容的重復(fù)與同質(zhì)化問題，通過嚴(yán)格篩選訓(xùn)練數(shù)據(jù)并引入創(chuàng)意行業(yè)專業(yè)建議，讓模型在真實(shí)創(chuàng)作場景中展現(xiàn)出更好的實(shí)用性。MAI-Image-1后續(xù)也將集成至Copilot和Bing Image Creator等微軟核心產(chǎn)品中。

微軟AI（Mircosoft AI，簡稱MAI）創(chuàng)立于2024年3月，是微軟為推進(jìn)Copilot及其他消費(fèi)者AI產(chǎn)品研發(fā)而設(shè)立的專門機(jī)構(gòu)。

該機(jī)構(gòu)首席執(zhí)行官M(fèi)ustafa Suleyman曾作為聯(lián)合創(chuàng)始人創(chuàng)立DeepMind并領(lǐng)導(dǎo)其應(yīng)用AI部門，隨DeepMind被谷歌收購后加入谷歌，后于2022年離開谷歌創(chuàng)辦大模型初創(chuàng)企業(yè)Inflection AI。

2024年初，微軟以6.5億美元（約合人民幣46.3億元）完成對Inflection AI的“人才收購”，Suleyman隨即帶領(lǐng)團(tuán)隊(duì)核心成員加入MAI，14個(gè)月后，他們交付了首批全自研AI模型，分別為基礎(chǔ)模型MAI-1-preview和語音生成模型MAI-Voice-1。（參見智東西此前報(bào)道：微軟AI首個(gè)自研模型來了，實(shí)測可玩性超強(qiáng)，CEO回應(yīng)與OpenAI隔閡）

結(jié)語：微軟多模態(tài)場景產(chǎn)品藍(lán)圖逐漸清晰

微軟AI全自研文生圖模型雖然闖進(jìn)LMArena文生圖榜單前十，但與谷歌等公司的自研模型仍有差距，如此看來微軟收購Inflection AI的效果還沒有完全顯現(xiàn)出來。

在文生圖模型領(lǐng)域，MAI-Image-1需要來自面對Midjourney、Stable Diffusion等海外成熟模型以及hunyuan-image、seedream等中國文生圖模型的激烈競爭，壓力不算小。

不過，從其發(fā)布的三款模型的類型來看，從語音、對話到圖像生成，微軟正試圖打造覆蓋多模態(tài)場景的自主產(chǎn)品矩陣，其似乎是想要通過自研模型逐步構(gòu)建獨(dú)立技術(shù)體系。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.