作者 | Hien Luu
譯者 | 田橙
OpenAI 正式發(fā)布了 gpt-realtime,這是一款代表當(dāng)前 OpenAI 最新研發(fā)成果的語音對語音模型,同時(shí) Realtime API 也全面開放。此次更新旨在降低延遲、提升語音質(zhì)量,并為開發(fā)者提供更強(qiáng)大的工具,例如支持 MCP 服務(wù)器、圖像輸入以及基于 SIP 的電話呼叫,從而打造真正可投入生產(chǎn)環(huán)境的 AI 語音智能體。
Realtime API 與 gpt-realtime 的結(jié)合,能夠在單一系統(tǒng)內(nèi)完成端到端語音處理,而無需再將語音轉(zhuǎn)文本與文本轉(zhuǎn)語音模型分開串聯(lián)。這種架構(gòu)顯著縮短了響應(yīng)時(shí)間,并能保留語音表達(dá)中的細(xì)微差別,這對于實(shí)時(shí)語音交互至關(guān)重要,因?yàn)槟呐聨装俸撩氲难舆t都可能破壞對話的流暢性。
gpt-realtime 經(jīng)過訓(xùn)練,可以生成更高質(zhì)量的語音,語速與語調(diào)更加自然,同時(shí)在語氣風(fēng)格的指令執(zhí)行上表現(xiàn)穩(wěn)定,例如“以同理心語氣說話”或“使用專業(yè)語氣”。此次還新增了兩個(gè)合成聲音 Cedar 和 Marin,并對現(xiàn)有聲音進(jìn)行了更新,使之更加逼真。
gpt-realtime 在理解能力方面也有顯著進(jìn)步。模型能夠識別非語言信號,在一句話中實(shí)現(xiàn)多語言切換,并且對跨語言的字母數(shù)字序列(如電話號碼、車輛識別碼等)處理更加準(zhǔn)確,支持西班牙語、中文、日語和法語等多種語言。內(nèi)部測試結(jié)果顯示,gpt-realtime 在 Big Bench Audio 上的準(zhǔn)確率達(dá)到 82.8%,相比上一代模型的 65.6% 有顯著提升。在遵循指令方面,MultiChallenge 音頻基準(zhǔn)測試的得分也從 20.6% 提升至 30.5%。
函數(shù)調(diào)用能力同樣得到增強(qiáng)。新模型在識別相關(guān)函數(shù)、在合適時(shí)機(jī)調(diào)用并傳遞正確參數(shù)方面表現(xiàn)更佳。在 ComplexFuncBench 上,準(zhǔn)確率從 49.7% 提升至 66.5%。此外,系統(tǒng)還新增了 異步函數(shù)調(diào)用 功能,使語音智能體在等待結(jié)果期間能夠繼續(xù)對話,這一特性在客戶服務(wù)和交易類場景中具有重要應(yīng)用價(jià)值。
Realtime API 也迎來全面升級,更符合生產(chǎn)級需求。開發(fā)者現(xiàn)在可以將遠(yuǎn)程 MCP 服務(wù)器直接接入會(huì)話,避免手動(dòng)集成的繁瑣操作。API 還支持圖像輸入,使應(yīng)用能夠基于視覺內(nèi)容(如截圖或照片)進(jìn)行對話。SIP 支持則讓語音智能體能無縫接入現(xiàn)有電話系統(tǒng),包括 PBX 和桌面電話??蓮?fù)用提示功能簡化了會(huì)話管理,而全面的歐盟數(shù)據(jù)存儲(chǔ)支持則滿足歐洲部署中的合規(guī)要求。
根據(jù)發(fā)布說明,早期企業(yè)合作伙伴已在接近生產(chǎn)環(huán)境的場景中測試這些功能。Zillow 已啟動(dòng)語音交互式房產(chǎn)搜索的試點(diǎn)項(xiàng)目,而 T-Mobile 則探索在客戶服務(wù)中應(yīng)用實(shí)時(shí)響應(yīng)的場景。兩家公司都強(qiáng)調(diào),AI 語音智能體正推動(dòng)交互方式從傳統(tǒng)的腳本化自動(dòng)化,向更靈活、更具領(lǐng)域?qū)iL的方向轉(zhuǎn)變。
OpenAI 還進(jìn)一步強(qiáng)化了部署安全措施。Realtime API 內(nèi)置分類器,可以中止有害對話,開發(fā)者也能通過 Agents SDK 添加特定領(lǐng)域的安全約束。此外,Realtime API 的預(yù)設(shè)聲音有助于降低冒充風(fēng)險(xiǎn)。
目前,gpt-realtime 模型與 Realtime API 已全面開放,所有開發(fā)者均可使用。開發(fā)者可查閱 Realtime API 文檔 與 提示指南 快速上手,并在 Playground 中體驗(yàn)全新的 gpt-realtime 演示版本。
https://www.infoq.com/news/2025/09/openai-gpt-realtime/
聲明:本文為 InfoQ 翻譯,未經(jīng)許可禁止轉(zhuǎn)載。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.