OpenAI正式發(fā)布語(yǔ)音模型GPT-realtime。發(fā)布
據(jù)介紹,語(yǔ)音GPT-realtime是模型一款專注于語(yǔ)音AI Agent的多模態(tài)模型,能夠生成高度自然流暢的發(fā)布語(yǔ)音,精準(zhǔn)還原人類語(yǔ)調(diào)、語(yǔ)音情感和語(yǔ)速的模型豐富變化。該模型支持圖像理解,發(fā)布并可結(jié)合語(yǔ)音或文本對(duì)話使用,語(yǔ)音非常適合應(yīng)用于客服、模型教育、發(fā)布金融、語(yǔ)音醫(yī)療等領(lǐng)域,模型用于構(gòu)建高質(zhì)量的發(fā)布語(yǔ)音智能體。
官方表示,語(yǔ)音新模型在復(fù)雜指令遵循、模型工具精確調(diào)用以及生成更自然、更具表現(xiàn)力的語(yǔ)音方面表現(xiàn)卓越。尤其在重復(fù)字母與數(shù)字、逐字朗讀免責(zé)聲明、語(yǔ)句間無(wú)縫切換語(yǔ)言等場(chǎng)景中,GPT-realtime展現(xiàn)出優(yōu)秀的適應(yīng)能力。
該模型還具備出色的上下文理解能力,可準(zhǔn)確捕捉非語(yǔ)言線索(如笑聲),并實(shí)時(shí)調(diào)整語(yǔ)音語(yǔ)氣,實(shí)現(xiàn)諸如“帶法國(guó)口音的友好語(yǔ)調(diào)”或“語(yǔ)速較快的專業(yè)語(yǔ)調(diào)”等多樣化表達(dá)。
此外,GPT-realtime新增了“Cedar”和“Marin”兩種語(yǔ)音風(fēng)格,并對(duì)現(xiàn)有八種語(yǔ)音效果進(jìn)行了全面優(yōu)化。