IT之家 4 月 20 日消息,4 月 20 日(今天)下午,阿里(BABA)通義實(shí)驗(yàn)室正式推出語音識別大模型 Fun-ASR 1.5。
其基于統(tǒng)一的大模型架構(gòu),單模型即可覆蓋 30 種語言、漢語七大方言體系及 20+ 地方口音,古詩詞吟誦也能精準(zhǔn)轉(zhuǎn)寫。目前,F(xiàn)un-ASR 1.5 已在阿里(BABA)云百煉平臺正式上線,面向教育、傳媒、金融、科技、文化等各行業(yè)客戶提供 API 服務(wù)。
在一些“高難度”的跨語言切換(Code-Switching)場景下,它也能應(yīng)對自如。比如,同一段對話里夾雜多種語言,模型也能準(zhǔn)確識別,無需提前告訴它接下來要說哪種語言。Fun-ASR 1.5 現(xiàn)在可以做到無需預(yù)設(shè)語種標(biāo)簽,就自動識別并切換,保證轉(zhuǎn)寫的準(zhǔn)確性。
據(jù)IT之家了解,該能力源于模型的架構(gòu)和訓(xùn)練創(chuàng)新。MoE(混合專家)架構(gòu)讓模型內(nèi)部可以分工協(xié)作,聽到特定語言時僅激活相關(guān)部分進(jìn)行處理,因而更為靈活高效。同時,在訓(xùn)練階段分級、分階段地使用精準(zhǔn)數(shù)據(jù),也讓模型能更好地應(yīng)對真實(shí)世界中的復(fù)雜語音情況。
在中文本土化方面,基于數(shù)十萬小時真實(shí)方言語音數(shù)據(jù)的“喂養(yǎng)”,F(xiàn)un-ASR 1.5 的平均字錯誤率(CER)相比上一版本下降 56.2%。
Fun-ASR 1.5 可原汁原味還原方言,如上海話的“儂”、蘇州話“倷”(均指“你”),為下游模型處理方言文字提供了準(zhǔn)確的基礎(chǔ)語料。
Fun-ASR 1.5 對中文古詩詞識別進(jìn)行專項(xiàng)優(yōu)化。研究團(tuán)隊(duì)構(gòu)建了先秦至近代的古詩詞語音-文本對齊語料庫,涵蓋《詩經(jīng)》《楚辭》、李白杜甫詩集、蘇軾辛棄疾詞作等經(jīng)典文本的真人誦讀錄音。
在內(nèi)部評測集中,F(xiàn)un-ASR 1.5 對古詩詞的字符級準(zhǔn)確率達(dá)到 97%,可應(yīng)用于國學(xué)在線課程和有聲詩詞,助力文化傳承。
模型還可以基于上下文語義自動插入逗號、句號、問號、感嘆號等標(biāo)點(diǎn),使轉(zhuǎn)寫結(jié)果接近書面表達(dá)。例如輸入語音:“今天天氣怎么樣啊我想出去走走但又怕下雨”,輸出文本就是“今天天氣怎么樣?。课蚁氤鋈プ咦?,但又怕下雨?!?/p>
其還支持將口語中的非標(biāo)準(zhǔn)表達(dá)自動轉(zhuǎn)換為規(guī)范格式:
數(shù)字:“三千五百六十二” → “3562”
日期:“二零二六年三月二十九號” → “2026 年 3 月 29 日”
金額:“五萬八千塊” → “58000 元”
電話:“幺三八零零幺三八零零零” → “13800138000”
這些改進(jìn)大幅降低了會議紀(jì)要、新聞采訪整理、法律筆錄等場景的后期人工校對和編輯成本。
目前,用戶可在阿里(BABA)云百煉平臺調(diào)用其 API,或在魔搭社區(qū)直接體驗(yàn)。
阿里(BABA)云百煉:https://bailian.console.aliyun.com/cn-beijing?tab=model#/efm/model_experience_center/voice?modelId=fun-asr
魔搭社區(qū):https://modelscope.cn/studios/iic/FunAudio-ASR
