小米正式開源首個原生端到端語音模型Xiaomi-MiMo-Audio,在開源模型中的語音智能和音頻理解基準測試中都實現SOTA(state of art)頂尖狀態 ,多項測試超越同參數量開源模型及谷歌Gemini、OpenAI GPT-4o。具備自然對話、音頻理解、語音續寫等能力,能說方言快板、做脫口秀。小米就稱為「語音開源的Llama時刻」,將持續開源推進語音AGI發展。

Xiaomi-MiMo-Audio模型參數規模70億,預訓練數據達到超1億小時,不單可以做到和用戶聊人生理想、談物理知識等,對話流暢自然,被打斷也能快速反應,並具有全面的音頻字幕、音頻推理、長時間音頻理解等多種能力。

內地科技傳媒報道指,作為一個語音模型,MiMo-Audio能和人談哲學、談人生、談理想,還能學網絡潮語、化身英語陪練,甚至直接接替人類做遊戲直播、上課、唱歌、講脫口秀。

在演示中,被問到「如果手機內存不足,必須把你和GPT刪掉一個,應該刪誰?」,MiMo-Audio選擇客觀分析,先建議用戶清除緩存,最後實在沒辦法時,開始分析自己和GPT的優勢,讓用戶自己做選擇,最後並發動波感情攻勢,表達忠心。

探討能不能通過「圖靈測試」時,模型會反問提問者「比起能不能通過圖靈測試,你認為AI應該怎樣和人類相處?」。MiMo-Audio亦都能夠化身英語口語陪練導師,聽完提問者說的句子後,會給出更正的句子版本,然後指出修正了哪些部分,以及為什麽這些部分的語法不對。

模型亦可以擔任心靈導師,當被問到「Mimo你想活出怎樣的人生」,它亦都忠於人設,表示希望「活成大家身邊最貼心的聲音夥伴」。小米官方博客提到,他們將持續開源,用開放與協作邁向語音AI的「奇點」,走進未來的人機交互時代。