又快又準又安全?實時字幕有“芯”祕密!

語言: CN / TW / HK

手機是當下人們在移動場景下處理各種事務的“多面手”, 對於新一代摺疊旗艦小米MIX Fold 2來說,其大屏尤其能在諸多工作場景和生活娛樂中獨當一面

你,是否遇到過這樣的情況?

  • 刷到感興趣的英語“生肉”,只能看畫面,卻聽不懂外語 

  • 利用通勤時間上網課時,地鐵人聲嘈雜、訊號弱,影片聲音根本聽不清 

  • 參加需要保密的跨國會議時,由於網路訊號被遮蔽,常規的線上實時字幕難以使用……

面對這些常見難題,小米工程師一直在思考,能否通過AI實現實時的同傳體驗,從而輕鬆打破語言壁壘? 伴隨著這一靈感誕生的實時字幕,則提供了又快、又穩、又安全的解決方案。

01 

離線方案

高效且安全

基於高通AI引擎的強大算力,實時字幕實現了離線條件下的中英文轉寫與翻譯,能夠幾乎實時形成雙語字幕,成為手機中高效又安全的同聲傳譯助手。小米的實時字幕有何優勢呢?

那就要回到技術本身,也是這一功能的最大特點——  “ 離線 ”   ,也就是說,無需聯網即可在手機端執行。由此,使用者在使用中將享受到如下三大便利:

  • 隱私保護: 語音轉文字和翻譯的傳統方案需要將使用者音訊上傳至雲端,小米實時字幕則採用基於裝置端的AI技術離線執行,相關音訊預設不會離開使用者裝置,從而保護隱私安全;

  • 速度接近實時: 相比雲端方案,離線實時字幕的語音轉寫和翻譯速度顯著提高,聽障人士無障礙享受影片與線上交流也更為便利;

  • 無網環境也能翻譯: 儘管大多數情況下均可接入網路,但是移動場景下訊號強弱不穩定,而通過離線,無論是地鐵、飛機等弱訊號環境,都不影響實時字幕的使用。

02  

一場火力全開的全“芯”探索

  1       從雲端轉向離線的嘗試

小米的實時字幕為什麼要做離線?參考傳統路徑來說,似乎直接沿用已有的雲端方案是更簡單的道路。然而小米工程師們沒有輕易選擇,而是指出了雲端方案的三個隱患:

  • 雲端方案需要將使用者正在播放的影片或線上會議的聲音上傳到雲端伺服器,完成同聲傳譯後再將字幕文字傳輸到使用者手機上,使用者擔心隱私洩露;

  • 雲端方案的上傳和下載過程依賴網路傳輸,在消耗流量的同時必然會花費一定時間,因而速度很難做到實時;

  • 使用實時字幕的場景持續的時間通常比較長,如果很多使用者在同一時間使用,會對服務端形成非常大的併發壓力,易引發服務不穩定的情況。

因此,工程師們認為, 想要實現效能更好的實時字幕,必然要 從方案上另闢蹊徑 而隨著當前手機晶片的算力越來越強,繞開雲端而直接將運算放到手機本地完成成為可能。

  2       追求極致平衡,發現“芯”突破口

實時字幕功能運算量巨大,如果單純地將雲端模型遷移到CPU當中,極高的功耗會使得實時字幕根本難以使用。因而, 在有限的計算條件下將準確率做到極致,同時在快、準、穩之間形成平衡, 是小米工程師面臨的最大難題。

但工程師們找到了突破點—— 高通 驍龍8+ 的第七代 AI 引擎 ,它包含一塊用於加速神經網路運算的專用處理器,不僅速度快而且功耗低,尤其適合處理需要龐大計算量的語音識別和機器翻譯任務。

未充分開發的  “  第七代 AI 引擎 ”  其強大算力不可不謂是一塊亟待挖掘的金礦,工程師們認為,極致平衡的最優解或許就在其中。

  3       自研語音識別和機器翻譯技術的成功落地

離線方案的研發可以說是一次全新的探索,缺乏前人經驗參考的自研之路非常艱難。而得力於小米AI實驗室演算法團隊和汽車部MACE團隊的通力合作,小米自研語音識別和機器翻譯技術最終在高通AI引擎上成功落地。

1 /   模型優化:更快,更準,更穩

實時離線字幕既要快,又要準,還要更小的儲存佔用 ,因此工程師們通過知識蒸餾,網路剪枝,資料增強,對抗樣本訓練,引數共享,有偏解碼等技術,實現了延時,質量,儲存,功耗,顯示穩定等多個目標之間的平衡,也節省了計算開銷和能源消耗。

經測試,實時字幕的語音識別和翻譯準確率依然達到行業一流水平,且譯文顯示更穩定。

2 /   落地高通AI引擎:重重限制下的“最優解”

由於高通AI引擎本身硬體效能以及演算法模型結構的複雜性,模型精度的損失和速度受限成為最新的困擾和挑戰。對於模型,演算法團隊嘗試使用更適合半精度浮點運算的網路結構,以解決高通AI引擎上的半精度浮點溢位問題、推理速度慢以及不定長解碼的問題。

MACE作為小米自研的開源端側機器學習推理框架,在行業內處於領先地位,其在高通平臺豐富的經驗和資源提高了模型在計算單元間切換的效率。團隊 對模型的轉換和執行做了大量優化,並通過精度校驗工具即時發現分析並解決精度損失問題,從而使得在高通AI引擎上不僅可以相容更為複雜的模型結構,也可以獲得更好的效能。在MACE團隊的支援下,演算法團隊順利完成了模型的落地。

03 

未來

值得期待

受到AI模型和晶片結構差異的限制,目前實時字幕僅支援搭載第七代AI引擎的高通驍龍8 +晶片裝置,包含 小米MIX Fold 2、小米12S系列、Redmi K50至尊版, 未來將拓展到更多機型。

很快,實時字幕將支援  “ 背景音識別 ”  功能,不僅能識別影片或會議當中的人聲,還能識別“鼓掌”“笑聲”等背景聲音,自動語種識別、根據語義斷句等更多人性化體驗也將實現。

“背景音識別”功能示例

實時字幕的誕生來源於小米工程師團隊與“極致平衡”這一目標的“死磕”,團隊間的協作互助也加速了這一目標的實現。其不僅為低功耗、低延時的前沿AI應用的落地提供了範例,而且也對使用者資訊保安和隱私保護有著重要的意義。

小米工程師的每次深入探索,都能使技術的革新真正便利使用者的生活。相信未來,更值得期待。

「其他文章」