啟英泰倫何雲鵬:降低AI語音應用門檻 與合作伙伴共享開放生態

語言: CN / TW / HK

集微網訊息 近年來,隨著網際網路、5G和Wi-Fi等技術的快速發展,智慧家居行業已經從最初的“單點智慧”走向“情景智慧”。此外,隨著智慧語音方案的日益成熟,語音互動的市場需求不斷開啟,智慧車載、智慧穿戴、智慧照明等領域潛力也在快速釋放。

作為國內離線語音AI晶片領域的“先行者”,自成立至今的近7年間,啟英泰倫每一代產品的推出都將智慧語音推向了新的高度。如今,啟英泰倫又推出了第三代智慧語音AI晶片,全面覆蓋高效能、低成本端側語音和端雲融合語音等應用。為了進一步瞭解這款晶片,集微網採訪到啟英泰倫創始人兼CEO何雲鵬,雙方圍繞公司第三代智慧語音晶片、智慧語音行業及公司發展等內容進行了一次深入交流。

1、當前,智慧語音在場景應用中的挑戰主要有哪些?

如果與影象識別相比,語音識別在算力上的要求顯然低很多。然而,在實際應用中,算力只是一方面,智慧語音在演算法上的要求是非常高的。因為在實際場景中,不僅要聽得清楚,還需聽得明白。

就聽得清楚而言,智慧語音面臨的挑戰主要源於場景的複雜性。在其應用場景中,往往充斥著各種噪聲,包括穩態的噪聲和非穩態的噪聲。比如,在家居場景,廚房廚電的煙氣噪聲常常高達七八十分貝,此外,還有電視、破壁機、掃地機器人的聲音,多人議論的聲音等。在會場環境中,周圍的聲音往往非常嘈雜,還會有高音喇叭的聲音等。從上述例子可以感受到,噪聲場景是極其複雜的。

聽得清楚主要與環境因素關聯,而聽得明白又是另一重挑戰。中國地域遼闊,存在許多不同語系,各地方言更是數不勝數。再加上每個人的聲音、口音,以及表達方式差異甚大,想要聽明白這麼複雜的語音內容,其中的困難可想而知。從發展時間上看,智慧語音的應用不過十多年,而人類進化則至少歷經幾十萬年,可見這是一個極具挑戰的事業。

然而,在實際應用中,使用者對智慧語音的要求極高,對於一個能聽會說的裝置,常以機器人,甚至超人的標準對待。在人耳也不易聽清的嘈雜環境中,會希望語音裝置能聽清;人耳很難同時聽懂兩個以上人說話,但要求語音裝置能聽懂。此外,很少有人能聽懂各地的方言口音,但各地方的人會要求裝置聽得懂該地方言,甚至土話。

2、第三代智慧語音晶片在哪些方面進行了迭代升級?

第三代智慧語音晶片是啟英泰倫歷經三年潛心研發後推出的。相較上一代產品,這款晶片創下“算力更高、高度整合和演算法新高”的“三高”記錄,全面覆蓋高效能、低成本端側語音和端雲融合語音等應用。

啟英泰倫智慧語音晶片從第一代發展至第三代,可以看到清晰的傳承與進化脈絡。第一代BNPU實現的是端側語音識別,是行業首款整合神經網路處理器的語音AI晶片,也是離線語音產業應用興起的標誌。第二代系列晶片CI1102/CI1103及CI1122晶片則集成了第二代BNPU,不僅實現了離線語音識別功能,還能實現離線聲紋識別和命令詞自學習等個性化的功能。

與上一代產品相比,第三代BNPU作了大量技術迭代。除繼承第二代的語音識別、聲紋識別外,還支援了基於深度學習的降噪技術(深度降噪),人聲分離技術(深度分離),命令詞自學習2.0版本技術,以及行業首次突破性的離線NLP技術。

從晶片算力方面看,第三代13系列晶片內建BNPU 3.0和支援DSP指令擴充套件的RISC CPU兩大核心,主頻高達240MHz,並具有640KB系統SRAM。

特別值得關注的是第三代智慧語音晶片對端側NLP的支援。此前,業界普遍認為只有雲端才能實現NLP,而啟英泰倫最新的技術已經可以採用端側智慧語音晶片實現NLP,將語音處理放在端側,既保障了使用者的體驗感,又能降低雲端搭建和運營成本,降低網路頻寬消耗,也能提升使用者使用的安全性。

3、與雲端語音處理相比,離線語音的優勢體現在哪裡?

在智慧語音識別發展的早期階段,由於對算力的要求較高,基本都是通過雲端進行智慧語音識別處理。客觀來看,雲端處理有一些天然的優勢,比如自帶內容及服務、模型可快速迭代、資料收集和訓練便捷等等。

不過,隨著智慧語音技術不斷髮展和應用的不斷拓展,雲端處理在響應可靠性、隱私保護、成本等方面的弊端逐步暴露出來。

由於雲端語音傳輸、處理的過程鏈條較長,網路傳輸、伺服器的響應、以及終端和雲端的協議互動等都需要時間,一旦遇到網路延時、伺服器擁塞等情況就會出現響應遲鈍、甚至無響應等問題。

雲端語音需要上傳終端採集到的使用者環境中的聲音訊號,訊號可能包括使用者的聲紋,以及個人及家庭成員的私密資訊,可能會被惡意擷取、洩露,個人或家庭隱私被洩露的風險很高。

從經濟的角度看,雲端語音還存在成本較高,資源浪費嚴重問題。雲端語音需要後臺不間斷的執行大量伺服器來做語音處理,伺服器的購置、後續的硬體更換和軟體運維、人力費用和電費場地費等都非常昂貴,這個對於企業來講是很大的一筆費用。

雖然,在智慧語音識別發展早期,主流方式是通過雲端進行智慧語音識別處理。然而,啟英泰倫卻另闢蹊徑,率先選擇了離線語音AI晶片的方向。這一選擇的出發點是基於對使用者真實需求的深入思考。首先,離線語音是不依賴網路和雲中心的真智慧,既能給使用者帶來即時的靈敏響應,也能更好地保護使用者的隱私。此外,出於對使用者權益的考量,離線語音能確保使用者擁有完整的、自主的智慧裝置使用權和控制權。最後,除使用者體驗外,還需考慮更廣泛的使用者的成本承受能力,不僅是讓使用者體驗更好,也能用得起。

4、啟英泰倫生態建設上有怎樣的目標和計劃?

啟英泰倫很早便定下了“3 Make”的目標,即讓裝置更智慧、讓應用真方便、讓AI更便宜。為了降低智慧語音的應用門檻,啟英泰倫於2017年便開始建設語音AI開發平臺,2018年底正式推出,2019年則完全向全行業開放。

目前,啟英泰倫的語音AI開發平臺已迭代至3.0版本。即便從未做過語音應用開發的人,只需通過平臺的引導,也能輕鬆進行語音開發,可以無程式碼做語音開發,低程式碼做應用開發。除平臺全面對外開放外,啟英泰倫還會通過代理商、方案商的體系推動其生態的發展,在每個行業、領域發展相應的方案商,共同構建智慧語音生態。

此外,啟英泰倫也與學界達成良好的合作關係,推動在中學、大學的AI教育,老師和學生都可以使用啟英泰倫的晶片平臺開發各種應用。目前,使用啟英泰倫的語音AI開發平臺學習和開發的學員已超過10萬名。

5、啟英泰倫的願景是什麼?

啟英泰倫的終極目標是打造跨裝置、跨時空,使用者專屬、終身守護的守護精靈。

總體而言,這一目標可以劃分為三個階段,第一步是讓人機互動更自然,更具普適性;然後通過更多的資料,讓機器更理解人、更主動地為人類服務;最終目標是打造專屬的守護精靈,它將是使用者全方位的生活管家、健康安全衛士、百科知識導師和給與心靈陪伴的知己朋友。

為了更快地實現自身目標,啟英泰倫正加強生態建設,提升應用開發平臺,和合作夥伴們一切推動生態建設,努力降低AI語音應用的門檻。