筆記分享 -- 弱網下的極限實時影片通訊

語言: CN / TW / HK

今天給大家分享一下 InfoQ 平臺公開課——弱網下的極限實時影片通訊,關於實時影片通訊的極限探索,主講人是南京大學的馬展教授。

一、課題背景

首先說下課題的背景,平時手機、電腦等網路裝置接收資訊的準確性和及時性都與實時通訊有關,以實時影片通訊為例,我們不可能一直保證網路的全時穩定,此時,弱網環境的存在會對提高傳輸質量起到重要的作用。

引用官方的解釋就是:弱網環境長期存在,特別在很多關乎到生活、生產乃至生命的關鍵時刻,通訊網路往往受到極大的物理條件限制,如海事作業、應急救災、高併發場景等。因此我們更加需要探索新理論新方法來有效的分析、精準的建模、準確的預判,以期實現弱網極限環境下(如極低頻寬 <50kbps, 極不穩定網路抖動,極大時延等)的高質量實時影片通訊。

馬教授先介紹了一下他自己關於影片處理方向研究了大概十七年左右,目前主要在做兩個方面的工作,一方面是關於資訊採集的,另一方面是利用類似人臉識別、車流識別、智慧交通等技術進行影片處理,面向人的這樣的一個重建。

二、弱網下極限影片通訊是什麼?

引入弱網

弱網和常規的網際網路不一樣,常規的網際網路從目前極限的角度來看,已經是相當的不錯。而比如說無論是直播也好還是點播也好,不管從訊號處理的角度、影片壓縮的角度還是從網路的角度,網路的裝置已經能夠滿足高清超高清,甚至更多。但是遇到大規模泥石流等情況,基站無法使用;如果是在海事上,只能用的是通訊衛星。但是我們又需要實時的、及時的、準確的掌握線上環境,此時研究一種極限影片框架就顯得十分重要,也就是弱網。

三、極限通訊的架構設計和優勢

三個方面

一、 從最基本的這樣的一些工程設計的角度出發,能夠真正全部走向 資料移動

利用原來的方法進行資料驅動,類似於阿爾法狗-圍棋,它裡面用了強化學習。把強化學習用到去控制網路頻寬,去控制我們複雜的像影片編解碼器這樣的一些引數。相對應來說,這些網路的這些引數和編輯碼引數都是數字。所以如果我們通過經驗性的去設計他這個,心裡可能永遠是有一個瓶頸的。

二、那第二個就是 經驗型的設計 ,從資料驅動更進一步走到智慧化。

馬教授在這裡取了個標題,叫從 阿爾法 go 到阿爾法 zero 。說到阿爾法狗在設計的時候,他會為了很多這樣的做一個簡單的起步,但是到阿爾法 zero 他就會根據自己的這樣的模式從最初始的狀態,然後慢慢學習。所以也提出了對於端到端的影片通訊,利用線上學習,能夠學到整個網路互聯當中不同的狀態。然後提供一個最新的線上學習的模型或者決策,要實現對單一使用者的個性化學習。

三、利用 影片中心 以及 資料通訊 的形式。結合影片內容或者影象的內容,讓通訊資訊本身在這個使用者的這個理解上,或者我們叫語義層面的這樣的一個內容理解上,真正從資料能走向人工智慧。相當於在感知中,即使影片丟了一幀或者影象有一些畫素的丟失,甚至有一些大塊的丟失,都可以通過一些補償的方法把它獲取回來。

四、智慧影片編碼

在影片訊號處理方面,我們怎麼樣通過有腦視覺啟發的這樣的一個神經網路的影片壓縮影片編碼處理或者這樣的一個更低位元速率的訊號處理?

影片壓縮它其實是一個非常類似於之前流水線結構的一個過程。從畫素然後到編碼端,從畫素到這個安置流,解碼呢從二進位制流到畫素,它其實是一個資訊化的流程。那麼這個資訊化流程下我們有一些新理論和新方法應該要發掘,應該繼續去探索的。

其中提到兩大系統,從 人的角度 來看的話,我們從視網膜然後到中間的這樣的。叫 optical nerve。然後再到這樣的一個外側膝雙層,最後到我們的大腦,我們叫初級視覺皮層。那麼這也是資訊的逐步的提取和感知理解。

在另一個角度下提出了要用這個 生物視覺或者老視覺 來啟發,利用最基本的 資訊流 ,從人眼感 3D 世界中進行網路成像。這樣的稱之為叫 for the pass way 到中間就是外側吸取底層,然後再通過不同的細胞到我們的初級皮層,再到裡面這個 aerial,然後這裡面每個部分它都有很多這樣的一個功能性。目前除了理論上的探索,我們稱為叫這個刺激性實驗,還有很多靈長類動物的這樣的一個解剖實驗。所以也從側面證明了這樣的資訊是怎麼樣的一個傳遞過程。

技術上的挑戰-複雜度

對於之前的一些影片影象的處理,其中有一個很關注的就是它的複雜度。它複雜度也是晶片設計到底能否實現的一個很重要的環節。

解決方案

提出了一個新的一種方法,就是我們能否把這個基於這樣一個腦視覺的這樣的一個模式能夠跟現在的傳統的這樣的一個影片壓縮能夠結合起來。這個主要有兩個原因,一般是從效能上的。在效能上的話,雖然說我們現在的影象壓縮已經超過了最新的國際標準。但是在影片聊天的時候,還有一定的路要走,同時的話就是目前應該有數十億的裝置。已有的這樣的一個超大數量存在。所以最有效的方法就是我們能否在這些已有的這樣的裝置上能夠通過一些簡單的改造能夠讓一些陳舊的資料得到啟發,在影片處理上能夠實實在在的用起來。

五、網路自適應傳輸

基於強化學習的影片位元速率自適應

問題描述及難點

網路的時延抖動會造成可用頻寬的實時變化。現有演算法主要為 VoD 場最/啟發式設計.實時場景中無法獲得未來影片資訊且不容忍較大緩衝

解決思路

1.設計高效魯棒的位元速率自適應演算法預測頻寬並動態調整影片編碼和傳送位元速率

2.實時位元速率自適應策略系統框架,通過歷史的影片流化經驗自動學習實時位元速率自適應演算法

後期根據學習國際化先進經驗,把這個用到了真正的實時系統裡面。然後用這個實時系在網際網路上的一個 any game 上進行了一個分散式學習。所以在這裡面我們提出了就是說離線的這樣的一個 adaptive time streaming。採集了很多這樣的一個網路垂直,也包括像歐洲,像其他實驗室給出來的,然後提出了一個網路反饋訊號的標準,其中進行了一個演化。

基於強化學習的影片位元速率自適應一演進

存在問題

1.離線訓練過程樣本受限

2.模擬環填與實際環境可能不符

3.考慮模型模型泛化效能帶來的效能損失

解決思路

1.網路狀況聚類和分類

2.影片內容服類和分類

3.針對網路狀況、影片分別訓練離線模型

4.線上模型調優進一步覆蓋未考慮到的環境狀況

六、端到端極限影片通訊演示平臺

做的兩個 demo。首先第一個就是跟 any game 做的就是目前整個的這樣的一個狀態,網路的感知以及這樣的一個雲遊戲。

DEMO-雲遊戲

另一個就是在用這樣的一個稱為叫雲中行,然後其實也是通過影片的形式把這樣的一個桌面能夠傳遞回來。

DEMO-遠端桌面

以上,就是本次筆記分享的全部內容,本次分享對應的影片內容,可以點選“ 這裡 ”進行觀看。