資料觀2017-09-15 20:43:12
近日,在清華大學舉辦的2017國際大資料產業技術創新高峰論壇上,百度副總裁、百度AI技術平臺體系總負責人兼百度研究院院長、國際計算語言學協會(Association for Computational Linguistics)前主席王海峰發表了《百度人工智慧》的主題演講,以下附PPT全文及詳解,供參看!
人工智慧是第四次工業革命
從18世紀開始,隨著技術的發展,以及需求的牽引,人類逐漸開始進入技術革命或工業革命。歷史上的工業革命有三次,可以大致歸納為第一次機械化革命、第二次電氣化革命和第三次的資訊化革命,而第四次工業革命則是以智慧化——人工智慧(Artificial Intelligence,英文縮寫為AI)——為標誌的。
回顧一下人工智慧的發展歷史,正式的起點是1956年的達特茅斯會議,誕生了AI這個概念。而在1956年之前,已經出現了至今仍然很熱門的一些人工智慧方向,例如機器翻譯、自然語言處理、計算機下棋、神經網路等等。而從AI誕生以來的60多年,人工智慧的發展起起落落,從圖中可見一斑。
過去10年,隨著深度學習的出現,更重要的是“資料井噴”,以及資料支撐的演算法和計算能力的突破,尤其是在語音、影象等領域,人工智慧再次迎來了發展的新機遇。而這一次的復興即將帶動整個社會產生深層次的變革,這是我們已經可預見的未來。這次人工智慧的爆發,在很大程度上是從網際網路開始的,而網際網路帶來了很多需求,包括搜尋、社交、購物等等。這些需求越來越多的線上化,同時帶動了資料的線上化。
資料真正線上化以後,也帶動了更多的演算法去處理這些資料,而需求和資料的線上化也帶動了整個生態的活躍,進而使越來越多的資料開放出來,依託更強大的計算平臺,結合更好的AI演算法,實現計算能力的突破。比如現在大家常用的GPU,利用深度學習、深度神經網路演算法,就有非常強大的優勢。大資料、演算法和大計算這三者儼然成為了人工智慧復興的必要條件。
百度人工智慧已經揚帆起航
百度從做搜尋開始,人工智慧的研究和發展已經有十幾年了,如自然語言處理基礎的分詞、短語分析等。而全面佈局人工智慧大概是在七、八年以前,逐步從NLP、語音、機器學習、影象等方面開始,時至今天,百度已經形成了一個較完整的人工智慧技術佈局,包括基礎層、感知層、認知層、平臺層、生態層和應用層,共計六層。
資料、演算法和計算平臺是基礎。感知層對應人的視覺、聽覺,這些能力是直接感知外界。認知層對應的是人類區別於其他生物特有的,比如人的語言能力、人類對知識的總結、理解、提煉、運用等等,以及對人的理解。AI的開放平臺不僅支援百度內部的應用還支援所有的合作伙伴,現已開放了60多個能力,在公司內部,每天大概有幾千億的呼叫量,而在外部也有數以億計的呼叫。在此基礎上,百度希望跟所有各行各業的合作伙伴一起打造技術的平臺,形成良性迴圈的生態,從而生長出各種各樣的創新應用。
百度從做網際網路To C(針對消費者)的產品到開始做大量支援To B(面向企業服務)的應用。這些都依賴於人工智慧技術佈局的實現。下面將對每層技術佈局的關鍵技術展開說明。
一、基礎層:大資料、演算法和大計算
現在每一個人每一天會產生非常多的資料,如個人的行為、生理狀態的變化,如果要監測、記錄的話,都有非常龐大的資料。況且,每一個人每天都在跟網際網路打交道,或者是自己建網站,或者向網上貢獻資料,甚至在使用網際網路過程中,也會產生很多資料。一定程度上,網際網路已經成為整個客觀世界的映象。所以,掌握好、利用好、分析好這些網際網路資料,在很大程度上也是對客觀世界很重要的刻畫和理解。
總體上,大資料技術分為幾個方面,比如資料的採集、提煉以及應用。如果對一個零售商店資料裡的使用者進行建模,某一個使用者可能是白領,另一個是主婦,這樣的行業資料經過分析就可以幫助商戶更好地進行營銷行為。另一方面,百度基礎的計算載體是資料中心,有20多個大型的資料中心,不只是在中國,在世界各地都設立了大資料中心,也有國內最大的GPU叢集,有非常強的頻寬和吞吐能力,還有像集裝箱一樣,模組化的計算中心。
二、感知層:語音、影象、視訊、AR/VR
語音技術的突破有很多方向,如識別、合成和喚醒,這是我們現在比較看重的,因為市場應用的需求很大。比如語音識別,已經達到97%以上的準確率。現在隨著人工智慧應用的深入,在家居場景、車載場景等等,越來越多的語音識別不是對著麥克風說,而是要有一定距離,這就涉及到遠場的語音識別。這與現在手機上的麥克風不一樣,首先會有定位,還有一系列新的技術待解決。合成想做得非常好,特別自然、流暢,而且可以是個性化的,包括把人的情緒變化等都帶進去,就變得非常難。
這裡不只是語音和聲學訊號處理問題,同時涉及到對語言的理解、對人的理解,這樣才能做出有情緒、個性化的合成。喚醒,是需要裝置的時候就叫一聲,它就知道你要跟它說話,比如家居場景的一個智慧音箱或者智慧電視,這時候就需要喚醒技術。喚醒技術的困難在於我們要控制誤喚醒,比如在家裡放一個智慧音箱,如果不叫它的時候,忽然之間它自己就跳起來了,或者睡覺的時候,有點外界噪音,它就忽然跳起來,體驗會很差。所以,控制住誤喚醒很重要也很有挑戰。
影象方面,人臉識別是計算機視覺的一個重要方向。人臉分為靜態和動態。靜態,如一張圖片,檢測裡面有沒有人臉,或者有兩張照片,比對一下兩處出現的是不是同一個人,這方面的準確率已經很高了。而識別動態影象的時候更復雜一點,比如有一段視訊,首先要定位這些人臉,而這裡會產生很多應用,比如在很長的視訊流裡找到一個人。
另外,我們可以對影象進行識別匹配,做語義的標註,粒度很細,如一幅圖裡很具體地找到其中一個部分是什麼,這裡可以做很多細粒度的影象識別。OCR是影象識別裡相對具體的方向,如清華也有OCR方向做得非常好的老師和課題組。現在OCR技術不僅可以掃描書,更可以識別一個表格或者一個很複雜的結構,如發票,不但把裡面的文字識別出來,還可以把一個區域識別出來的文字結構化,整體上會做很多定製化的識別。
視訊不同於影象有很多權威的資料集,視訊資料集本身還不夠成熟。視訊很多是人工標註好的,比如標題、內容,但是還有很多視訊人工標註不夠完善,這時候就需要視訊語義理解技術把這個視訊標註出來,包括這個視訊到底是哪一類,視訊的標題,如果相對長的視訊,就把其中亮點怎麼樣也摘錄出來。
機器人視覺涉及到怎麼樣做定位,做地圖的重建,包括檢測障礙物等等。領先的SLAM技術,有很多演算法。前面講的影象和視訊技術,在機器人視覺裡都會有應用。增強現實(AR/VR)是一個獨立的方向,但是跟視覺技術有很多關係,通常拍一個照片,會觸發出增強現實的效果,相應地會涉及到三維感知、跟蹤、渲染等技術。
三、認知層:自然語言處理、知識圖譜和使用者畫像
自然語言處理的範圍廣泛,如果細分的話,有很多子領域,較巨集觀地可劃分為語言的理解和生成,以及相應的應用系統。一方面要理解人的語言,另一方面要表達,能生成語言。比如,基本的分詞、短語分析,核心的解決思路就是做句法的分析和語義的理解或意圖的理解。如搜尋“想去一家寵物醫院,醫院附近要有停車位”。這是人的一種自然的表達,如果讓計算機能夠理解,就要把意圖提取出來,從很複雜的話中分析出其核心意圖,然後再去找相應的答案。
圖示:用傳統資訊檢索和搜尋演算法搜尋“蔣英的女兒是誰”和“蔣英是誰的女兒”,會找到同樣的答案,因為傳統的資訊檢索是不管語序的。這時候我們就要做真正的自然語言分析和理解,知道它們實際上是在找不同的答案。這背後是知識圖譜的支撐,大家可以看到結構化的圖文並茂的結果。
我們看一篇文章、一本書,這時候不僅僅是理解其中每一句話,而是對整篇文章有一個理解,就是篇章的理解。篇章的理解,可以把整個篇章打上主題標籤,打上各種實體標籤,而這些對計算機來講就是理解了這篇文章。在應用時,為了不同的應用,標籤會有不同的形式,如用在資訊流裡,打上這些標籤以後,就可以匹配使用者的興趣,從而推薦給使用者一篇他可能感興趣的文章。
除了理解句子、篇章、文字以外,人寫一句話、寫一首詩亦或寫一篇文章,都是帶有情感傾向的,所以相應地,我們也做情感傾向的分析,包括使用者看了一篇文章以後,下面有很多評論,這些評論本身我們也會做觀點的抽取。
除了分析、理解以外,還有生成。我們嘗試過寫詩、寫對聯等,比如在手機百度資訊流裡看到的文章,很多都是人寫的,但也有很大一部分是機器自動寫成的。我們做過各種測試,使用者基本上分辨不出來到底是人寫的還是機器寫的,這說明機器寫的還是很不錯的。其次,人要與智慧硬體展開互動,對話過程中涉及到對“人說的話”的理解和預測人如何說下一句話,相當於理解和生成兩方面都在用,這裡面就是對話管理以及互動的技術。
到目前為止,我們講的都是一種語言,都是中文,但“百度翻譯”是解決多語言問題的,在28種語言之間互譯,互譯的方向大概是700多個,每天有過億次的翻譯請求。同時也結合了語音技術、視覺技術,延伸出了語音會話翻譯、拍照翻譯等等應用。
人類幾千年傳承下來的知識,是人類能一步一步不斷向前進步的原動力,而做這些知識的累積和傳承很重要的載體是知識圖譜,知識圖譜裡面一些基本的單位,如實體,現在我們的知識圖譜已經有幾億個實體,每個實體會有很多屬性,實體與實體之間也會有很多關係,這些關係就構成很多事實,如A和B兩個人可能是老師和學生的關係,這就是一個事實,我們已經積累了幾千億事實。
知識不只是靜態的存取,而且涉及到知識計算和推理。比如,離聖誕節還有多少天,系統知道今天是哪一天,聖誕節是哪一天,系統會以此動態做一個計算。再比如,民航有一些規章,基於這些規章問一個問題,能不能“帶打火機上飛機”,系統會根據這些規章的規則,判斷這個問題的答案是“是”還是“否”。其次,我們要了解使用者本身的需求,所以對使用者畫像也是非常重要的方向。現在百度積累了非常豐富的使用者畫像,有非常多細分的標籤,如一個人可以從人口屬性、行為習慣、長期興趣、位置、短期意圖等五個維度去刻畫,形成初級的使用者畫像,構建個體模型。
四、平臺以及生態層
這一層更多集中在百度大腦(ai.baidu.com),完整的生態包括雲和端兩大部分。百度雲是很大的計算平臺,不只是百度可以用,而且開放給所有的合作伙伴,變成基礎的支撐平臺,上面有百度大腦的各種能力。同時還有一些垂直的解決方案,比如基於自然語言的人機互動的新一代作業系統,以及與智慧駕駛相關的Apollo。整車廠商可以呼叫其中他們需要的能力,汽車電子廠商也可以呼叫他們需要的相應能力,大家共建整個平臺和生態。
五、應用層
語音搜尋,是典型的在搜尋上引入一些AI能力之後的產品形態,這裡不是一個“語音識別+簡單的搜尋”,而是我們直接語音輸入我們想要的字的時候,如果出現多音字,如儷、莉,就會出現錯誤,但如果使用者說:“茉莉的莉”,語音糾錯就會自動修改成“莉”,然後找到使用者最終想要的答案。所以這就需要很多相關技術的支援。影象搜尋也是,我們做了很多影象搜尋相關的嘗試。
例如,找題很困難,很多學生做題,題裡有圖、有公式,想把內容輸入進去就很難,所以拍照就變成特別方便的方式,這裡就會結合OCR的技術,對影象做識別。智慧問答、個性化推薦等同樣是綜合了多種AI能力,如知識圖譜、NLP、使用者理解等,把答案或資訊更直觀、更有針對性地展現給使用者。除了網際網路應用,我們也在嘗試AI能力與各行各業的結合,如智慧客服、智慧機場等。
人工智慧正在成為這個時代技術變革的核心驅動力,AI在To B領域的滲入將會給各行各業帶來革命性的改變,也會對人們的日常生活產生巨大的影響。人工智慧應用廣泛,其實際作用絕不僅僅在網際網路,就像我們已經很難想象任何一個行業離開電該如何運轉一樣,人工智慧也會是新時代的電力。
可以預見,人工智慧必將無處不在。
附:百度雲沙龍推薦
百度雲零售大資料沙龍將於9月16日在京舉辦,本次沙龍以零售大資料為主題,邀請行業專家、百度大資料產品及百度雲營銷產品技術專家,共同討論和分享ABC時代下零售行業的大資料的應用和解決方案,同時還將就具體的案例和實踐進行展示和線下交流。
報名方式
• 報名網址:http://www.hdb.com/party/7shxb.html
• 報名入口:可直接點選下方“閱讀原文”進入報名頁面>>>
• 報名聯絡:餘女士 15007404056
注:本文係數據觀綜合自資料派THU,整理:朱玲,校對:呂豔芹,編輯:Fynlch(王培),資料觀微信公眾號(ID:cbdioreview) ,欲瞭解更多大資料行業相關資訊,可搜尋資料觀(中國大資料產業觀察網www.cbdio.com)進入檢視。
Editors' Picks 精選
↓點選標題或圖片進入閱讀↓
《國家各大資料綜合試驗區政策目錄彙編》(2017新/概覽/PPT) 重磅丨教育部公佈第二批“資料科學與大資料技術專業”獲批高校名單 《2017中國地方政府資料開放平臺報告》釋出(完整版PPT) 全國首個!《政府資料共享開放(貴陽)總體解決方案》通過評審 中國首個區塊鏈標準《區塊鏈 參考架構》釋出(附完整版PPT) 67頁PPT終於把大資料大趨勢講清楚了! 2017年國家大資料(貴州)綜合試驗區首批107家重點企業名單 國家大資料標準解讀(34頁PPT乾貨) 全國首部政府資料共享開放地方性法規誕生(誕生記+全文) 最新!高清!2017全球大資料產業版圖(全景圖+分割放大版+2016版回顧) 《大資料安全標準化白皮書(2017)》(全文) 《我國地方政府大資料發展規劃分析報告》釋出(完整版PPT)
《中國大資料發展調查報告(2017年)》釋出(完整版PPT) 首次寫入政府工作報告的“數字經濟”究竟是什麼(附白皮書PPT) 《2017大資料分析師能力模型與企業需求報告》(PPT全文) 《中國大資料發展報告(2017)》(完整版PPT) 《貴陽市大資料標準建設實施方案》印發(全文)
《工業大資料白皮書(2017版)》釋出(完整版PPT) 《貴陽區塊鏈發展和應用》白皮書(完整版PPT/附下載)
《貴州省大資料發展管理局主要職責內設機構和人員編制規定》印發(全文) 《大資料產業發展規劃(2016-2020年)》正式印發(附全文)
最詳細大資料專案落地路線圖實踐總結 《“十三五”國家資訊化規劃》釋出(關於大資料的都在這裡)
CCF:2017年大資料發展趨勢報告及解讀(附實錄+PPT+2016年預測回顧)