科學匠人|白靜:擁抱變化,不斷髮現電腦科學中的新天地

語言: CN / TW / HK

(本文閱讀時間:11分鐘)

編者按:在計算機領域,研究與產品的關係往往十分微妙。一方面,二者相輔相成、互相推動;另一方面,它們追求的目標又不盡相同——產品需要精確的 KPI 及短期落地目標,研究則更注重巨集觀的、長期的影響力。今天科學匠人的主人公,微軟亞洲研究院首席研究員白靜博士在產品與研究領域都深耕多年,她希望自己的研究能成為這兩個領域之間融會貫通的紐帶。在她看來,讓研究成果與產品產生共振,進而推動彼此進化,是研究的價值所在。

從蒙特利爾大學博士期間從事資訊檢索(IR)和自然語言處理(NLP)的研究,到加入微軟矽谷研發中心推動多個重要產品落地,再到微軟亞洲研究院帶領系統和演算法等新領域的研究,微軟亞洲研究院首席研究員白靜的職業經歷看似是“研究-產品-研究”的輪迴,但實際上卻是她在電腦科學領域的不斷“ 螺旋上升 ”。每一次轉型,她都將自己的工作惠及更多產品和使用者——無論是將創新研究轉化為使用者最滿意的產品,還是以產品需求為驅動力投身於研究,都是如此。

微軟亞洲研究院首席研究員白靜

從全域性和長遠視角做研究,創造全新機會不斷激發產品潛力

2019年,白靜從微軟 Azure AI 團隊加入了微軟亞洲研究院。 儘管此前她在 Azure AI 和微軟必應(Bing)團隊潛心研究機器學習和自然語言處理,但這次她希望挑戰業界還未深入涉足並且能在微軟產品中獲得充分應用的領域——圖深度學習(Graph Learning)。 對於一直喜歡挑戰未知的白靜來說,這是一個足夠“新”,且成果值得期待的領域。

“當時深度學習技術已經很流行了,但大多被應用於自然語言處理、計算機視覺等領域,在圖學習領域還沒有被廣泛使用。微軟的許多產品都與圖相關,該如何將機器學習的熱門技術應用到圖領域,進而提高微軟產品的效能和效率?”這是白靜初入微軟亞洲研究院時就在思考的問題。

在白靜看來,圖(Graph)作為一種通用資料結構,可以清晰地表現出多個元素之間的有機關聯。在微軟的很多產品中,圖有著豐富的應用場景,例如 Office 的企業圖譜中,使用者與繁多的會議、文件、郵件之間的關聯;領英(LinkedIn)的社交網路中,複雜的社交關係和給求職者的職位推薦;Ads 廣告業務中,廣告主與受眾需求、點選預測、關鍵詞之間的關係,以及大規模知識圖譜等,這些隱藏在眾多產品中的有機關聯,在廣義上都是圖結構。

2019年底,在微軟亞洲研究院院長周禮棟的協助下,白靜團隊主導並在微軟公司內部成立了圖神經網路工作組,為公司提供了一個從研究到產品的全域性視野平臺,以及和圖學習相關的工具、演算法,便於研究、產品、工程團隊的跨部門協作、溝通和知識共享,從而提升圖學習效率,促進系統和演算法的研究創新。這一工作組的構建結束了各部門圖深度學習研究和應用“各自為戰”的局面,將“百花齊放”的演算法統一在一個高效的平臺上,不僅有利於激盪新思路,找到正確的研究方向,推動大規模的圖學習應用和技術進步,還能將圖學習演算法上的創新成果快速迭代應用在相關的產品中。

兩年來,白靜與公司多個部門合作創新圖深度學習演算法,探索適合的應用場景。她帶領團隊與微軟廣告、Office、Azure 及 LinkedIn 等多個團隊展開積極的合作,並將圖學習演算法應用到不同的產品中,提高了多個產品的運營效率,給公司業務帶來了直接的商業效益。她說,“我們希望通過這些合作來帶動核心研究,進一步提升平臺和演算法的效能和效率,繼而推動全公司更大規模的產品和應用,而不只是某個單一產品。”

圖深度學習及其應用的全域性展示

雖然研究創新的最終目標之一是服務於產品,但是在“研究—產品—研究”的迭代中,白靜認為, 相比於產品快速落地的訴求,研究需要有長遠和全域性視角 。她說,“每個產品的需求不盡相同,而我們做研究是希望儘可能把全公司的產品都推動起來,建立一個系統性的長期規劃,這正是做研究和做產品的區別。”而這也是白靜選擇加入微軟亞洲研究院的主要原因,“我希望可以從更廣闊和長遠的視角來思考研究問題,從個性化的產品需求中抽象出共性問題,從更底層賦能眾多產品的研發和最終成果。”

深入一線的科研人員如何理解研究與產品之間的聯絡

白靜對於研究與產品間相輔相成關係的深刻認識,來自於她多年在這兩方角色轉換的切身體會和經驗積累。 如何跳脫固有的思維框架,站在更加全域性的角度思考問題並非易事。

在蒙特利爾大學獲得電腦科學博士學位後,白靜被矽谷多元開放的文化和創新熱情所吸引,同時她也希望可以將自己的研究成果轉化到產品中,服務千萬使用者。懷揣這樣的理想,白靜在2010年加入了微軟矽谷研發中心,任職高階研究科學家。彼時微軟正佈局拓展搜尋引擎業務,而白靜的研究方向正好是資訊檢索,這讓她的研究有了用武之地。

也是在這一時期,白靜與微軟中國團隊“結緣”。2012年她受邀參與了新一代搜尋引擎系統的研發工作,新系統採用了全新的網頁索引結構和系統設計。作為微軟必應搜尋相關性的主要貢獻者之一,白靜敏銳地發現學術界前沿的諸多語義檢索方法可以賦能新系統,從而給搜尋相關性帶來突破性創新,而這正是傳統搜尋引擎所不具備的。由此,她為微軟必應開創了全新的語法語義搜尋演算法框架(Semantic Ranking Framework),並研發出了基於 PDI(Per Document Index)正排前瞻索引的一系列大規模語義模型,實現了全文語義檢索,進而顯著提高了必應搜尋結果的相關性。此後多年,這項成果一直都是提升搜尋相關性的最有效技術之一,許多相關模型應運而生。該專案也受到當時多位微軟公司高管的高度評價,並通過微軟的產品服務於上億使用者,同時還獲得了多項國際專利。

語義搜尋演算法框架

在實現了全文語義檢索的基礎上,白靜進一步思考能否通過更精確的使用者意圖分析,讓搜尋引擎直接給使用者提供想要的答案,而不僅是列出相關網頁連結。為了實現這一目標,她提出了深度搜索的構想,利用網際網路動態資訊和人工智慧演算法直接生成使用者滿意的答案。這個想法得到了當時微軟全球執行副總裁陸奇的支援,一個新專案由此誕生。由於原演算法的搜尋結果包含的網頁數量巨大,再去檢索網頁中相關度更高的資訊,搜尋空間會呈指數級增長。為了解決如何從海量的網頁中匹配出使用者需求這一問題,白靜和團隊首創了基於全網的大規模段落檢索系統(Web-scale Passage Retrieval System),大膽地引入和改進了學術界前沿的研究成果,實現了從網路內容中直接生成搜尋答案的目標,並推動了該系統在微軟必應中的成功運用。該系統的上線開創了微軟搜尋引擎智慧化的新方向,這項成果也成為了必應 AI 計劃的第一個重要里程碑。

基於全網的大規模段落檢索系統

隨著計算機技術的不斷髮展,雲端計算和 AI 時代的到來吸引白靜加入了微軟 Azure AI 團隊,迎接一個新的挑戰——如何利用 AI 技術自動設計出更高效的深度學習模型。她帶領團隊與微軟雷德蒙研究院合作,研發了 Azure 第一個適用於機器學習模型的自動化超參調優產品“HyperDrive”。該系統可以將使用者從手工調參的繁瑣工作中解放出來。正式上線僅半年,“HyperDrive”就成為了當時 Azure ML 中流量最大的產品,服務於第一方和第三方使用者,在智慧性和通用性上都處於業界領先地位。

在這幾個重要產品的研發過程中,白靜的工作都聚焦在產品與研究的有機結合,這讓她更加深刻地理解到研究與產品之間的關聯和差異。她認為 產品和研究各有樂趣,“好比蓋房子,產品開發可以聚焦在房子的具體建造,不同的產品部門分工合作,各自將某個房間或區域性打造到極致,確保其準確和穩定,卻往往沒有很多機會跳出來思考;而研究工作則可以從全域性視角思考整個房子的設計和構建,實現不同佈局之間的融會貫通,甚至可以開創超越傳統的設計,這樣才能提供超出使用者想象的最佳體驗。”

“其實,從研究到產品不只是簡單的產品落地,更多的時候需要從產品的角度重新審視研究成果,看它們能否給產品帶來預期的效果。這需要我們結合研究和產品開發的雙重洞察力,從多個不同視角和維度去思考問題,並不斷積極主動地尋求解決問題的方案,”白靜說。正是這種研究和產品有機結合所產生的獨特價值激發了白靜的熱情,使她在工作中保持著極大的好奇心。她相信研究和產品應該相互推動彼此進化,只有將它們很好地融合在一起才能使效益最大化。

電腦科學的常態是變化,這是它最具吸引力的所在

如今,在微軟亞洲研究院包容、開放、多元的研究氛圍中,白靜有了更大的施展空間,雖然工作重點從產品開發變成了科研創新,但對如何讓研究產生更大價值的追求始終如一。她想讓自己變成研究與產品之間的紐帶,既可以沉浸於抽象、共性課題的研究,也可以與不同產品組合作進行成果轉化。

過往專案的成功經驗讓白靜深切體會到了跨團隊、跨領域合作的優勢,她清楚地看到,“ 團隊合作的本質就是優勢互補,創造雙贏局面 ,從而達到事半功倍,1+1>2的效果。只有集思廣益,突破傳統的思維和認識,才能不斷地實現跨界創新。”現在以研究員的視角與產品組合作,白靜會更多地鼓勵團隊做核心技術的研究,用開創性思維拓展技術的邊界,be bold and be creative(大膽創新),從不同的角度提供新鮮的靈感,給產品帶來本質的提升,從而更好地激發產品組合作的積極性。

從搜尋引擎到 AI,再到圖深度學習,每一次的崗位變換都是在尋求新的挑戰並不斷超越自己,但白靜並沒有感到走出“舒適圈”的迷茫與困惑,反而更多地增加了探索新領域的新鮮感與好奇心。對此她表示,“不要抵觸對新領域的陌生感,因為過往沉澱的方法與經驗,可以讓你快速適應變化。就像計算機知識會過時,但其核心和本質卻萬變不離其宗,比如過去我們研究了多年的 NLP,儘管現在有了 BERT、GPT 等新技術,但是我們之前積累起來的研究方法依然有效。”

在白靜看來, 電腦科學的常態就是變化,而這也是它最具吸引力的地方 。就像業餘時間,她喜歡通過旅行見識不同的文化和風景,新的變化帶給白靜的是新的景觀和由此而激發出來的新的熱情和動力。“在電腦科學領域,你永遠不用擔心一直重複做同樣的事情。因為這裡永遠不乏新鮮感,而且能深切體會到你是真的在改變人們的生活,”白靜說。

你也許還想看