機器翻譯技術在位元組跳動的應用實踐丨線上直播免費報名

語言: CN / TW / HK

1024 程式設計師節,位元組跳動技術團隊謹祝各位開發者朋友節日快樂。學習是人類進步的階梯,如果你對位元組跳動的技術能力感興趣,不妨報名參加位元組跳動技術沙龍,本期主題——機器翻譯如何助力位元組跳動產品全球化。

位元組跳動在全球推出了多款有影響力的產品,包括今日頭條、抖音、西瓜視訊、飛書,等等,產品和服務覆蓋全球 150 個國家和地區。截至 2021 年 6 月,抖音日活躍使用者數已經突破 6 億,位元組跳動旗下全線產品總 MAU(月活躍使用者)超過 19 億。

圖片

一款全球化的產品,該如何衝破語言阻礙?將產品資訊快速傳達給不同語言背景的使用者,提升產品價值?這是產品全球化過程中需要解決的問題,而機器翻譯讓計算機替代人工實現語言翻譯,提升了內容的翻譯與轉化速度,大大推動產品與內容的全球化。

本期沙龍邀請到位元組跳動機器翻譯領域的技術專家許晶晶、封江濤、程善伯與熊鷹,他們將體系化地展示位元組跳動機器翻譯技術的全棧能力,特別是機器翻譯助力產品全球化的降本增效方案。例如,應用於火山翻譯等多個內部業務的訓練推理加速引擎 LightSeq、綠色機器翻譯詞表 VOLT,以及一體化的深度學習框架 ByCha。

除了展示機器翻譯在多領域中的應用現狀,講師們也將針對機器翻譯目前所面臨的挑戰進行分析,引導相關企業和從業者們發散思維,解決行業難題,幫助學習者與從業者推動機器翻譯技術的便利化和系統化,助力產品走向全球化道路。講師分享結束後,沙龍還將有圓桌主題會議和 QA 答疑,用沉浸式的體驗幫助開發者們深入行業,觸碰核心技術與關鍵問題,啟發進一步的思考與總結。

講師陣容

程善伯

程善伯畢業於南京大學,後加入位元組跳動人工智慧實驗室(AI Lab),負責多語言機器翻譯平臺的能力建設。他長期從事機器翻譯相關演算法的研究與業務應用,先後 3 次獲得國際權威全球機器翻譯大賽的多項冠軍,並曾在 ACL,EMNLP,NAACL 等會議上發表多篇論文。

機器翻譯具有重要巨大的應用價值,無需人工的自然語言翻譯可以大大提升產品全球化的效率、實現內容和應用的高效調整與切換。但是機器翻譯現有的發展仍不夠系統與便利,機器翻譯的應用仍面臨著巨大的挑戰。作為機器學習與自然語言計算的經驗者,程善伯將帶領我們瞭解機器翻譯的現狀、介紹機器翻譯的可應用場景,從而引發我們對機器翻譯的挑戰和未來發展方向的思考。

封江濤

封江濤畢業於復旦大學,後加入位元組跳動,主要從事於文字生成技術的研究和應用工作,致力於推動文字生成研究工作的落地。他曾在 IJCAI、AAAI、EMNLP 上發表多篇論文。

近年來,自然語言處理得到了可觀的進步,被投入到更廣闊生產生活中。但是以現在的研究工作,自然語言處理並不能高效地遷移到實際的業務中。封江濤將介紹一款“從研究到落地”的一體化深度學習框架 ByCha,旨在更加便捷地推動前沿工作落地、提升深度學習演算法的開發效率。通過講座內容,參與者能夠了解深度學習訓練框架的設計架構,同時基於對 ByCha 的學習理解,能夠更方便地進行深度學習模型的開發。

許晶晶

許晶晶是位元組跳動人工智慧實驗室(AI Lab)研究員,在機器學習與自然語言計算方面有著豐富經驗,曾在國內外知名學術會議上發表過超過 30 篇頂級論文。

在 2021 年的 ACL( Association for Computational Linguistics)上,位元組跳動摘得唯一一篇最佳論文桂冠。這是 ACL 成立 59 年以來,中國科學家團隊第 2 次摘得最高獎項。作為論文的第一作者,許晶晶提出了一種全新的詞表學習方案 VOLT,在實現同樣效果的前提下,降低模型複雜度、節省算力資源與電能消耗,從而促進 AI 產業節能環保。在效率方面,相比主流詞表,VOLT 展現了在不同場景中找到最優詞表的出色效能,大幅縮短了詞表搜尋時間。這期沙龍中,她將向我們介紹綠色詞表的相關背景、展示 VOLT 核心原理,以及如何衡量詞表和尋找最優詞表。通過她的講解,參與者能夠掌握 VOLT 的核心原理,並進一步瞭解機器翻譯詞表學習的現狀。

熊鷹

熊鷹是位元組跳動人工智慧實驗室(AI Lab)資深演算法工程師,從事自然語言處理相關的演算法工作,參與開發 Lightseq 開源專案。在文字生成、機器翻譯、高效能運算與模型壓縮有著豐富的經驗。

Transformer 是當前眾多 NLP 任務以及部分 CV 任務的主流模型,但由於硬體資源匱乏,在大型模型的訓練中存在效率限制。針對這一問題,位元組跳動推出了 LightSeq 加速引擎。該引擎優化了 Transformer 訓練的計算過程,實現了處理速度的大提升,並被應用於位元組跳動的火山翻譯、搜尋、廣告、推薦、教育、電商等多個內部業務,在開源社群獲得大量關注。熊鷹將分享 LightSeq 高效能訓練與推理背後的技術原理,並詳細介紹使用方法,從學術研究和工業應用的角度,給予從業者幫助和啟發。

日程安排

圖片

目前,技術沙龍免費對外開放報名中,掃描上圖二維碼 即可免費報名,一起探祕“機器翻譯”在位元組跳動產品裡的應用!

沙龍介紹

位元組跳動技術沙龍,是由位元組跳動技術社群 ByteTech 發起的,面向全行業開發者的技術交流活動。通過搭建一個包容、開放、自由的交流平臺,促進前沿技術的普及與落地,幫助技術團隊和開發者快速成長。位元組跳動技術沙龍的技術分享來源於位元組跳動及網際網路一線大廠任職的技術專家,針對熱點技術方向和實踐總結,為技術團隊和開發者呈現一場場可供參考的技術盛宴。