漫畫翻譯、嵌字 AI,東京大學論文被 AAAI’21 收錄

語言: CN / TW / HK


來源:HyperAI超神經

本文約2000字,建議閱讀5分鐘為你介紹一項關於漫畫文字自動翻譯的研究專案。

關鍵詞:機器翻譯 情感識別 漫畫 AI

內容概要:一項關於漫畫文字自動翻譯的研究,引發了熱議,由兩位東京大學博士組成的 Mantra 團隊釋出了一篇論文,目前已被 AAAI 2021 收錄,該 Mantra 專案旨在為日本漫畫提供自動化的機器翻譯工具。

最近,由東京大學 Mantra 團隊、雅虎(日本)等機構聯合釋出的《Towards Fully Automated Manga Translation 實現漫畫全自動翻譯》(論文地址https://arxiv.org/abs/2012.14271)論文,引發了學界和二次元界的關注。


如圖所示:左一為日文原版,

自動化輸出英文版(右二)和中文版(右一)

Mantra 團隊成功地實現了將漫畫的中的對話、氣氛詞、標籤等文字自動識別,並做到了區分角色、聯絡上下文,最後將翻譯文字準確替換、嵌入氣泡區域。

有了這個翻譯神器,估計翻譯組、追漫的小夥伴們都該偷著樂了。

發論文、公開資料集、商業化一條龍

在科研方面,目前該篇論文已經被 AAAI 2021 接收,研究團隊還開源了一個包含五部不同風格(幻想、愛情、戰鬥、懸疑、生活)的漫畫,所組成的翻譯評估資料集。

OpenMantra 漫畫翻譯評估資料集

論文地址:https://arxiv.org/abs/2012.14271

資料格式:帶註釋的 JSON 檔案和原始影象

資料內容:1593 個句子、848 個場景、214 頁漫畫

資料大小:36.8 MB

更新時間:2020 年 12 月 7 日

下載地址:https://hyper.ai/datasets/14137

在產品化方面,Mantra 計劃上線封裝好的自動翻譯引擎,不僅面向出版社提供漫畫的自動化翻譯與發行服務,也會發布面向個人使用者的服務。

下面是我們從 Mantra 官方推特上選取的日漫《周邊男子》的部分翻譯成果,這部多格、輕耽美風格的漫畫,以生活常用的數碼裝置擬人化為背景,充滿歡樂與基情:

滑動檢視《周邊男子》日文原版

及自動化機器翻譯的中英文版本

識別、翻譯、嵌字,一步也不能少

具體的實現步驟,Mantra 研究團隊在論文《Towards Fully Automated Manga Translation 實現漫畫全自動翻譯》中進行了詳細的解釋。

第一步 定位文字 

在實現漫畫自動化翻譯的第一步,就是提取文字區域。

但由於漫畫的特殊性,來自不同角色的對話、效果擬聲詞、文字標註等等,都會展現在一幅漫畫圖片裡,漫畫師會用氣泡、不同的字型、誇張的字型來展現不同效果的文字。

漫畫中的手繪、異形文字的識別成為了難點

研究團隊發現,由於漫畫中的這些各種字型和手繪樣式,即使使用最先進的OCR 系統(例如 Google Cloud Vision API),在漫畫文字上的表現很不理想。

因此,團隊開發了針對漫畫優化的文字識別模組,通過檢測文字行和識別每個文字行的字元來實現對異形文字的識別。

第二步 內容識別 

在漫畫中,最常見的文字就是角色之間的對話,對話文字氣泡還會被切割成多塊。

這就要求自動化機器翻譯需要準確區分角色,還得聯絡上下文注意主語的銜接、避免重複,這都對機器翻譯提出了更高的要求。

點選放大檢視場景分類、文字順序和情感識別流程

在這一步中,要通過上下文感知、情感識別等方式來實現,在上下文感知中,Mantra 團隊用了文字分組、文字閱讀順序、提取視覺語義三種方式,實現了多模態的上下文感知。

第三步 自動嵌字 

Mantra 這一自動化引擎,不僅能夠區分角色、聯絡上下文準確翻譯以外,還很好地解決了漫畫翻譯中的耗時最久、人力成本最高的環節——嵌字。

在嵌字這一環節中,首先要擦除嵌字區域,再進行嵌字,由於日文、中文、英文字元的形態、拼寫、組合、連讀方式都不一樣,所以這一環節的難度也尤其大。

在這一步中,需要進行:頁面匹配→檢測文字框→文字氣泡的畫素統計→拆分連線的氣泡→語言間的對齊→文字識別→上下文提取。

實驗: 資料集與模型測試 

在論文中的實驗部分,Mantra 團隊提到目前並沒有包含多種語言的漫畫資料集,所以他們建立了 OpenMantra(已開源) 和 PubManga 資料集,其中OpenMantra 用於評估機器翻譯,包含 1593 個句子、848 個場景畫面和 214 頁漫畫,Mantra 團隊已經請專業翻譯人員將資料集翻譯成英文和中文。

OpenMantra 漫畫翻譯評估資料集

(同上文)

論文地址:https://arxiv.org/abs/2012.14271

資料格式:帶註釋的 JSON 檔案和原始影象

資料內容:1593 個句子、848 個場景、214 頁漫畫

資料大小:36.8 MB

更新時間:2020 年 12 月 7 日

下載地址:https://hyper.ai/datasets/14137

PubManga 資料集用於評估構建的語料庫,該資料集包含註釋:1)文字和框架的邊框;2)日語和英語的文字(字元序列);3)框架和文字的閱讀順序。

為了訓練模型,團隊準備了 842097 對日文、英文版的漫畫頁面,共 3979205 對日語-英語的句子。具體的方法可以閱讀論文,最終的模型效果評估由人工完成,Mantra 團隊邀請了五位專業的日文-英文翻譯人員,以專業的翻譯評估程式給句子打分。

專案背後:有趣的靈魂一起學習

目前該篇論文已經被 AAAI 2021 收錄,產品化的工作也在穩步推進中,從 Mantra 團隊的推特中,我們看到已經有不少漫畫成功使用了 Mantra 進行自動化機器翻譯。

這樣的寶藏專案,是由兩位東京大學的博士生完成的,CEO石和祥之介 (Shonosuke Ishiwatari),CTO 日南涼太(Ryota Hinami) 同在東京大學博士畢業,在 2020 年創立了 Mantra 團隊。

Mantra CEO 石和祥之介(左)和 CTO 日南涼太(右)

CEO 石和祥之介,是東京大學資訊科學系本科 2010 級入學,博士畢業於 2019 年。他主要專注於自然語言處理領域的研究和開發,包括機器翻譯和字典生成,也是本篇論文的第二作者。

值得一提的是,石和祥之介的研究經驗豐富,不僅曾經在 CMU 交流訪學,還曾於 2016-17 年在位於北京的微軟亞洲研究院實習半年,當時他在MSRA 首席研究員劉樹傑團隊從事 NLC (Natural Language Computing)  自然語言計算的研究。

CTO 日南涼太石和祥之介同年入學,專注於影象識別領域。在 2016-17 年同期和石和祥之介,一同在微軟亞洲研究院實習。

這樣的一對技能互補的小夥伴,完成了 Mantra 的大部分工作,是不是從髮量到成果都很讓人羨慕呢?

如果想了解更多關於 Mantra 的資訊,大家可以訪問論文(https://arxiv.org/abs/2012.14271)、專案官網(https://mantra.co.jp/)或下載資料集(https://hyper.ai/datasets/14137),進行進一步研究。

編輯:於騰凱

校對:林亦霖