IS 2022 | 字節AI Lab聯合南科大提出:利用偽標註數據提升端到端S2ST

語言: CN / TW / HK

本站內容均來自興趣收集,如不慎侵害的您的相關權益,請留言告知,我們將盡快刪除.謝謝.

互聯網的極速發展使得世界各地可以更加緊密地進行商務及日常交流,然而語言不通使得這樣的交流產生了壁壘。  機器翻譯的研究致力於打破不同語言使用者交流的壁壘,追求更流暢的溝通。 文本翻譯一直是機器翻譯的主要工作方向,然而現在的信息表達方式更加多樣化,單純文本的翻譯難以滿足多樣化的場景需求。 語音是人類日常交流中的主要信息載體,語音到語音的翻譯 (Speech-to-speech Translation, S2ST) 可以幫助人們更加自然高效地交流。 在很多場景下,語音到語音的翻譯可以提升交流體驗感,例如: 視頻直播、國外旅遊、國際貿易等。

論文地址:

https://arxiv.org/pdf/2205.08993.pdf

代碼地址:

https://github.com/fengpeng-yue/speech-to-speech-translation

一、端到端語音到語音翻譯的現狀以及挑戰

語音到語音翻譯可以有兩種實現方式,一種是級聯語音識別、機器翻譯以及語音合成系統;另一種是端到端的方案: 採用一個模型直接把一種語言的語音翻譯合成為另一種語言的語音。 相比於級聯的方案,端到端的研究起步比較晚,並在近些年被Jia等人正式提出並驗證可行,該工作被稱為 Translatotron [1]。之後,Translatotron2[2]被提出以便提高預測語音的魯棒性,並在翻譯中保留源説話者的音色。另一方面,Lee提出在目標語音上採用離散單元 (discrete units)表示的方法[3],旨在為沒有文字的語言構建直接的S2ST系統。該方法不再預測連續的頻譜圖,而是預測從目標語音的自監督表示中學習的離散單元。文本數據可以在多任務學習框架下被使用,也可以不使用。此外,Lee等人提出了一種無文本 S2ST 系統[4],可以在沒有任何文本數據的情況下進行訓練。同時,它首次嘗試了採用真實世界的 S2ST 數據進行訓練來生成多説話人目標語音。

端到端的系統往往有更低的延時,同時能緩解級聯繫統中的誤差累計問題。相比於級聯繫統,數據量不足是端到端系統面臨的最大挑戰之一。利用偽標註數據在深度學習領域是一種十分有效的提升模型性能的方法,本文將為大家介紹一篇由字節跳動 AI-Lab 與南方科技大學共同發表在 InterSpeech 2022 上的文章 ——Leveraging Pseudo-labeled Data to Improve Direct Speech-to-Speech Translation[5]。

二、偽標註數據的使用方法

隨着工業和學術界的不斷積累,語音識別的開源數據量越來越多。我們可以將開源的語音識別數據中的文本經過機器翻譯系統翻譯到目標語言,再將目標語言的文本經過語音合成系統合成到目標語音,以此來構造偽標註的語音到語音的翻譯數據集。為了緩解端到端語音到語音翻譯數據量不足的問題,本文探索了三種利用 偽標註數據  (Pseudo Translation Labeling,PTL) 的方法:1、Pre-training and Fine-tuning,2、Mixed-tuning,3、Prompt-tuning。

1. Pre-training and Fine-tuning

在這個方法中,論文利用偽標註數據首先預訓練一個端到端的語音到語音翻譯的模型。然後利用真實數據在這個模型上進行微調。

2.  Mixed-tuning

相比於Pre-training and Fine-tuning,在微調階段除了採用真實數據,論文使用真實數據和偽標註數據一起微調模型。

3. Prompt-tuning

為了增強模型學習各種數據源之間差異的能力,論文采用 “預訓練、提示和預測” [6]範式。在預訓練的基礎上,將數據集的類別作為prompt,並在提示調整階段以預定義embedding的形式將其附加到每個樣本的輸入特徵中。通過明確的prompt,其可以在推理階段操縱模型適應不同源的數據。

三、實驗設置及性能分析

數據構造

論文中對西班牙語到英語 (Es->En) 和英語到中文 (En-Zh) 兩個語言對進行了實驗。前者屬於同一個語系,而後者屬於不同的語系。文中基於兩個Speech-to-text Translation (ST) 數據集:Fisher Spanish[7]和TedEn2Zh[8],使用內部語音合成系統從翻譯文本中合成目標語音來構造Speech-to-speech Translation (S2ST) 數據集。同時,論文采用語音識別數據集Gigaspeech[9]和multilingual LibriSpeech[10]中的西班牙語數據構造偽標註數據。其統計信息如下:

模型性能

其論文采用了Transformer-based Translatotron的模型結構,並對參數進行了細緻調優。在一個性能表現良好的baseline上,論文中的方法對不同語種BLEU評測都得到了有效的提升。在Fisher數據上其方法超過了之前報告的眾多方法。

方法比較

論文中比較了上述三種利用偽標註方法。當通過偽標記數據 (Method-I) 將預訓練應用於S2ST時,與基線相比,BLEU分數顯着提高。此外,基於預訓練,mix-tuning (Method-II) 在Fisher上提高了2.8 BLEU,在TedEn2Zh上提高了5.5 BLEU。如下表所示,兩種語言對中的原始數據和偽標註數據存在明顯的不匹配。Prompt-tuning (Method-III) 幫助模型區分不同的數據源,並且可以在兩種語言對上獲得進一步的收益。

主觀評測

為了進行人工評測,論文中使用Hifi-GAN[9]聲碼器從預測的頻譜圖合成音頻,並進行Mean Opinion Score (MOS) 測試以評估音頻的自然度。PTL的方法在MOS上的收益與BLEU一致。同時,PTL方法顯着提高了TedEn2Zh數據集上音頻的可理解性。

四、總結

今天為大家介紹了InterSpeech 2022上關於利用偽標註數據提升端到端S2ST的論文。該工作嘗試採用了三種不同的方式利用偽標註數據,最終prompt-tuning是最為有效的。實驗表明,模型的BLEU和MOS評測性能都得到了顯着提升。

參考文獻

[1]. Jia, Ye and Weiss, Ron J and Biadsy, Fadi and Macherey, Wolfgang and Johnson, Melvin and Chen, Zhifeng and Wu, Yonghui, “Direct Speech-to-Speech Translation with a Sequence-to-Sequence Model,” in Proc. Interspeech 2019, 2019, pp. 1123–1127.

[2]. Jia, Ye and Ramanovich, Michelle Tadmor and Remez, Tal and Pomerantz, Roi. Translatotron 2: Robust direct speech-to-speech translation arXiv preprint arXiv:2107.08661, 2021.

[3]. Lee, Ann and Chen, Peng-Jen and Wang, Changhan and Gu, Jiatao and Ma, Xutai and Polyak, Adam and Adi, Yossi and He, Qing and Tang, Yun and Pino, Juan et al., “Direct speech-to-speech translation with discrete units,” arXiv preprint arXiv:2107.05604, 2021.

[4]. Lee, Ann and Gong, Hongyu and Duquenne, Paul-Ambroise and Schwenk, Holger and Chen, Peng-Jen and Wang, Changhan and Popuri, Sravya and Pino, Juan and Gu, Jiatao and Hsu, Wei-Ning,. Textless speech-to-speech translation on real data,” arXiv preprint arXiv:2112.08352, 2021

[5]. Qianqian Dong and Fengpeng Yue, Tom ko and Mingxuan Wang, Qibing Bai and Yu Zhang. “Leveraging Pseudo-labeled Data to Improve Direct Speech-to-Speech Translation”, arXiv preprint arXiv:2205.08993, 2022.

[6]. Liu, Pengfei and Yuan, Weizhe and Fu, Jinlan and Jiang, Zhengbao and Hayashi, Hiroaki and Neubig, Graham. “Pre-train, prompt, and predict: A systematic survey of prompting methods in natural language processing,” arXiv preprint arXiv:2107.13586, 2021

[7]. Post, Matt and Kumar, Gaurav and Lopez, Adam and Karakos, Damianos and Callison-Burch, Chris and Khudanpur, Sanjeev. “Improved speech-to-text translation with the fisher and callhome spanish-english speech translation corpus,” in Proceedings of the 10th International Workshop on Spoken Language Translation: Papers, 2013.

[8]. Liu, Yuchen and Xiong, Hao and Zhang, Jiajun and He, Zhongjun and Wu, Hua and Wang, Haifeng and Zong, Chengqing. “End-to-end speech translation with knowledge distil-

lation,” Proc. Interspeech 2019, pp. 1128–1132, 2019.

[9]. Kong, Jungil and Kim, Jaehyeon and Bae, Jaekyoung. “Hifi-gan: Generative adversarial net-

works for efficient and high fidelity speech synthesis,” Advances in Neural Information Processing Systems, vol. 33, pp. 17 022–17 033, 2020.

作者:嶽鳳鵬

Illustration  b y Dani Grapevine   from icon s8

-The End-