【論文筆記】多模態情感計算:AI如何分析你的生理情緒(上)

語言: CN / TW / HK

這是我參與2022首次更文挑戰的第40天,活動詳情檢視:2022首次更文挑戰

本文是 ACM MM 2021 的一篇 Workshop 論文,作者來自中國人民大學。
原文連結:Multimodal Fusion Strategies for Physiological-emotion Analysis

Motivation

生理情緒是人真實的情緒狀態,不會因為人有意識地掩蓋情緒而改變。這篇論文面向 2021 年 MuSe-Physio 子挑戰——一個多模態情感分析任務,目的是在高度緊張的自由演講場景下,利用組合的視聽訊號和受試者的面板電反應預測生理情緒。而過去的多模態情感分析主要利用聲音、文字和視覺資訊,但這些資訊對於不同的人差別很大,而且容易被掩飾。從感測器收集的生理訊號可以揭示人類的真實情緒狀態,比如面板的導電性(EDA),面板出汗導電性會增加。因此,作者希望設計一種多模態融合策略來綜合利用這些資訊進行情感分析。

image.png

Method

作者主要利用語音、視覺、文字和生理四個模態的資訊,先用不同的方法從這些模態中提取出各類特徵,然後提出了兩種多模態融合策略:Feature-level 融合和 Pred-level 融合。在 Feature-level 融合策略中,作者將所有型別的多模態特徵連線起來,並使用LSTM來捕獲長期的時間資訊;在 Pre-level 融合策略中,作者提出了一種兩階段的訓練策略。

Model

模型整體結構如下,Xj 為視訊的第 j 段,y 為情緒標籤,A, V, L, P 分別指音訊、視覺、語言和生理訊號四種模式。

image.png

Multi-modal Features

語音中的發音、語調和語氣,面部表情,以及視覺中的肢體動作,語音的文字內容都可以在一定程度上表達說話者的內心情感。低階特徵和高階特徵都很重要。作者提取了四種特徵作為輸入,如下:

  • Text Features:作者用預訓練語言模型來從文字中提取特徵,然後把視訊段內的這些詞嵌入進行平均作為段級特徵;
  • Acoustic Features:作者用幾個不同的預訓練模型如 DeepSpectrum、Wav2Vec 等來提取音訊的低層次情感特徵和聲學特徵,然後對這些特徵分別進行下采樣得到段級特徵;
  • Visual Features:作者用 DenseFace 和 VGGFace 來捕捉說話人的面部表情特徵作為高階特徵,用 OpenFace、GazePattern和 OpenPose 來分別提取面部動作單元(FAU)、目光和頭部姿勢作為低階面部表情特徵,對於 OpenPose 用 500ms 內每一幀的座標的平均值作為段級特徵;
  • Physiological Feature:對於生理特徵,包括心率(BPM)、呼吸(RESP)和心電圖(ECG),作者通過 Z-score 歸一化將這些特徵歸一化。

Feature-level Fusion

對於不同模態的輸入特徵,作者先將他們拼接在一起,然後投影到一個嵌入空間,然後用 LSTM 來提取情緒資訊的當前上下文,用 MSE 作為 loss 來訓練。

image.png

Pred-level Fusion

第一階段,在每個模態特徵集上獨立訓練模型。在第二階段,作者將每個模態的預測值串聯起來,並將其傳送到一個獨立的 LSTM 來捕捉模態間的資訊。注意兩次融合是分別訓練的。

image.png


那麼結果怎麼樣呢?下期見分曉 (●'◡'●)~

下期內容:【論文筆記】多模態情感計算:AI如何分析你的生理情緒(下) - 掘金 (juejin.cn)