我是智慧捏臉師,我把人類上傳到虛擬世界,也打開了AI的“眼睛”|新職業研究所

語言: CN / TW / HK

假如你可以定製自己的臉,你會製作出怎樣一張臉?如今,在形形色色的虛擬世界裡,人們都希望能擁有一個獨特的形象,無論是將自己還原,還是建立一個新角色。傳統提供固定臉部素材進行組合的捏臉方式,已經無法滿足使用者的差異化需求,人們不再希望和別人共有一張臉。

尤其在建立虛擬形象需求最集中的遊戲業界,隨著硬體配置不斷迭代,遊戲在畫面精細度和角色操控自由度方面越發強大,為了滿足玩家的個性化需求,一些遊戲開發商開始為玩家提供一整套自由度極高的“捏臉”系統,可以讓玩家根據自己的審美細化設定角色外觀,使遊戲體驗更加沉浸化。

不過,更加複雜的捏臉系統也帶來了更高的操作要求和審美要求,當面前擺著幾百個滑塊,人們卻不知道如何才能調製出自己想象中的形象。於是 智慧捏臉系統應運而生,只需要上傳你喜歡的形象的照片,就可以生成高度還原的3D虛擬角色,避免“遊戲五分鐘,捏臉兩小時”的麻煩。

捏臉技術不僅可以用於遊戲,也可以用於製造虛擬人,並應用於文旅、醫療等行業。而從元宇宙的視角來看,捏臉可能是元宇宙系統裡最基礎的專案,每個人都需要通過捏臉定製自己的虛擬形象,打造虛擬分身。

打造AI捏臉系統的智慧捏臉師,其實是人工智慧演算法工程師的一個方向,他們負責開發捏臉功能、訓練捏臉系統。智慧捏臉師既要會AI演算法、開發工具、深度學習框架,又要懂美術、心理學,面部相關的知識,在工作中常常會遇到意想不到的問題和細節,也會有出乎意料的收穫。

網易伏羲人工智慧實驗室的智慧捏臉專案,於2018年底在端遊《逆水寒》中上線。 這也是全球首次在MMORPG遊戲中實現基於單張照片的智慧捏臉玩法。 系統使用大量的隨機引數來模擬捏臉,訓練AI學習捏臉的過程。玩家上傳照片以後,系統就會把照片拆解成AI理解的形式,比如五官的位置、大小,妝容顏色等特徵,AI就會根據這些資訊,對這些特徵做復原。

以下是三位網易伏羲智慧捏臉師的自述,略經鈦媒體APP編輯:

01 我們在滑鼠、鍵盤和手柄以外,增加了一個玩家和遊戲互動的渠道

網易伏羲視覺計算組負責人、智慧捏臉師 神秀

我們視覺計算組主要研究方向是如何通過視覺和圖音學的技術去豐富遊戲的玩法,比如捏身體,進行動作、表情的遷移,還有捏臉。

捏臉專案是我們的核心專案,從18年7月立項到現在,我已經參與研發三年多了。每一年捏臉系統都會有版本迭代,從最開始的第一版到現在的第三個大版本,每年都會有一些創新的技術點,發表一些論文。

最開始我們有做這個產品的想法是因為網易一款叫《逆水寒》的大型端遊,其中包括一個非常複雜的捏臉系統。每一個玩家都可以通過操控遊戲裡面幾百個滑塊來調整引數,比如調整眼睛大小、鼻子大小、人中長短等等,去得到一個自己喜歡的形象。這個形象可以以現實的人物為參照,玩家可以捏出劉亦菲,也可以捏出現實中的自己。功能雖然很強大,但是對於大部分普通玩家來說,可能需要花費幾天的時間才可以完成一個滿意的形象。

於是遊戲方就找到我們,希望我們能夠通過AI的技術,根據玩家上傳的照片去自動分析他的面部特徵,調整引數,然後生成一個和照片相似度儘可能高的三維形象。我們和遊戲方聊了之後,覺得這個很有意思,對使用者也很有幫助。當時我們發現淘寶上有很多人通過幫玩家捏臉的服務來賺錢,收費在幾十塊錢到幾百塊錢不等,月銷量很高。 這說明很多玩家都有希望有人能幫助他實現捏臉的需求,而我們通過技術能夠讓更多的玩家更廉價、更便捷地享受到這種服務,這就是我們18年立項的初衷。

我們是業內首次提出這種智慧捏臉玩法的團隊,並且在MMORPG遊戲中第一個做出了這種玩法,也發表了一些頂級會議和論文。當時做的時候也沒有想過這個專案會做持續三年之久,因為對我們來說,其實這只是我們眾多專案中的一個,但是做下來之後發現智慧捏臉服務在遊戲中非常受歡迎,有非常多的玩家願意去體驗。玩家也會給我們寫很多評價和意見。我們在開發的過程中也覺得很受振奮,因為很多玩家都喜歡我們的產品,我們的技術為他們提供了服務,並且創造出了價值。遊戲方也給了我們很多建議並且支援我們不斷地對產品進行迭代。在迭代中我們也會去參加一些學術會議,和同行進行分享,逐漸地就有越來越多的公司開始涉及智慧捏臉的領域。

其實,智慧捏臉也經歷了一個不斷迭代和成長的過程。

在18年12月上線的第一版,是一個迭代的神經網路優化的演算法。它的優勢是不需要監督資料,即我們的捏臉不需要去收集真實人臉照片去訓練AI,而完全是用我們的系統自己生成渲染的照片來做自監督訓練,比起採集資料的方式,我們整個系統的多樣性就會更豐富,任意的照片我們都可以訓練,並且成本很低。但它的缺點是對每一張照片都需要去迭代地調整,所以當時的速度不是很快。為了滿足遊戲上線後的併發需求,我們調了非常多的GPU伺服器,大概最後穩定在玩家每一張照片能夠在0.5秒之內出結果。在第二年對產品的迭代之後,我們進行了速度上的一個大幅優化,我們將演算法改成了一個單步的前向演算法,在質量不變的情況下將執行速度提高了大概2000倍,即達到了毫秒級,可能幾毫秒的時間,甚至不到毫秒的時間就能夠出結果。

第一個版本我們要求玩家必須上傳正面照片,照片光照不能過於變化不均,後來我們改善了魯棒性,使玩家照片可以拍地更自由。在第二年的第二個大版本,我們不僅捏出了人臉的形狀,還會還原它面部的紋理細節。比如說臉上可能有一個刺青、皺紋,或者痘痘,我們都會將它還原出來。從我們最新的成果來看,基本上由照片捏出來的臉,和照片已經很難分辨了。

微表情也是我們正在進一步改進的地方,微表情其實比起單純捏臉涉及到更多,也是需要美術方的支援。我們現在使用的表情呈現是基於設定的51個基底組成各種表情,但是通過這種方式很難讓角色表達細微的表情,比如當系統檢測到玩家微微上揚嘴角或者微微眯起眼睛時,是無法反應到角色上的。目前我們正在對這點進行改進,為了使角色更加還原,更加逼真,不僅僅能夠捏出長相,我們正在研究如何基於骨骼去在這個捏臉方案上實現微表情,從而能夠更體現出人的氣質。

通過將影象視覺演算法與遊戲結合,我們可以給遊戲帶來很多新的東西,創造一些業界傳統的遊戲不具備的功能,讓遊戲和人之間的距離更近。捏臉、表情、動作這些功能,就像是讓遊戲具備了“眼睛”,它可以觀察玩家,然後通過識別玩家本身的特徵去在遊戲內部做一些反饋。相當於我們在滑鼠、鍵盤和手柄以外增加了一個玩家和遊戲互動的渠道,就是攝像頭。玩家可以通過視覺資訊跟遊戲發生很多很神奇的互動,讓視覺計算和遊戲擦出新的火花。

在做捏臉這個專案之前當然也會有一些沒想到會遇到的狀況,比如之前我也很難想象我們一堆直男會去看美妝影片。最開始我們去做捏臉的時候,發現因為很多女玩家會上傳明星或者是自己化妝後的、美顏後的照片。男生可能大多數就隨便拍拍了,所以剛開始我們是沒有考慮到口紅這種東西的。後來說那我們也可以加個口紅的選項,然後我們幾個男生就開始討論說口紅有幾種顏色你知道嗎?結果沒人知道。我們就拍板定了三種顏色,紅色,橘色和粉紅色。後來就被產品教育了,說口紅有多少多少個顏色。因為這些鬧出了很多事情,後來我們就真的去影片網站,去短影片平臺上面去學習化妝。然後大家才知道,原來化妝有這麼多步驟,比如說什麼眼影、腮紅、遮瑕、修容......有非常多的東西。所以我們現在也瞭解到了很多,以前其實對我們來說,可能很多時候女生不塗口紅就是沒化妝,現在就能看出來這個人可能是上了什麼,可能打了什麼,懂了一些不知道以後有沒有用的知識。

我們也會為了實驗,作為演員去錄影棚錄一些資料。我就去錄了我的表情和身體以及動作,給我自己重建了一個三維數字形象。我看到那個三維的自己出現在螢幕裡的時候就覺得是挺魔幻的,然後也沒自己想象的好看。我就理解了確實絕大部分人對自己的顏值都有點過高的誤解。在拍攝過程中,我們也瞭解到演員拍攝背後的辛苦,於是我們也開始研究怎麼樣降低他們的工作量,還有怎麼去幫助特效演員去做一些特效,減輕他們的負擔。我們的研究主要還是圍繞人去展開,為了服務人去提出一些解決方案。

我們也會把智慧捏臉提供給遊戲去做一些NPC的製作。起因是我們有一次在體驗自己合作的遊戲的時候,發現很多NPC除了衣服以外,其實長得都是完全一樣的。瞭解之後發現,因為製作一個NPC的成本比較高,其實對一些不重要的NPC,遊戲方都會用同樣一張臉,我們就想智慧捏臉其實可以解決這個問題,於是向遊戲方提供了一套可以自動生成人臉的演算法,他們只需要通過簡單的操作就可以得到非常多不同的人臉,從中選擇符合需求的人臉就可以了。這樣一來可以大大加速NPC的製作流程,並且降低成本。

這次合作又使我們產生了進一步的想法,除了生成每個NPC獨有的臉,我們還希望這個NPC能夠具備一定的智慧,我們希望這個NPC長得像人,動起來也像人,說起話來也像人,有人類真實的情緒和表達,就像《失控玩家》那部電影一樣,讓NPC能真的自主和玩家進行更深度的互動。這也是我們聯合包括自然語言組、強化學習組等一起想要完成的一個工作,希望為玩家帶來一個全新的體驗。

除了遊戲以外,我們現在也會嘗試去做一些直播之類的娛樂專案、醫療專案、還有一些文旅專案,比如讓遊客都能夠實時實景地體驗景區或者博物館,也會有一些穿越的專案,比如讓使用者的形象穿越到某個朝代。

我們正在做的一系列課題實際上就是,在縮短現實世界和虛擬世界的距離,我們希望能讓現實世界數字化的過程越來越便捷、越來越廉價、越來越方便,希望虛擬世界和現實世界的互動越來越強。我們在現實世界中做的事情,可以帶到虛擬世界,而在虛擬世界的成就也可以反應到現實世界裡。比如我在虛擬世界裡賺到了錢,在現實世界也能獲得回報。當我們的技術發展到一定水平,我們希望最後大家都能夠自由地在這兩個世界穿越,去學習、去工作、去娛樂、去突破現實的一些壁壘,比如空間上的限制,或者疫情的限制,然後讓大家更加緊密地聯絡在一起,讓人和人之間有更多的交流和合作。這樣的技術的實現,我想也只是時間問題了。就像人們很久以前說千里傳音是一件很神奇的事情,但現在有了電話就很方便,而很快,我們又有了影片通話。技術的發展,就是在不斷地拉近人與人之間的距離。

但是至於當虛擬世界發展到一定地步,比如當元宇宙誕生,人會不會去模糊虛擬世界和現實世界的界限,甚至沉溺於虛擬世界?我想從技術上來說我們希望虛擬世界能更加真實、更加方便、更加豐富,使用者們有自己的選擇,但最終我們真正的快樂可能還是要從現實世界中得到。我們的成就感也好、貢獻也好,都還是要來源於現實世界的。就比如我做視覺計算,我覺得我的貢獻就是我通過自己的工作服務了很多現實中的人,讓他們獲得了快樂,讓我的技術被人認可,那我就從中得到了很大的成就感。 我不希望大家沉迷在我們通過技術搭建的這個遊戲世界裡,我只是希望這個遊戲世界能給大家在繁忙的工作之餘帶來一些放鬆,帶來一些調劑。

這麼多年下來,我做了很多東西,也影響到了這麼多使用者,這份工作對我來說是非常讓我開心,也很有成就感的。現在元宇宙,虛擬人等等其實都特別需要這些技術,我也願意把這個技術不斷地往後推進。有時候看到一些公眾號傳播一些數字人的前沿科技的時候,我就會想,這些東西我們已經在做了。

02 做AI捏臉原本是想捏得更像人,卻發現有人更喜歡捏“妖怪”

網易伏羲智慧捏臉師 晚豐

我是人工智慧演算法工程師,你也可以叫我智慧捏臉師。

我們所研究的AI智慧捏臉,就是利用高保真三維人臉重建技術,使玩家僅需上傳一張照片,就可以快速獲得與之相像的虛擬形象。同時,還能根據使用者的想法對生成的模型進行調整。

AI的本質是特徵處理的工作,我們的系統不需要真實照片的資料庫,而是直接利用隨機引數去訓練AI模擬捏臉。需要在照片上選取關鍵點,比如眼睛大小和五官的位置,然後在捏臉系統中也去檢測這些關鍵點,調整引數讓兩者一致,就可以做到復原的效果。在訓練過程中,AI會自動設定指標,當匹配到一定精度時就會停止。這樣就可以保證捏出來的人臉和照片達到我們想要的相似度。

訓練捏臉系統有一個過程,最開始做Demo的時候這個系統可能就是很粗糙的一個東西,生成出的模型很醜,沒有頭髮也沒有眉毛。隨著對AI的訓練,慢慢地會有一個從無到有的過程,從剛開始不像,捏出來臉都差不多,到相似度越來越高。在演算法優化的過程中會有明顯的變化。我們搭建的系統也是從一個很雜亂的狀態,到逐漸流程化,我們對每一個模組都很熟悉,都在其中注入了很多心血。

每次做一個新的專案都要從基本訓練開始,雖然演算法流程是統一的,但是每一個專案的美術和風格是不一樣的,男性、女性、小孩、老人都各有不同,最後生成的演算法也會有有差距,所以我不會覺得枯燥,反而認為都是一種新的體驗。

在專案對接的時候,我們也會遇到一些之前想不到的細節問題。比如《永劫無間》的海外版本,就要考慮人種和膚色的問題,因為之前主要面向國內市場,面向的基本都是國人。現在根據不同人種,我們就需要優化模型,去做一個膚色上的判斷。還有我們的沉浸式會議系統“瑤臺”,在舉辦學術會議的時候因為專家學者很多都戴眼鏡,為了更還原現實特地增加新的眼鏡功能模組。

現在捏臉系統主要應用在遊戲中,我們合作開發捏臉系統的遊戲我都會去嘗試遊玩,也會去論壇和貼吧看看玩家對捏臉系統的作品和評價。玩家捏臉也有不同的取向,有的玩家會上傳明星的照片捏臉,或者本人的捏臉。這種型別的捏臉就要考慮人物的美觀性。AI是無法理解“美醜”的,它只會把關鍵點量化,不會考慮氣質上的東西。

我們通過幾個不同的角度去訓練AI的“審美”。首先我們建立了一個人臉打分的資料庫。我們之前有一個玩家的捏臉大賽,通過大賽我們其實可以知道大部分玩家喜歡什麼樣的長相。其次我們請了很多美術幫我們去標了一些AI生成的捏臉照片的顏值,基於這些監督資料,我們可以初步訓練AI得出一個美醜的基本評價標準。基於這個標準,我們可以驅動它,讓我們的照片生成的模型變得相對好看一點,同時我們還會請美術幫我們定義很多他們認為在什麼樣的臉型上會特別美的範本,就像整容醫院的模板一樣。最後相當於系統給生成的結果做了一個微整形,對每一張臉去匹配一個它最合適的整形的方向。當然我們也會調節權重,讓系統在像和美之間進行一個權衡。

還有一些玩家會捏一些二次元的動漫角色。之前我們系統還是傾向於捏真人的照片,所以在系統設定上會限制引數,像一些奇怪的臉型和眼型之類的就無法還原,對二次元角色的支援度較低。但是在看玩家評價的時候我們發現,其實捏得醜也會被人喜歡。有一些奇形怪狀的作品,比如捏得像皮卡丘、像滅霸一樣的,或者整個臉都變形的那種角色也很受歡迎。我也嘗試過捏一些奇怪的、和別人不一樣的角色,比如我捏過豬八戒,這種有特點的角色在遊戲裡隔很遠就能被看到,感覺也挺有意思的。所以現在我們也會嘗試去復原一些不常規的臉型,希望當玩家在上傳二次元的、非現實的照片的時候,我們也能夠將它還原出來,去更加貼近玩家的創作需求。

除了遊戲之外,我們的捏臉系統還可以應用到各種軟體上,目前有在做和虛擬演唱會、劇本殺、沉浸式會議系統等等的結合。現階段在應用內植入捏臉系統還是個很大的工程,所以上線的應用型別並不多,等流程進一步簡化之後相信就會更加普及。

不僅是捏臉,表情遷移、動作遷移的功能也已經在遊戲中落地,玩家可以讓自己的虛擬角色做出和自己一樣的表情、一樣的動作。通過我們的這些技術,AI捏出的每一個形象都可以支援面部和身體的運動,即具備成為一個虛擬人的條件,目前我們伏羲內部的各個專案組,比如語音,動作,文字等都已經發展成熟,正在結合各組的技術去做一個高精度的虛擬人專案,智慧捏臉之後也會去支援這樣的一個課題。

在元宇宙中,人們也會希望自己擁有一個獨特的形象,其實我們的沉浸式會議系統“瑤臺”就類似一個“極簡元宇宙”。瑤臺搭建了一個虛擬化的會議場景,人們在線上通過自己的虛擬形象進行互動。在智慧捏臉方面,比起遊戲裡的角色,由於元宇宙的虛擬角色會近距離看到彼此的臉,對捏臉的精細度和真實度的要求會更高,我們也在向著這個方向去推進。

03 捏臉是把千篇一律的遊戲內容,變成了個性化的一種表達

網易伏羲智慧捏臉產品負責人 楚涵

我的主要工作是站在怎麼為遊戲和商業化能力賦能這個角度,去規劃我們的捏臉產品,然後和需求方去對接,推進產品的完成。

遊戲類的AI產品有圖形影象等多個方面的角度,而我認為我們在做的捏臉是把千篇一律的遊戲內容,變成了個性化的一種表達,讓我們的遊戲更加得生動,這個世界更加得豐富。我們 最終的呈現是在遊戲裡生成了千人千面的遊戲分身。

根據每個人的個性,我們在虛擬世界上傳的角色有可能和現實中真實的自己不一樣,但其實這也是我們的一部分。而在不同的場景下,我們生成的形象可能也會不一樣,比如在社交軟體,可能大家就會希望生成一個好看一點的角色;在遊戲裡,會希望擁有一個有趣的形象;在工作場景下,就會希望自己的角色給人一個可靠、嚴謹的印象。

因為人本來就不是單一的,實際上虛擬世界的自己就是我們的另一面。它是我們在那個場景中想表達的一面性格,一種心理訴求。而因為比起現實世界,虛擬世界減少了種種限制,所以我們能去釋放那個真正想表達的部分,去成為我們真正想成為的人。 虛擬角色成為了我們的出口。

人是一種視覺動物,所以通過捏臉創造出的形象,我們可以帶給別人不同的感受,留下我們想讓別人對我們留下的印象,去打破我們真實長相的侷限。對自己長相不自信的人,也許可以通過這個功能得到心理層面的一種滿足,去達到自己希望達到的狀態。就算我選擇醜的形象,也是我的一種視覺表達。雖然形象不同,但是其中的文字和情緒等等還是我自己。

而站在產品的角度,我認為 使用者對於智慧捏臉的最基礎、最核心訴求其實是“一鍵操作”。 到底是追求好看還是特別,是真實的還是二次元的,這和客戶群體有關。比如PC端遊的使用者對高清和真實的需求就高於手機端使用者。對於風格來說,更是沒有辦法一概而論。使用者最喜歡的其實是操作簡易化,不管是哪種形象,首先就需要操作簡單,上傳照片之後馬上就能生成出我想要的捏臉結果。

我之前是做人臉特效版面,比如美顏美型還有貼圖,大多用於短影片和直播產品,對人類底層檢測這一塊是比較熟悉的,相對智慧捏臉會比較基礎和常規。而捏臉AI從識別檢測深入到個人模型的生成,一系列推進都會非常的有趣,因為它的情況多種多樣,需要我們想出各種解決方案。

作為智慧捏臉的產品側,我們需要不斷地去收集市場方面的熱點和趨勢,還有使用者的新需求。有時候我們去捏了一個很奇怪的形象,比如用人臉捏了一個皮卡丘,就有人可能會覺得這麼醜你們為什麼要去捏?但是從產品的角度其實是要去嘗試這種五花八門的東西,因為使用者是不能侷限的,他們的接受度是很高的,我們的系統開放性大了,使用者也會去做更多的闡釋。

比如說現在,我們《永劫無間》這款遊戲中最新的捏臉效果從檢測能力到生成能力一體化都有很大的提高。現在網上最熱門一個點就是說《永劫無間》有打破人臉格局,在做一些開放式的捏臉效果和分享,比如說孫悟空,伏地魔,阿凡達這類非真人人臉的捏臉的效果,達成了玩法上的突破。

我們經常會給開發提一些想法,他們會根據這些對系統做訓練和迭代,其實這對於他們來說也是一種挑戰。比如給他提一些誇張的卡通形象,那麼捏臉和生成的時候怎麼樣這個形象能不穿模,或者像膚色、鬍子這種怎麼能更像真人。

除此之外,我們現在上傳的影象是靜態的、單幀的,我們會要求使用者上傳正面的人臉外露的照片,那這樣捏出的形象是不全面的。比如也許我正面鼻樑高的效果是通過我的化妝技術達成的,我的鼻子原本是比較扁平的。為了解決這個問題,我們現在在做的是通過匯入多角度的序列幀影象,去生成一個更立體的捏臉結果。其他研究還有關於如何生成更自然的頭髮方面的策劃。

頭髮也是一個比較難攻克的課題,想要重建後的頭髮做到百分百相似,需要解決很多問題,比如物理動效的問題,還有頭髮構建出來是成片,成縷還是成髮絲,這些不同的生成結果對於系統性能的要求也是不一樣的。在生成之後,它的物理動效,即如何讓頭髮跟隨你的狀態自然帶動,又是一個難題。目前我們的系統對於生成頭髮還是以素材匹配的角度,去重構一個面數較少的相似髮型,之後會再去向精度更高,跟隨效果更好的方向迭代。我們需要明確現在產品階段的訴求和目標,去做一個清晰的規劃,帶動大家都往這個方向走。

未來,結合我們現在的ai、網際網路、虛擬現實和區塊鏈的技術,虛擬角色怎麼樣打破真實世界的隔閡,在虛擬世界中怎麼樣進行交流娛樂,如何讓我們更有沉浸感,這都是我們需要去探索的方向。我覺得我們在這方面有一個天然的優勢,就是娛樂是人們自然生髮的慾望,是人們天然就會感興趣的、會去做的事情,所以沉浸式遊戲,可以說是元宇宙的第一步。雖然過程中可能會出現很多難點,但我們會盡力去推進它的實現,這不僅是我們的工作,也是世界未來的一個大方向。

(本文首發鈦媒體APP,作者|李如嘉)