一個AI“神童”背後的資料標註江湖

語言: CN / TW / HK

*本文為「三聯生活週刊」原創內容

9月17日,來自中科大新創校友基金會的一篇打假文章,將一名叫“劉端陽”的資料標註公司創始人捲入輿論漩渦。在這起“學歷造假”事件背後,是資料標註行業在中國的複雜現實。這個在人工智慧概念包裝下的勞動密集型產業,在近五年的時間裡,搭載上地方政策產業升級、扶貧等政策便車,迅速發展了起來

記者 | 李秀莉

編輯 | 陳曉

被證偽的身份

2021年9月4日,星期六的下午,中科大新創基金會收到一名99級中科大少年班校友詢問:是否聽過一位叫“劉端陽”的科大少年班校友?該校友提到,此人最近在蘇州的校友圈子裡活躍,自稱科大少年班98級學員。

作為中國科學技術大學的獨立民間校友機構,中科大新創基金會的主要作用之一是“貫穿校友網路,組織校友活動”。因此,基金會往往和校友們保持密切的互動關係。校友們遇到和學校相關的事情,都願意先來問一問基金會。按理說,每年從中科大少年班走出去的校友並不多,只有幾十人,大部分人彼此之間都認識或聽說過。但對於這個“劉端陽”,基金會工作人員表示沒印象。

不過,這不是校友們第一次來詢問劉端陽的名字。最早在2019年,一位做投資的中科大校友就曾向該基金會打聽過這個人。當時基金會的負責人不清楚對方是否在做投資前的背景調查還是單純好奇,所以沒太在意,“一般來說冒充科大包括少年班的學生,社會上一直都有,我那次沒有花什麼精力(去查)”。這位不願透露姓名的中科大新創基金會負責人對本刊記者說。

《少年班》劇照

直到兩年後的這天下午,當他再次聽到這個名字,並隨後翻閱了關於劉端陽的公開報道,發現劉端陽的名字在很多場合都與“中科大少年班”“清華大學碩士”“斯坦福大學博士”幾個亮眼的標籤結合在一起。“大連那邊有個大連莫比嗨客,是在大連高新區的大連軟體園裡,大連軟體園在2018年就有過報道,寫他是中國科大少年班的學生。我們就沿著這個線索找下去。”上述負責人說。

這則發表於2018年12月3日的報道《創客連線劉端陽:一切源於篤定的熱愛,源於對高遠未來的追求》中寫道:“12歲考入中國科學技術大學少年班,先後就讀於東北大學、清華大學、美國斯坦福大學,驚豔的學業履歷,讓劉端陽在業內擁有‘神童’的美譽。” 文章如此描述他的AI學習背景:“不論是在清華讀研,研究利用機器學習做社交網路資料探勘技術,還是選擇到美國斯坦福主修利用機器學習做跨語言文字處理的研究,抑或是去金山軟體總部實習,在美國谷歌總部 X ~ Lab實驗室做工程師,都是源於被AI深深吸引,因此一直在尋求對AI、群體智慧和機器學習更深層次的理解。”

該文同時介紹了劉端陽的身份——莫比嗨客創始人。公開資料顯示,這家由劉端陽創辦於2016年11月的公司全稱為“深圳莫比嗨客樹莓派智慧機器人有限公司”,註冊資本666.694萬元人民幣,劉端陽為法人和實際控股人。公司主營業務分為兩塊,其一是線上任務群體智慧平臺,基於眾包的理念、博弈的流程和群體智慧的演算法,為泛AI公司、大資料公司提供資料標定(標定=採集+清洗+標註)、人工智慧解決方案、群體翻譯等服務。此後幾年,公司經歷擴張,在2016年12月,成立大連莫比嗨客智慧科技有限公司;2017年8月,成立盤錦莫比嗨客智慧科技有限公司;2019年在蘇州和洛陽也成立了公司。

《華爾街之狼》劇照

根據這篇文章提供的相關資訊,基金會擴大範圍,調閱學籍系統裡第一期少年班至今所有學員以及中國科學技術大學“文革”後入學的所有本科生,均未發現劉端陽的名字。隨後,他們調閱校友名錄、聯絡中科大檔案館和詢問相關教師,均證實並無此人。再向清華大學去函詢問,得到確認,“劉端陽之清華大學就讀經歷涉嫌造假”。此外,劉端陽還自稱為斯坦福大學Christopher Manning教授的學生。Christopher Manning是全球頂級的人工智慧研究機構之一斯坦福人工智慧實驗室(SAIL)主任、人工智慧領域的資深專家。但基金會工作人員查閱了Christopher Manning的網頁,在其博士生名單中,也無劉端陽或其常用英文名Charles Liu。該教授後來來函回覆基金會,自己並沒有叫Duanyang Liu或Charles Liu的博士生。並提到,在幾年前,有中國的投資者曾向其求證過同樣的問題。根據照片比對,應為同一人。

一邊被證偽的同時,更多的證據指向劉端陽實際曾就讀於合肥工業大學和東北大學。 至今可以查到的一項公開資料顯示,2012年,東北大學在美國大學生數學建模競賽(MCM/ICM)中獲得一等獎,劉端陽是獲獎的14支隊伍中的一員。合肥工業大學的同學還對媒體表示,曾在兩年前看到關於劉端陽相關報道中的簡歷介紹後,嘗試過在網上發帖指出他對學歷資訊的選擇性隱瞞,但當時並未獲得關注。“所以有可能是這個事情這麼久了,他有了一定的自信,覺得沒人拿他有辦法。”上述負責人對本刊記者分析。

近些年來,學歷造假事件尤其利用國內外資訊不對稱而製造的學歷造假並不少見,但劉端陽的造假引起輿論關注,或許在於他進入的是一個時下非常火熱、具有未來性的人工智慧行業,並得到了非常高的收益。他創辦的莫比嗨客公司在這個行業裡有一定知名度,並獲得了體制內外資本的青睞。2018年7月,莫比嗨客曾獲梅花創投A輪融資,2020年3月,獲得中航南山股權投資,並憑藉“資料標註”業務與遼寧大連高新區、山東青島西海岸新區、山西呂梁經開區、重慶雲陽縣、江蘇鹽城鹽南高新區等多個城市與高新科技園區落地合作專案。

抓住資料標註的風口

在上述“大連軟體園”公眾號釋出的報道里,劉端陽以第一口吻的敘述提到了他的創業過程,他稱自己回國後的第一次創業做的是個人大資料徵信,但後來發現國內巨頭阿里、騰訊等都在做這個,創業自然失敗了。之後,轉向了AI這一創業方向。 “人工智慧是國家戰略,也會是未來重要的發展方向。國內AI的發展前景不可預估,這正是一個擺在我面前的巨大機會,我需要抓住它,這正是我成立莫比嗨客的初衷。”

劉端陽所提到的“資料標定”(又稱“資料標註”),是人工智慧發展中的重要一環。 胡希塔曾在中國科大自動化係獲得學士學位,也是一家資料標註公司的創始人。他告訴本刊記者,資料標註的出現與深度神經網路演算法的大規模商用密切相關。深度神經網路演算法可以簡單理解為實現人工智慧的一種方式,它最重要的特徵就是“訓練”,“訓練需要有訓練用的資料。這個資料一般是成對的。比如要讓計算機在一張圖片上識別貓或者狗,輸入這張圖片,在這個圖片上給貓或狗畫一個框,這就是一對資料”。一開始,計算機無法自動識別出圖片上的貓狗,人類就在數以百萬計的照片上將貓狗標註出來,再將標註後的照片輸送給計算機,這個過程就是通過深度神經網路演算法進行的訓練過程。而在上百萬張圖片上標註出貓狗的過程需要人工來完成,這個過程就是資料標註。

資料標註,一個在人工智慧概念包裝下的勞動密集型產業(視覺中國供圖)

“資料標註這個行業出現的時間並不長。”胡希塔說,上個世紀五六十年代,深度神經網路演算法出現,但在很長一段時間裡,僅作為研究和教學使用。直到2012年深度學習在影象和語音方面的商業價值被驗證後,人工智慧真正具備了走出實驗室步入市場的能力。根據艾瑞諮詢在2020年釋出的《中國AI基礎資料服務行業發展報告》,2016年,AlphaGo的勝利再次引爆行業,成功喚起了中國市場的興趣,人工智慧的商業化在中國得到了長足發展。我們今天所熟知的人臉識別、自動駕駛、智慧安防等技術都是人工智慧的商業化應用。

伴隨著人工智慧的商業化發展,支撐演算法訓練的資料標註產業應運而生。 在國內,資料標註企業一共有三種發展模式,第一種,網際網路公司自營,例如百度的資料標註公司,主要服務於內部。第二種,線上眾包平臺。這類平臺類似於一級承包商,拿到資料標註的專案後再將其轉包給資料工廠或個人。第三種,資料工廠,主要提供進行資料標註的人力資源。根據艾瑞諮詢的統計,預計2025年中國AI基礎資料服務行業市場規模將突破100億元,年化增長率為21.8%。但龐大的產值前景下,真正的科技含量卻並不高。三種模式中,目前有自己的標註工具的資料標註公司在國內不到10家。

資料工廠門檻相對最低,需要的是無差別人力對無數個圖片標註點的反覆確認,以達到機器可以準確辨認與學習的精度。一般來說,必須保證“喂”給機器的標註資料達到90%以上精度,95%以上的準確率則是理想情況;如果還要往上提高,從95%提到97%,所需的成本就不再是一兩倍了,可能是10倍或100倍。所以這是AI產業中勞動力最密集的一環,資料工廠被稱為“AI富士康”。千機資料創始人劉洋鋒是2016年看到這個風口後,在老家河南郟縣成立了資料工廠,從一開始的10個人發展到最高峰時期同時有六七百個資料標註員的規模。他告訴本刊記者,國內做資料工廠的門檻低,“只不過規模大小不同而已,5個人也可以叫資料工廠,1000個人也可以叫資料工廠”。因為數量多,競爭激烈,這兩年“死一批又起來一批”,發展參差不齊。

《看不見的現實——資料工人》劇照

劉端陽的莫比嗨客同樣創立於這一風口上。他在公開場合解釋自己公司的功能,更像是平臺和資料工廠的集合。在2017年9月的一檔央媒節目中,劉端陽以創業者身份解釋莫比嗨客的商業模式:“人工智慧公司需要使用文字、影象、音訊和影片等資料對其進行‘訓練’,去識別資料背後的模式,並渴望在極短時間內完成,但現實中可能做不到。假如有1億張圖片,12個人同時進行操作,他們需要1個月時間,現在有了‘莫比嗨客’群體線上智慧平臺,時間可以壓縮到1天,甚至1秒。大家要問我的‘千里馬’是怎麼工作的,我從斯坦福大學休學回國後,就一直在打磨它,直到2016年和大家見面。莫比嗨客有四大交易:一是資料標定,二是個性化人工智慧解決方案,三是資料競賽,四是群體翻譯。每個交易都是一個任務,每個任務的金額從幾千到幾百萬元不等,商業模式就是從中抽取6%的佣金。”

但在實際運營中,莫比嗨客更像是一個純“中間商”。一位要求匿名的資料標註行業的專業人士告訴本刊記者,有跡象表明,莫比嗨客的平臺應該處於非運營狀態。 “看平臺是否運營,一個維度是說工具上的升級,你是不是支援任務型別足夠多。另外一個維度就是平臺本身它是需要運營專員,第三個維度,就是你要有不斷的訂單去支援這個平臺。” 本刊記者在10月17日登入莫比嗨客官網,在“任務廣場”點選“進行中”的任務狀態,顯示“暫無資料”。最新的一條顯示已完成的任務釋出於2019年10月14日。任務型別為“問卷調查”。

與此同時,平臺沒有自己的標註工具。“標註行業裡的平臺型公司本身分一個層次。比較高階一點的,有自己的平臺和研發工具,然後讓自己的標註人員以及外面的標註人員來用平臺工具去做標註。而比較偏低階一點的就是純外包,就是像莫比嗨客這樣的。接到資料標註的活,直接讓外部供應商去承包,莫比嗨客賺取中間的差價。”一位曾在莫比嗨客工作過的員工王真真對本刊記者說,缺乏標註工具以及穩定的資料標註基地,莫比嗨客的模式在資料標註行業幾乎沒有競爭優勢,整體利潤空間並不大。

地方的爭奪

即便沒有技術優勢,但劉端陽在中國的人工智慧行業裡仍然找到了自己的機會: 轉向更低端的資料工廠業務,並尋求與地方政府的合作。 王真真告訴本刊記者,當時自己選擇莫比嗨客有兩個原因,第一,創始人劉端陽有比較閃亮的學歷背景;第二,這家公司和政府合作的發展路徑。

從2018年前後,資料標註產業的勞動密集型產業屬性,開始被一些三、四線城市的地方政府看到機會。“早些年政府的想法是需要名校畢業生回到三、四線城市來發展,但是最後意識到,有能力走到211或者985、海歸的一些年輕人,他們可能更願意在一線城市發展,不太會回到三、四線城市。但是對於普通本科、職業類院校的孩子,他們在一線城市沒有很大競爭力,回到三、四線城市是更現實的選擇。而在三、四線城市,資料標註對於政府來講,就是一個需要大量廉價勞動力的產業。” 在產業升級和解決就業的政策導向下,三、四線城市的地方政府開始爭奪這種人工智慧時代的“富士康”工廠。

2020年3月,劉端陽和青島地方政府開始合作,一位參與了該專案落成儀式的相關人員告訴本刊記者,當時,在一家掛著京東標誌的大樓裡,劉端陽拿到了中間的一層,可容納幾百人的規模,場面很轟動。劉端陽在青島和清科控股集團有限公司合作成立了青島青科資料科技有限公司,做資料標註。清科控股為青島西海岸新區國有資產管理局下屬子公司。當時雙方協定,清科控股佔51%股權,莫比嗨客佔49%,前者組建資料標註班子,後者提供技術支援和拿業務。

在鹽城,莫比嗨客則得到了當地政府更大的信任,他們使用的是“完全引進”的合作方式。鹽城的合作一共包括三方:由梅花創投成長基金把莫比嗨客引入鹽城後,在當地募資,併成立一個基金來專門投大資料相關的產業,政府也參與投資。2020年10月9日,鹽城市鹽南高新區舉行莫比嗨客資料標註專案、新梅專項基金專案簽約活動,鹽南文明辦發文稱“此次莫比嗨客將我區作為全國產業佈局的重要節點,快速匯入國內業務,將鹽城專案打造成為國內人工智慧產業發展的新高地”。

2020年是劉端陽事業發展比較順利的一年。 資料標註產業成為受三、四線地方政府歡迎的專案。山西太原、長治、運城、臨汾等地都有資料標註產業的落地,河南、新疆等中西部地區也都有資料標註工廠的佈局。 劉端陽的合作版圖裡也增加了山西呂梁。2020年6月,呂梁經開區信投公司與深圳莫比嗨客公司合作成立呂梁數霖科技有限公司。前者佔股67%,後者佔股33%。但這次合作,還多了個“扶貧”的任務,提出了一項資料標註“星火計劃”。目標是通過“1個講師培訓基地+13個縣(市區)資料標註中心+N個鄉村標註驛站”模式,在全市87個易地扶貧搬遷集中安置點開展資料標註培訓,建立覆蓋全市13個縣(市區)的資料標註中心;並向下延伸,逐步在村級活動場所建立標註驛站,5年培訓5萬名資料標註員,吸納更多貧困勞動力在家門口就業,形成10億元的穩定勞務收入。把呂梁建成全國乃至全球的資料標註窪地。

2020年9月,國務院扶貧辦發文《創新催生新動能 數字產業助扶貧》,肯定了呂梁的扶貧成果,稱呂梁“把發展大資料產業與鞏固脫貧攻堅成果結合起來,依託呂梁經濟技術開發區數霖科技有限公司,吸收大中專畢業生和貧困勞動力開展資料標註工作,共享數字經濟發展紅利,為數字產業帶動貧困勞動力就業增收蹚出了一條新路”。在2021年2月23日呂梁市第三屆人民代表大會第八次會議上,代市長張廣勇發表《政府工作報告》講話,提出“擴大資料標註產業規模,建設全國有影響力的資料標註品牌基地”。

謊言的代價

呂梁數霖科技有限公司在華為山西(呂梁)大資料中心的一棟大樓裡,大開間,佔地300多平方米,共上百個工位。10月15日,當本刊記者走入呂梁數霖科技有限公司時,看到電梯口正對的牆上寫著“莫比嗨客MbhAi山西AI資料服務與應用示範基地”幾個大字。但這天,辦公室裡只有稀稀落落的年輕人坐在電腦桌前做資料標註,負責公司商務的車嘯告訴本刊記者,公司目前全職的資料標註員一共81位,但平時大家多居家辦公,不來公司。資料標註員的年齡大多在20多歲,以大中專學歷為主。

劉端陽自身的“高學歷”在公司運營和發展中可能起到了重要作用。另據一位莫比嗨客的工作人員告訴本刊,在一些公開的場合裡,對劉端陽的介紹也是科大少年班、斯坦福等。 劉端陽見過不少地方領導,“頂著金光閃閃的學歷招牌,大家一定是各種高規格的接待,各種誇讚有加”。但朝夕相處中,同事們也從一些蛛絲馬跡中發現了異樣,比如劉端陽聊海外的校園生活,沒有概念。在一些需要英語的海外業務上,據說劉端陽都以各種理由沒有參加。但劉端陽的口才很好,總能自圓其說。大家也只是停留在懷疑的層面。

插圖 | 老牛

但是,莫比嗨客沒有自己的標註工具,平臺上的很多運營資料也都不真實。“在這個行業裡如果你沒有平臺和工具,只能做二道販子,是很難在這個行業裡走到最後的。”上述匿名的資料標註專業人士評價道。

與劉端陽合作的地方政府發現了同樣的問題。當清科控股發現莫比嗨客並沒有自己的工具和管理不善等運營問題時,雙方發生了激烈衝突。“當地政府和當地的合作企業非常不爽,後來直接把莫比嗨客所有的股份清退,他們自己來做運營。”天眼查資料顯示,2021年1月,青島青科資料科技有限公司的董事長由劉端陽變更為馮玉旭。9月,基金會發布打假文章後,一位自稱是青島青科資料科技有限公司法定代表人的人給上述負責人打電話,稱劉端陽已經不再是該公司法定代表人和實際控制人,雙方沒有關係了。

在呂梁,莫比嗨客和數霖科技之間的關係也已經發生了變化。負責商務工作的車嘯告訴本刊記者,當時雙方決定合作時,莫比嗨客承諾給數霖每年帶來300萬元的業務量。但後來的合作中,莫比嗨客並沒有做到這一點,“而且他們給我們的價格太低了,完全不夠我們的人力成本”。

車嘯是呂梁人,本來在北京做程式設計,孩子出生後回到老家,一度找不到對口的崗位。直到去年看到人社局的招聘公告,就來數霖做了資料標註員,每個月的工資在2000~4500元之間浮動,多勞多得。因為莫比嗨客沒有帶來承諾中的業務量,公司決定自己開拓市場,建立了商務團隊,車嘯開始專門負責這一塊業務。一開始不知道怎麼拉業務,他就在QQ上加群,發現有資料標註需求的公司就主動問有什麼專案,後來給資料公司發郵件,多方打聽等,才慢慢地拉到了大廠的專案。

江蘇鹽城的合作也不得不轉換方向,不再以資料標註為主,而是轉向了“AI培訓師”。“AI訓練師”的字眼並非第一次出現在關於劉端陽的報道里。2020年8月21日,《呂梁日報》釋出報道,文章中提到,劉端陽向時任中國科協領導介紹自己參與設計的新職業AI資料訓練師。這是他找到的和地方政府建立聯絡的新方向。 “資料標註雖然作為最底層的一個級別,可有一些複雜的工作是需要高階人才來做的。當有技術背景的孩子想要進階的時候,是可以通過培訓和學習去進階的。 當年阿里提出這個東西,有著完整的資料,非常的細緻,它像是一個內部的培訓計劃,你達到了一個什麼樣的等級,可以去從事什麼樣的工作。因為人工智慧我覺得它真的很缺乏底層基礎生產類的人才,所以我覺得阿里當時提這個東西是完全沒有問題的。”王真真對本刊記者說。

但是回到莫比嗨客,劉端陽的這個想法可能並不現實,一些專業出身的資料標註人士告訴本刊,AI訓練師作為一個全新的、幾乎還未被探索過的領域,可能需要非常龐大的、完善的體系才能做出來。莫比嗨客作為缺乏技術支撐的一家資料標註公司,能做成的可能性比較小。

《大空頭》劇照

蘇州是劉端陽事業版圖中的“中控室”。他在蘇州的公司是一個十來人的專案經理團隊。莫比嗨客的全國分公司接到的業務會給到蘇州,再由蘇州做統一分配,決定給哪些供應商。2018年9月10日,由蘇州工業園區科技和資訊化局公示的蘇州工業園區第十二屆科技領軍人才(未落戶專案)名單中,劉端陽手持領軍人才專案。這項“蘇州工業園區科技領軍人才政策(2018~2021)”重點支援生物醫藥、人工智慧、奈米技術等戰略性新興產業。金雞湖科技領軍人才創新創業工程根據科技創新創業專案所處的不同發展階段,將入圍的領軍人才專案分為創業領軍人才(重大領軍、領軍、成長、孵化)專案和創新領軍人才專案,分別給予創業啟動、產業化獎勵、金融配套、人才安居等多項資金資助,並提供辦公用房、公租房等配套優惠。創新領軍人才原則上應是碩士及以上學歷。在《2018年年度蘇州工業園區創新發展大會暨金雞湖人才表彰大會光榮冊》裡,劉端陽的簡介為“清華大學碩士”,“曾於海外留學並工作。2015年歸國”。

“學歷造假”事件發生後,蘇州工業園追回了對劉端陽及其公司的政策福利。 但按照既定的擴張速度,今年,莫比嗨客還將與湖北襄陽東津新區、青海海南州、四川成都雙流區、山西大同高新區、重慶兩江新區、遼寧瀋陽渾南新區、河北保定徐水經開區、山東淄博淄川區、四川眉山高新區、貴州黔西南州高新區、黑龍江大慶高新區、陝西延安新區等多地政府展開合作。最新的落地城市為青海海南州。今年7月23日,微信公眾號“莫比嗨客服務中心”釋出文章宣佈與青海海南藏族自治州人民政府正式簽約。簽約後,雙方將共同致力於打造新一代藏語資訊流平臺,在藏語藏藥知識圖譜、資料處理與服務和產教融合人才培養等方面深度合作,為全球1000萬藏民提供資訊服務。

(本文源 三聯數字刊 2021年43期, 應採訪物件要求,文中王真真為化名。實習記者彭麗、賀偉彧對本文亦有貢獻)

排版:阿田 / 稽核:王海燕

本文為原創內容,版權歸「三聯生活週刊」所有。 歡迎文末分享、點贊、在看三連! 轉載請聯絡後臺。

大家都在看

▼ 點選閱讀原文, 一鍵下單本期新 刊。