如何打造高質量的機器學習資料集?這份超詳指南不可錯過

2019-09-13 09:27:14


作者 | 周巖,夕小瑤,霍華德,留德華叫獸

轉載自知乎博主『運籌OR帷幄』

導讀:隨著計算機行業的發展,人工智慧和資料科學近幾年成為了學術和工業界關注的熱點。特別是這些年人工智慧的發展日新月異,每天都有新的模型和演算法在釋出。那麼無論多麼眼花繚亂的演算法,最後落到實處還是需要合適的資料集做支撐。資料是否合適可以直接影響一個演算法的效果,對於專門做演算法研究的同學,可能更多的選擇公認的 benchmark 來測試演算法,如 MINST、ImageNet 等。而對於做特定領域問題研究的同學更需要特定場景或者條件下的資料集,如工業過程資料、NLP、推薦系統等,那麼這時更好的辦法可能是自建一些資料集來驗證自己的研究。


針對以上的問題,本篇文章就如何選擇適合自己演算法的資料集以及如何建立機器學習資料集作一些討論,希望能為各位同學提供幫助。



1 如何選擇資料集並做合理預處理


1.1  資料集的選擇


資料是人工智慧演算法發展的基礎,“沒有免費的午餐”是學界公認的道理,任何演算法都不能脫離資料或者應用場景來談效果的好壞。對於做演算法的小夥伴來說,雖然在研究演算法的創新,但是如何選擇和利用資料集是研究的基礎,再優秀的演算法也要通過資料來評估它的效果。演算法的最終目的是要擬合這種趨勢或者分佈,不同的資料集的特徵分佈是不同的,甚至同一個資料集劃分方式和比例的不同都也會使得特徵的分佈存在差異,因此找到合適的資料並做好適當的預處理,可以更加體現演算法的能力,使得研究更具說服力。


目前機器學習的資料集種類包含影象資料,時序資料,離散資料等,而不同資料集對應的任務可以分類、迴歸或者兩者兼顧。那麼我們在研究過程中選擇資料集除了一些如 MNIST 等經典資料集外,還需要根據自身模型特點選擇具有相應特徵的資料。


另外,資料集的大小也是需要考慮的一個因素。一般來講,一些經典的早期的資料集包含的資料量都比較少,更適合小規模的模型。而近年來隨著算力的增強和大資料技術的普及,近年的資料集普遍會包含更多的資料,大規模資料集所包含的資料加全面,模型訓練的效果會更好,但是同樣在訓練中也會相對更加耗時。


因此選擇資料集還是需要根據自己的需要來選擇,比較經典的資料集網站可以參考 UCI 資料集(archive.ics.uci.edu/ml/),或者從 kaggle 上找一些需要的資料集。



1.2  資料集的利用


如果選擇開源的資料集作為研究基礎,那麼就會面臨兩個問題:


  • 資料集如何預處理來適應研究。
  • 資料集中的資料如何分割。

開源的資料集往往是作者根據當時的研究需求而構建的資料集,資料的特徵可能並不嚴格符合當前研究的要求,那麼我們可能就需要做一些格式轉換,或者特徵填充。例如我們需要對城市的計程車活動的範圍進行統計,但是以 Roma/taxi 為例,資料集中所包含的地點是以經緯度座標來體現的,如果需要經緯度對應的區域資訊,可以通過 google map 的反向請求進行爬蟲(當然需要一定的反爬蟲機制)來補充相關的資訊。另外一個例子是當需要對一些視訊資料進行分類時,我們往往需要通過 OpenCV 等框架對其進行動作提取等操作,最終轉化為分類模型所能識別的時序資料。因此,開源資料集雖然可以節省一些我們打造資料集的工作,但是也不是可以“拿來主義”的,仍然需要我們花很多功夫去研究才能加以利用。當然,一些行業熟悉的開源資料集不僅是大家公認的平均演算法的標準,並且可以在 Github 上找到很多相應的處理方法,這樣也可以節省很多時間。

雖然目前的計算能力很高,但是對於一些研究領域而言,仍然有很多小規模的模型在研究。那麼對於一些規模較大的資料就無法完全利用,這就產生了如何篩選資料的問題。一般來說,我們可以假設一個高質量的資料集是已經劃分好訓練集和測試集的,而且不同類別的資料分佈也是平衡的。因此,同樣可以假設訓練集和測試集的資料分佈具有很高的相似性,可以保證訓練集和測試集直接的關聯性。那麼這種情況下可以根據模型大小,隨機從訓練集和測試集中選取相同比例的資料進行測試,這個比例可以通過反覆的試驗來確定。但是如果上述假設有不成立的條件,就需要對資料進行更仔細的篩選了,但是核心思想就是一定要保證我們選取的子資料集具有同原來資料集一樣的泛化能力。


2 如何打造高質量的資料集


這部分內容我們主要引用一下知乎問題:如何打造高質量的機器學習資料集(https://www.zhihu.com/question/333074061)下高讚的和我們相關版塊主編的一些回答。

2.1  作者知乎id:霍華德

核心觀點:資料集的建立可以通過遠端監督的方式快速獲得更多資料。這裡用舉了一個微博文字情感分類的問題為例。

這個問題是我提的,我來拋磚引玉一下,希望能引出大家更多更棒的方法。介紹一個我覺得比較驚豔的方法。

遠端監督獲取新浪微博的情感分類資料


這個方法來自於 Twitter 的情感分類,最早提出這個方法的來自於下面這篇論文:
Twitter Sentiment Classification using Distant Supervision
https://www-cs.stanford.edu/people/alecmgo/papers/TwitterDistantSupervision09.pdf


這篇文章提出了 Distant Supervision 的方法來做 Twitter 的情感分類,基本思想是用標籤符號來判斷文字的情感極性,如':)'表示開心,':('表示悲傷。因此我們一樣可以用收集一批微博標籤符號去標註新浪微博。


但這些標籤符號標註的微博不一定是真的正例或者負例。因此還是帶有噪音的資料,最好需要人工標註一部分去人工標註去驗證一下。

情感傾向點互資訊


新浪微博表情符號眾多,每個表情符號表達正負感情的能力是不同的,不同表情表達正向、負向感情的能力也是不同的,因此需要對錶情符號的感情表達能力進行排序。

點間互資訊(PMI)主要用於計算詞語間的語義相似度,基本思想是統計兩個詞語在文字中同時出現的概率,如果概率越大,其相關性就越緊密,關聯度越高。情感傾向點互資訊演算法(Semantic Orientation Pointwise Mutual Information, SO-PMI)是將 PMI 方法引入計算詞語的情感傾向(Semantic Orientation,簡稱SO)中,從而達到捕獲情感詞的目地。基於點間互資訊SO-PMI 演算法的基本思想是:首先分別選用一組褒義詞 P-words 跟一組貶義詞N-words 作為種子詞。這些情感詞必須是傾向性非常明顯,而且極具領域代表性的詞語。若把一個詞語 word 跟 Pwords 的點間互資訊減去 word 跟Nwords 的點間互資訊會得到一個差值,就可以根據該差值判斷詞語word的情感傾向。我們可以利用情感傾向點互資訊 SO-PMI 來計算表情與正向/負向感情詞之間的情感傾向:


感謝 HowNet 情感詞典,有 836 個正向情感詞和 1254 個負向情感詞,由此我們可以計算表情標籤的情感傾向點互資訊。通常情況下,將 0 作為 SO-PMI  演算法的閥值,我們可以得到下面三種情況:

  • SO-PMI(word)> 0;為正面傾向,即褒義表情
  • SO-PMI(word)= 0;為中性傾向,即中性表情
  • SO-PMI(word)為負面傾向,即貶義表情


用情感符號標註新浪微博


根據 SO-PMI 值,最終可以敲定 14 個置信度很高的情感符號,其中 7 個正向感情符號,7 個負向情感符號:


正向微博 = 含有正情感符號且不含任何負情感符號的微博
負向微博 = 含有負情感符號且不含任何正情感符號的微博

從情感符號標註的正向微博和負向微博中隨機抽取一些資料進行人工標註,最終發現情感符號標註的資料準確率接近 90%,這說明用表情符號標註的資料還是不錯的~

當然還要提醒一點,資料使用前把表情符號從文字中移除,否則模型很容易學到你遠端監督這個資料背後隱藏的 bias 的,移除表情符號後模型會更加從文字方面去理解和分類,避免過擬合,利於提高泛化性。

2.2  作者知乎id:夕小瑤


核心觀點:高質量資料集構建不容易,但是途徑和方法有很多種。這裡的回答比較全面從基本工具,獲取型別和一些經驗心得。

無論是做研究還是解決業務問題,做資料集都是繞不開的問題。不過這個問題有點大了,分享一點 NLP 領域的資料集構建的血和淚吧。

很多剛入行的同學覺得釋出一個數據集是最容易灌水的了,燃鵝如果你真的做過就會發現,隨意產生一個 資料集很容易,但是若以解決實際問題或讓大家能在上面磕鹽玩耍為目的,來產生一個能用的、質量高 的、難度適中的資料集一點都不容易。

由於沒有很刻意的研究過這個問題,所以就分享幾個個人覺得比較重要的點吧,分別是:

  • 什麼是高質量
  • 基本工具
  • 資料與標籤來源
  • 適可而止的預處理
  • 驗證可用性,儘早構造資料集迭代閉環
  • 關於複雜 NLP 任務


什麼是高質量

剛入坑的一些小夥伴可能會以為“高質量”=“超級乾淨”,於是為了追求“高質量”而瘋狂的預處理,最後哭了。

做資料集一般有兩種動機:一種是為了 research,也就是為了造福廣大研究人員以及推動領域的進步; 另一種,就是為了使用資料驅動的方法來優化業務指標,或解決專案中實實在在存在的問題。

這兩個看似不太相關的目的背後對“高質量”的定義確是非常相近的,那就是:解決問題!

只不過,對後一種目的來說,問題一般來源於線上系統 一般來說,在做資料集之前一般已經存在一套系統了(為了讓系統冷啟動,一般先開發一套規則驅動的 系統),系統上線後自然會產生日誌,分析其中的 badcase 便可以知道哪些問題是現有系統搞不定的, 這些問題就可以考慮使用資料驅動的方法來解決,於是需要做資料集了。而解決這些問題就是你做資料集的第一目標啦。

而對於前一種目的來說,問題一般來源於學術界的研究現狀。

現階段的 NLP 研究多為資料驅動的,甚至說資料集驅動的。雖然這不是一個好現象,不過也不得不承認 很大程度上推動了 NLP 的發展和研究熱潮。當現有的資料集無法 cover 領域痛點,或無法發揮數學工具潛力,或已經被解決掉的時候,就需要一個新的資料集,更確切的說是新的 benchmark 了。


換句話說,還有哪些問題是行業痛點問題?或可以進一步挖掘現階段數學工具的潛力?或現有數學工具的 現發展階段還沒法很好的解決該問題?這應該是做一個高質量資料集前首先要考慮的問題。

想想2015年的SNLI[1]、2016年的SQuAD[2]、2018年的GLUE[3], CoQA[4],再到如今的 SuperGLUE[5], MRQA,都是問題驅動的,當現有資料集不足以 cover 問題痛點或無法滿足數學工具潛力, 或上一個問題已經被解決的差不多的時候,就會有新的資料集冒出來解決下一個痛點問題。

在明確要解決的問題後,資料集的質量也就保障了一半,剩下的一半就要看這個資料集怎麼做啦。這裡面 最關鍵的問題是資料與標籤來源的選擇,以及預處理程度的把握。除此之外,迭代閉環的構建以及對複雜 NLP 任務的處理也會對問題解決的效率和質量產生非常重要的影響。下面開始依次介紹

基本工具 :


所謂工欲善其事必先利其器,只要不是太著急,在做資料集之前先掌握一些好用的工具和 tricks,可以大大減少無謂的重複和低效勞動,提高迭代效率。

  • github:寫爬蟲和清洗最原始資料之前先在 github 找一下 正則表示式 文字清洗利器,不解釋
  • Hadoop/Spark:千萬級以上的語料就別去為難你的小伺服器了
  • vim:分析樣本專用。資料集只有幾萬或一二十萬的話,vim 效能一般還是夠用的,不過預設的 vim 配置是比較雞 肋和反人類的,需要事先熟悉和配置好。要是跟 vim 過不去,其他帶正則搜尋和高亮顯示的效能別太差的編 輯器也 ok
  • awk,grep,cut,wc 等命令列工具:分析樣本專用。資料集大了,你的 vim 就罷工了,當然你要是跟這些命令過不去也可以在 ipython 裡玩,只 不過寫程式碼效率更低,而且分析結果儲存起來更麻煩一些,再就是別來open(file).readlines() 這種神操作就 好
  • ipython + screen/tmux:在分析一些重要的資料集統計特性如樣本長度分佈時,開個 vim 寫 python 指令碼會很低效,資料集一大的話反覆 IO 更是讓人無法忍受的。因此開個 ipython 把資料集或採樣的一部分資料集load 進記憶體裡,再進行各種分析會高效的多。另外為了避免 ssh 斷開後從頭重來,可以把 ipython 掛在 screen 或者 tmux 窗口裡。當然, load 進來的資料比較多時,記得時不時的 del 一下無用的中間結果,以免把伺服器記憶體撐爆。哦對,記得了 解一些常用的 magic 命令如 %save,可以很方便的對複雜操作進行備份。

資料與標籤來源:


對資料集質量產生第二關鍵影響的就是資料和標籤來源的選擇了。其中資料可以通過人工構造、撰寫的方式來產生,也可以從網際網路上爬取或對公開資料集進行二次加工得到;標籤同樣可以人工標註,也可以遠端監督的方式來獲取。

  • 人工構造和標註

最容易想到的方式就是資料和標籤都來源於人工啦,可惜小夕並沒有資金去眾包平臺上幫你們積累經驗,對於很多相對簡單的NLP任務,資料一般在網際網路上總能找到合適的,但是也有一些任務的資料 很難在網際網路上接觸到,一般情況下只能人工精心構造(比如自然語言推理,任務型對話中的大部分子任 務,分詞、NER、抽取等一些序列標註任務)。如果有小夥伴想系統的學習標註,小夕推薦一本之前在圖 書館刷過一半的一本書,叫《Natural Language Annotation》,中文名貌似叫《自然語言標註:用於機 器學習》。這本書寫的挺讚的,還因此懟過一次不太會標註的 PM 小姐姐(希望她不會看我知乎 hhhh

還好對於大部分 nlp 任務而言,基本都能從網際網路上找到合適的資料來源,或在已有的公開資料集的基礎上加 以改造就可以產生。


如果要自己爬,英文語料的話可以通過國外的 twitter、quora、wiki、reddit等網站按需爬取甚至直接下載,官方提供的資料獲取指令碼滿足不了需求的話可以在 github 上自己搜下,基本總能找到一些奇奇怪怪的第三方爬蟲繞過限制(emmm怎麼有種教別人犯罪的感覺)。如果目標資料是中文,當然國內也會有微 博、貼吧、豆瓣、百度百科、知乎等網站坐等被爬啦。

當然啦,Twitter、微博、貼吧這類網站的缺點就是灌水內容太多,爬完記得去 github 找相應的預處理指令碼 瘦瘦身(注意別用那些太過浮誇的指令碼,處理的太乾淨可能會有問題,後面會講原因哦)


講真,自己爬資料真是 dirty work 超級超級多,尤其是你要爬的資料量灰常大或者去爬一些不那麼主流的網 站的時候!所以小夕更加推薦的還是先從現有的資料集想辦法啦,拿來現成的然後一頓改改改絕對可以省不少力!

其實很多資料集都是這樣“偷懶”做成的,比如早期 Socher 把只有 1 萬樣本的情感分類資料集 MR[16] 用 parser 將 MR 裡的句子給分解為短語、子句等,再分別標註,於是就變成了 20 多萬樣本量、多粒度的 SST[17] 最近也恰好刷到一篇做文字風格控制的 paper[18],同樣也是用了 parser,將 Yelp 情 感分類資料集 [19] 拆解後瘋狂加工,變成了結構->文字的風格化文字生成資料集(parser真是個造資料集 的好東西)。總之,玩過一次就知道,改比爬方便多啦

  • 遠端監督

在打標籤方面,最容易想到的當然還是花錢眾包,不用說了,下一個方法。
更加經濟可用的方法就是遠端監督了,這方面的可玩性就非常大啦,腦洞有多大,標註質量就會有多高!

做好遠端監督的前提就是提一個靠譜的假設,比如“給定一個 query-answer pair,如果 answer string 在搜尋引擎召回的某 document 出現,那麼該document可以回答該query”,於是有了機器閱讀理解資料集 TriviaQA[6]、searchQA[7];再比如“一條Twitter中包含的emoji可以反映這條Twitter的(細粒度)情感”, 於是有了情感分類資料集TwitterSentiment[8] 和情感可控對話生成資料集 Mojitalk[9]。

如果不放心的話,自己取樣一些樣本,粗略統計一下你提出的假設成立的樣本佔比,只要大部分情況下成 立就是有希望的,而後再對假設增加一些細節性的約束(比如 TriviaQA 裡的 answer 必須在 doc 中高頻出現;mojitalk 裡的帶多媒體資訊的 Twitter 直接丟掉,多 emoji 時只看最高頻的 emoji 等,在一個靠譜的假設下,經過幾番小迭代往往就可以一個能用的資料集啦。

總之,玩好遠端監督也就是要掌握逆向思維,忘掉“標註”這個詞,把思維改成“握著標籤找資料“。

適可而止的預處理


其實在做資料集這個事情上,有“潔癖”並不是一件好事,尤其是當語料的 lexical diversity & semantic richness 比較強的時候,一條看似讓資料集更乾淨的正則表示式很可能

沙雕了一些跟類別標籤相關的有效模式,導致一些本來成立的X->Y的對映關係因此消失了

減少了模型對抗噪聲的學習機會,你無法消除所有噪聲,但是卻消除了很多模型識別噪聲適應噪聲的學習機會

這方面小夕一把辛酸淚呀,曾經花了半下午時間寫了幾十條清洗規則,結果model 更難收斂以及開發集表 現更差了。最終發現數據量和模型都不是太小的情況下,遵從最少預處理原則一般就夠了,除了一些常規操作(比如濾掉HTML標籤、URL、脫敏、去重、截斷等),小夕一般只對如下情況進行處理:

導致了“標籤洩漏”,這種情況容易發生在任務簡單、標籤典型的場合,資料來源比較多時尤其容易踩坑。比如你任務的目標是讓模型通過文字語義判斷情感,那就不要對 emoji、顏文字手下留情了,嚴格控制它們在 資料集中的比例。

導致了樣本過長,比如連續 100 個相同的 emoji、哈、啊等樣本中出現了預留的功能詞(比如 BERT 中的 [UNK],[PAD],[CLS],[SEP] 之類的)

當然,如果你的資料集是生成任務相關,記得濾掉黃反內容=,=。對於一些高頻錯別字,一堆點點點之類的 讓你覺得 dirty 的東西,沒特殊需求的話就放過它們吧。(真想徹底消除它們的話就換資料來源啊喂,不 要妄想以一人之力對抗廣大人民群眾產生的辣雞!

驗證可用性,儘早構造資料集迭代閉環

無論是人工標註的還是遠端監督標註的,資料集看起來做好了不代表就是可用的,如果標註的噪聲太大或 者標籤邊界太過模糊(大量標註錯誤,或標註規則寫的太鬆、太模糊,導致人都分不清某幾個類別之間的 區別),很可能再複雜的模型都在這份資料集上無法收斂;反之,如果資料集中有“標籤洩漏”(比如你用 emoji 遠端監督構造了情感分類資料集,最後卻忘了濾掉emoji)或標籤與內容有非常直接的對映關係(類 別太過具體或標註規則寫的太死),那就會導致一個非常簡單的模型都會輕易的把這個資料集刷到近乎滿 分,那這個模型學到的知識基本是沒有什麼實際意義的,換言之,這麼簡單直接的任務其實幾條規則幾行 程式碼就搞定了,完全沒必要做資料驅動的模型訓練。

因此絕對不要抱著將資料集一次做成的心態,而是要儘早構造一個“生成資料集->跑baseline->badcase study->更新策略->重新生成資料集”的閉環。注意,baseline別選的太麻煩(那種對各種超參敏感的模型 還是算了吧),最好是已被普遍驗證有效的、有開原始碼的、上手輕鬆的、基本不用調參就效果還可以的 模型(比如 BERT 系列)。

這裡要注意側重點,在迭代的早期,讓 baseline 能在你的資料集上正常收斂是第一目標,中期則是關注 baseline 在開發集上的表現,表現太好要留意標籤洩漏或資料洩漏( X 中出現了 Y ,或忘記去重),表現太 差調調參,後期則是更多關注 badcase了,看看 badcase 中更多的是樣本問題(標註噪聲)還是真的模型能力不夠。

關於複雜NLP任務


當然啦,上面其實都說的比較寬泛,其實在不同的 NLP 問題上做資料集可能會很不一樣。像一些簡單 NLP 任務如文字分類等基於上面的基本原則就差不多了,但是一些複雜 NLP 任務如任務型對話、知識圖譜相關, 哪怕完全人工產生和標註都不好做的。

比如任務型對話相關的資料集,很難使用遠端監督這種偷懶的方式來構造,樣本和標籤的產生可能都很難 脫離人力標註。有興趣的小夥伴可以參考MultiWOZ[10]這個資料集(cover了DST、act-to-text generation和context-to-text generation這三個任務型對話中的子任務)的paper,裡面對machinemachine方式(如M2M[11])、machine-human(如DSTC系列12[14])、human-human(如ATIS[15], WOZ 系列[10])這三種協同構造任務型對話資料集的方式總結的很到位,會讓你感受到產出一個高質量的 任務完成型對話資料集是一個很有挑戰的工作,自己從頭摸索的話可能到頭來只會收穫一臉懵逼。

所以面對一些比較複雜的 NLP 任務的時候,一定一定要記得先精讀一下最新最權威的資料集的 paper,這類 資料集的構建經驗可能整個知乎也找不到幾篇的。

2.3  作者知乎id:留德華叫獸


核心觀點:主要從視覺角度出發談了一下資料的獲取途徑和製作問題。

我目前在車廠無人駕駛部門的職責之一便是研發無人駕駛感知演算法的資料集的半自動標註演算法。再具體一點就是計算機視覺領域的:語義分割(Semantic Segmentation) 和 全景分割 (Panoptic Segmentation)


它們或許是資料標註領域成本最高的倆個任務(按德國最低工資標準,高達100人民幣/圖),它們的具體定義可以見上圖 。

一、標註任務


語義分割: 對圖片中每一個畫素標註其類別(如:汽車、行人、道路等) 全景分割:對於每一個畫素,在語義分割的基礎上再區分目標instance物體(如:汽車1、汽車2、 行人5等)

二、標註格式


通常標註結果還是存成圖片的常見格式(如: png) 圖片的每一個通道儲存不同資訊(用數字1-255表示) 例如第一通道儲存:該畫素所屬類別 第二通道:如果該畫素屬於目標物體,他屬於第幾個instance 第三通道:通常是0或1,1表示該畫素是可以駕駛的區域,0反之

三、開源資料集


  • Cityscapes(戴姆勒公司、德國馬普所、TU Darmstadt): cityscapes-dataset.com/
  • Mapillary Vistas (豐田、Lytf等贊助):mapillary.com/dataset/v... Kitti
  • Dataset (德國KIT和豐田芝加哥研究所): cvlibs.net/datasets/kit...
可以看到背後都有財團的支援

四、資料集的成本和作用


  • 成本:據 Cityscapes 官方,標註一張該資料集中的語義分割平均需要 1.5小時!德國最低工資是 9 歐元左右/小時,因此在德國標註一張語義分割圖片的成本超過 13 歐元(約合 100 塊人民幣)!
  • 重要性:深度學習需要大量精細標註的資料作為“燃料” 保守 L3 要能夠上路 需要至少幾百萬張標註精細的訓練圖片人工智慧時代,誰擁有資料誰就擁有源源不斷的燃料 資料集也成為無人駕駛公司和主機廠的兵家必爭之地

五、用優化演算法節約標註成本

手動標註一張語義分割畫素級別的圖片平均需要 1.5 小時 有沒有什麼更智慧的辦法提高標註效率呢?專注於優化演算法的以下略探 12 :

1. ScribbleSup: Scribble-Supervised Convolutional Networks for ...
2. Weakly-and Semi-Supervised Panoptic Segmentation
3. Fast Interactive Object Annotation With Curve-GCN

其中 paper 1 和 2 是用塗鴉和畫方框的方式與圖片互動,Paper 3 是用描物體邊界的方式標註軟體的一般流程是:標註者輸入互動資訊-演算法自動標註-標註者修改-演算法標註 直到標註者滿意為止。Paper 1 和 2 還 report 了只進行一次互動(標註時間為幾十秒) 影象分割優化演算法結合深度學習 CNN 便可以達到相較於精細標註 95% 的精度。


六、結語


資料標註是如今深度學習獲得巨大成功的基石,從 Feifei Li 建立 ImageNet(1 千多萬張、2 萬多類別圖片)開始,資料集便成為計算機視覺的一個熱點話題,而伴隨著資料集的各種 challenge 和刷榜單,也成為 CV 領域發頂會的標配。希望“無償”使用公開資料集的研究者和業界從業 都能尊重資料集創作者的汗水。人工智慧的從業者也能認可那些幕後做著重複枯燥標記工作者的付出。

(*本文為AI科技大本營轉載文章,轉載請聯絡作者)


福利時刻



AI ProCon 2019 今天已正式啟動!李沐在實訓營的深度學習培訓課程順利完成。明後兩天,大會各技術論壇精彩繼續,參與通道即將關閉,掃描下方二維碼或點選閱讀原文,馬上參與!(大會單日團購票每人立減優惠倒計時,抓緊時間搶購吧)


推薦閱讀

  • 邊界框的迴歸策略搞不懂?演算法太多分不清?看這篇就夠了

  • 2億日活,日均千萬級視訊上傳,快手推薦系統如何應對技術挑戰

  • einsum,一個函式走天下

  • 如何修改CentOS 6.x上預設Python版本

  • AI 假冒老闆騙取 24.3 萬美元

  • Android 10 重磅來襲:支援 5G 與摺疊屏、隱私安全全面升級!

  • 今日頭條技術架構分析

  • WIAC上,華為展區都有點兒啥

你點的每個“在看”,我都認真當成了喜歡
已同步到看一看



熱點新聞