賽事推薦 | 中文臨牀醫學文本分詞與命名實體挑戰賽開啟報名

語言: CN / TW / HK

 

中文臨牀醫學文本分詞與命名實體挑戰賽,是由北京愛數智慧和香港中文大學(深圳)聯合主辦,並獲得英特爾OpenVINO團隊的大力支持。挑戰賽於9月2日正式開啟註冊報名,整個賽程持續到10月28日,頒獎典禮將在由中國計算機協會(CCF)主辦的2021中國計算機大會(CNCC)技術論壇“多模態在人機交互場景下的思考與挑戰”現場舉行。

本次NLP競賽圍繞中文臨牀醫學文本內容,對醫療文本的分詞和命名實體進行自然語言處理任務,以醫療問答為切入點,推動NLP技術創新,努力擴展到更多應用場景。

本次競賽獎金豐厚,面向社會各界開放,歡迎全國高校學生、AI科技型企業和自然語言處理愛好者報名參加!

 

賽題背景

和眾多行業一樣,醫療行業是人工智能重要落地行業,人工智能將轉變傳統醫療服務模式並走向智能化。現在新醫改大背景下,智慧醫療水平不斷提升,服務能力不斷增強,患者與醫務人員、醫療機構之間的溝通互動愈加頻繁化和信息化。在實現智慧醫療過程中,人工智能對輔助治療、醫療文本分類等領域發揮着重要作用。使得最終提升治療效率、降低醫療成本、個性化醫療服務的目標成為可能。

人工智能對醫學文本的識別離不開自然語言處理(NLP)技術,自然語言處理是人工智能領域的一個重要方向,科研領域一直沒有停止在NLP技術上創新步伐。自然語言處理主要應用於機器翻譯、輿情監測、觀點提取、文本分類、語音識別等方面。其中命名實體識別是文本挖掘系統中的一個重要的基礎步驟,命名實體識別的準確程度是其他文本挖掘技術如信息提取或文本分類等的先決條件。

 

賽題任務

本次大賽的任務是參賽者對主辦方提供的中文臨牀醫學病例樣本,進行醫學文本分詞和命名實體的自然語言處理任務。數據類型均為中文臨牀醫學病例文本數據,該文本數據是已被標註好的結構化文本。希望參賽者結合當下前沿自然語言處理和深度學習技術,有效推動人工智能在醫學文本領域應用。

 

數據簡介

本次比賽使用的原始醫療數據來源於ChiMed中文醫療問答語料庫。該醫療問答語料庫包含約20萬組從互聯網資訊平台獲取的醫患問答,涵蓋內科、外科等共計15個科室,共計約4500萬字。其中,每組問答包括標題、患者問題、所屬科室、關鍵詞、以及平台註冊醫生的回答等信息。該數據集可用於包括智能醫療問答、自動分診、關鍵詞抽取等多項中文自然語言處理任務。關於該語料庫的使用和下載等更多信息,請參考

https://aclanthology.org/W19-5027.pdf

在本次比賽中,比賽項目組織方從最基礎的自然語言處理任務出發,關注醫療分詞和醫療術語標註這兩個最基礎的自然語言處理任務。比賽項目組織方採用人工方式標註了1000組醫患問答中患者問題和醫生回答部分的分詞和醫療術語,共計約22萬字,5500餘句。其中,分詞部分基本採用賓州中文樹庫(即Chinese Penn Treebank,CTB5)的分詞規範,並在其基礎上針對中文醫療領域的語言特點對其稍加改進。醫療術語部分,比賽項目組織方在借鑑了現有主流的中文醫療命名實體識別的標註規範的基礎上,結合實際醫療診斷中存在的需求,定義了近20個類別的醫療術語(例如疾病、症狀、病情程度、身體部位、科室、治療方案等),並以此為基礎標註數據,成為現存公開中文醫療術語標註數據中包含醫療術語類別最多的數據集。

本次比賽使用的樣本數據集和測試數據集將分批次發放,參賽選手需提交模型在最終的開放測試集上的預測結果,用於評測模型的性能。

 

組隊規則

1. 原則上,本次競賽以團隊形式參與,每個團隊不超過4個人

2. 參賽團隊在比賽過程中被要求提供個人身份信息,如郵箱、姓名、電話等,參賽者須保證提供信息真實性。

3. 競賽所使用的數據必須是主辦方提供的數據集,不得使用外部數據。

 

競賽議程

競賽分前期報名準備,正式競賽、公佈結果和最後頒獎幾個環節。前期報名完成後,參賽者會加入競賽微信羣,比賽中遇到任何問題都可通過微信羣進行諮詢。

 

*注:如因不可抗力或其他因素影響而變更時間,組委會將在第一時間通知獲獎團隊。若獲獎團隊來自於海外,建議進行遠程分享對接。

 

賽道設置

本次競賽分三個賽道:臨牀醫學文本分詞、臨牀醫學文本NER和OpenVINO 推理。

在“OpenVINO推理”賽道中獲獎的參賽團隊,將被授予“英特爾 OpenVINOᵀᴹ 工具套件領航者聯盟”認證。

英特爾 OpenVINOᵀᴹ 工具套件領航者聯盟

 

獎項設置

 

參賽團隊可同時選擇多個賽道參賽,並有機會獲得相應獎金。例如,參賽團隊同時選擇三個賽道並且都獲得一等獎,將會獲得總額11,000元獎金。

獲獎團隊將有機會參加CCF主辦的2021中國計算機大會(CNCC)技術論壇“多模態在人機交互場景下的思考與挑戰”現場進行成果演示。

另外,本次競賽還將設置:

傑出技術貢獻獎

  • 參賽團隊獲得第一賽道或第二賽道任一獎項並且發表論文,將額外獲得2000元現金獎勵。

  • 參賽團隊提交第三賽道“OpenVINO推理”賽道成功案例文章,組委會將根據文章涉及的技術難度,投稿人可獲得 1000-10000元不等的現金獎勵。

參與獎

  • 參賽團隊若參與第三賽道“OpenVINO推理”賽道,提交成功案例並符合要求,即可瓜分5000元的現金大獎。體提交案例的要求將在後續比賽中宣佈。

 

報名方式

欲參加該比賽的參賽者可發送郵件至[email protected]報名郵箱進行報名。郵件標題註明:“中文臨牀醫學文本分詞與命名實體挑戰賽”。郵件需提交團隊名稱、機構名稱、參與者和隊伍負責人姓名、手機號碼和郵箱地址。

競賽報名時間為9月2日~9月8日,歡迎參賽者積極報名參賽!

期待您的參與!

 

* OpenVINO and the OpenVINO logo are trademarks of Intel Corporation or its subsidiaries.