想形容那個啥特別那什麼,怎麼個詞來著?點進內文就有答案
“怎麼形容春天的生機讓人覺得很開心?”
“如何形容消失在人海之中?”
“如何描述夏日暴雨?”
在豆瓣文字失語者互助聯盟,超過 30 萬人在給自己的語言能力“舉啞鈴”。越來越多的人患上了這種時代病—— 不知如何將感受化為文字,或話到嘴邊卻發現詞不達意、言不由衷 。在厭倦了網路用語復讀機似的轟炸之後,我們如何找回正常的語言表達?
機器有答案。
輸入你想要表達的意思,就能獲得對應的詞語,名為 WantWords(曾叫做“萬詞王”)的“反向詞典”工具拯救了失語的人們。輸入“平靜中有一點點開心的狀態”,就會給出“怡然自得”、“恬然自足”、“泰然”這樣的結果,也會讓人偶遇一些生僻詞彙, 像是“塌心”、“姁”、“松範”、“逸豫”,也都表示心情安定愉悅。
系統每次都會給出 100 個詞語,背景色由深至淺,代表系統心目中這個詞的接近程度。但通常, 在前十個詞裡你就能找到自己想要的那一個 (正式研究中,前十個詞的命中率是75%)。每天,有兩萬多使用者用它處理失語和詞窮的困擾。
圖片來源:影視截圖
它怎麼能“猜”得這麼準?
以下為這個反向詞典系統開發者的講解(豈凡超,清華大學計算機系博士生,主要研究人工智慧和自然語言處理):
WantWords 的運作原理跟人類的思維模式有些相像。
當人類根據一個描述去猜詞的時候,腦子裡會經歷一個怎樣的過程呢?我們常常也不是一下就知道答案的,而是從多個方面,先去做推測。
比如,“ road where cars go very fast ”,車在上面走得很快的路。
乍一看,你可能不知道具體對應的是哪個詞,但肯定知道這指向一個名詞。英文語境下,你會猜它大概包含 way 這個詞素;中文的話,你會猜,這個詞很可能包含“路”、“道”等字。
這些資訊拼貼在一起,就可以幫助你推斷出,它可能是“expressway”、“快速路”、“高速公路”這樣的詞。
當你在 WantWords 中輸入一句話時,我們的模型也會經歷一個這樣的過程,先分析這句話都體現出詞語的哪些特徵: 是形容詞、名詞、動詞還是副詞?它裡面有哪些詞素?再去找擁有對應特徵的詞。
expressway 能分離出“快”和“路”兩個詞素丨受訪者供圖
看起來,好像只是給輸入和輸出加了幾道篩選條件,但卻很有效地彌補了傳統反向詞典的一些不足。
和人一樣,機器也拼閱讀量
在此之前,英文世界已經存在多部反向詞典。
它們背後的技術,是人工智慧領域最主要的分支之一——自然語言處理(Natural Language Processing,NLP),一項旨在讓機器理解和說出人類語言的技術。
圖靈獎得主, AI 三巨頭之一的 Yoshua Bengio(約書亞·本吉奧)曾表示: 能否將反向詞典任務做好是衡量 NLP 模型學習能力的一個重要的指標。
因為人類的語言表述是多樣且複雜的。如今,機器已經能在特定任務上做得很好,比如客服、問答,但如果你只是隨便跟它說點什麼,它可能就不太理解。
而反向詞典本質上就是通過隨機的一句話,找到語義相近的一個詞。 顯得機器很懂你。
2000 年,Bengio 提出了“詞嵌入”(word embedding)技術,將人類語言轉化為機器能夠理解的“語言”,也就是數字(詞向量)。2013 年, Google 發明的一套工具大幅提高了這個過程的效率。
“詞嵌入”為代表的一系列向量表示學習技術賦予了語義的可計算性。根據運算結果,就可以判斷兩個向量背後的語言單元在語義上的相似性—— 不出意外的話,離得越近越相似,離得越遠越無關。
詞向量示意圖(意思相近的詞語聚在一起)丨受訪者供圖
本質上,機器並不理解,它只是越來越精確地識別詞語之間的相對位置。
就像我們有的時候看書,或者學習一門外語。手邊沒有詞典,不讓你查不認識的詞是什麼意思,但當看到一個詞經常出現在特定的上下文之中,久而久之,很多人也能理解它的意思。
我們也會塞給機器大量的文字, 隨著“語料”喂得越來越多,機器就開始明白:為什麼這幾個詞會連在一起?為什麼這個詞後面經常出現那個詞?
這都是有一些潛在規律的,這就是它的特徵。
機器從大量文字中學習丨unsplash
現在這樣的語料庫很多,最大的包含上百億個詞語。拿著訓練好的詞向量,去做詞語之間相似度的關聯是很簡單的。
這也是我們實驗室在做的事情,訓練詞向量,拿它們去做應用。但在這個過程中,我們發現了一個問題: 對於一些詞,機器總是“學”得不太好。
比如低頻詞,它們在文字中出現的次數很少。出現次數少,對模型來說,就很難準確地學到它的意思。
還有就是一些相關詞,可能會有很相近的詞向量,因此被機器誤判為同義詞。
比如“汽車”跟“輪胎”或者“馬路”。 它們肯定不是一個意思,但因為平時在文字中經常會一塊兒出現,這就會讓模型誤以為,它們是差不多的。
問題還會出現在反義詞身上。“我很‘喜歡’這個蘋果”,“我很‘討厭’這個蘋果”。你會發現,上下文完全一樣啊,那模型就會誤以為“喜歡”和“討厭”是一個意思。
為解決這些問題,就要去借助語料之外的東西了。
以人類的知識約束機器
於是我們就想到,可以人為地加上幾層篩選條件,讓機器更容易找到那個“正確的”詞。
除了詞性、詞素這兩個詞語本身具有的特徵,我們還加入了兩個人為規定的外部特徵。
一個叫“層次體系”。這個系統會區分一個詞是實體還是概念,實體下面又會分出各種各樣的實體。
英語詞語的層次體系例項丨受訪者供圖
另一個叫做“義原”。在語言學裡,它被定義為語義的最小單位。詞是語言學中最小的單位,但從語義上還可以再去拆分。 比如“男孩”這個詞,它的意思可以被分成“人類”、“男性”、“兒童”。
義原能幫助機器更靈活地表達和理解一個詞的意思。像“ expressway ”這個詞,它其實有個義原,就是“道路”,還有一個義原是“快”。這兩個義原都能在原本的那一句話描述中找到相應的詞語。
這四個特徵相當於在原本的結果上,又加了很多篩選條件。
回到之前那個例子,“汽車”和“馬路”的詞向量有點近,因為它們經常同時出現。但這兩個詞,類別也不一樣,義原也不一樣,機器就還是能明白:它們是兩個不一樣的詞。
詞語的義原標註示意圖丨受訪者供圖
詞語的義原資訊來自於義原知識庫。因為義原並非顯式存在,只能由人來定義,有哪些義原,以及一個詞應該被標有哪些義原 —— 所以這個過程有點像編詞典。
我們使用的 HowNet 義原知識庫從上世紀 90 年代就開始構建,“編詞典的人”是董振東和董強先生父子。他們在上面投入了十幾年的時間,2000 年代初完成第一版併發布,後續不斷更新和擴充。
如今,HowNet 已經是一個非常有特色的知識庫,也成為中國給世界自然語言處理領域的重要貢獻。
OpenHowNet Logo丨受訪者供圖
2019 年,董振東先生過世,我們實驗室主要是我把 HowNet 知識庫的構建和維護接了過來,將其開源並重命名為 OpenHowNet。我的主要研究方向之一就是基於 HowNet 去做各種各樣的自然語言處理應用。比如,它目前只有中文和英文,我們正嘗試將其擴充到兩百多種語言。
我的博士論文也與此相關: 如何將義原代表的人類知識,與現在深度學習這種純資料驅動的模型結合起來,來讓計算機更能理解人類語言。
義原的應用也為這個時代熱議的“人工智慧偏見”提供了一種解決思路。
我們當然可以用單純用語料,喂出一個很懂概率,且越來越準確的模型,但資料中那些固有的偏頗是無法通過資料量的堆積而消除的。這種偏頗不是機器的問題,它只是對投喂資訊的反饋——當這些資訊自帶偏見時,機器輸出的結果必然也是有偏見的。
當我們用人類的知識給機器加上一層約束,機器就能變好一些。
但人們最喜歡的仍是同義詞替換功能
WantWords 反向詞典的第一版產品最早在 2019 年就做出來了,主要由我和實驗室的另一名同學張磊合作完成。
在我們思考義原知識庫的應用時,發現了這種可能,就去做了探索。 這時看到國外有 OneLook (英文反向詞典)這樣的產品,而國內並沒有 ,就想著可以在研究的基礎上做一個演示系統。
一開始真的是一點經驗都沒有,工程整個就是一塌糊塗。演示系統出來之後也沒有做任何推廣,只是身邊的同學用完反饋說還不錯。就這樣一直放著,可能一天也才幾百不到一千的訪問量。
直到去年 11 月的時候,突然被一家科技媒體在微博上推薦,一下子湧進來好多人——當時網站就崩潰了。
科技媒體發博推薦 WantWords丨受訪者供圖
因為沒有人維護,我們也不看微博,崩了三四天都沒發現。直到有一家做筆記工具的公司的人聯絡過來,想合作,我們才知道這件事。
我們當即對伺服器進行擴容,同時我們想既然大家喜歡用,可以再去做一些改進,就開始做迭代,除錯網頁端的各種功能。其實都不是很大的更新,加起來可能最多一個月的工作量,但因為我們都有研究或者工作在身,進度比較慢。
使用者量放上來之後,很多人就在後臺留言,說很喜歡這個產品。還有人說希望開發 app 、小程式,甚至有志願者提出說可以幫我們開發。
最開始有人提出願意幫我們做小程式,後來願意幫忙的人越來越多,到現在整個志願者團隊已經有 13 個人,有做小程式開發的,有做 app 的。志願者有來自北京和深圳的前後端工程師,有來自新加坡的設計師,也有在美國的產品經理。
圖片來源:微博截圖
把它當成一個產品去做之後,我們發現,實際應用時人們的用法跟我們的想象是有差別的。
現在平臺每天的查詢量有二十多萬。 從後臺資料看,絕大部分人還是在用它查同義詞、相關詞或者反義詞。
雖然我們本意不是想做這個。這個詞典更大的價值在於,能根據人們的一句話描述,找到意義對應的詞彙。同義詞替換本身並沒有什麼技術含量,很簡單的。
但我們也希望它作為產品是好用的。所以在迭代更新的時候,就更加著重滿足以詞查詞的需求。在正在做的新版本里,我們增添了很多好玩的功能。
比如最簡單的,你想找 aabb 形式的詞(花花綠綠),想找中間包含一個特定字的詞,想找表達正向或負向情緒的詞;還可以找諧音梗, 比如你輸入朱廣權、李佳琪,詞典就能幫你找像“小豬佩奇”這樣帶諧音梗的詞。
同時,我們也支援更多型別詞語的查詢,包括古漢語詞、專業術語、網路流行語等,在將來還會支援日語、法語等其他語言的詞語。我們希望將它打造成網際網路最好用的查詞工具,幫更多人解決詞窮的問題。
其實,有的時候機器已經比人更會說話了
五年前,我選了自然語言處理作為自己的研究方向。當時這個方向當時還沒有像現在這樣熱門,我心想等到畢業的時候,也許就正好起來了。
結果確實如此。 尤其是 GPT-3 出現之後,它的應用給整個行業都帶來很大的激勵。 也正是這個領域的飛速進步讓我們的“反向詞典”能夠達到現在的效果。
GPT-3
馬斯克創辦的 OpenAI 人工智慧研究室建立的語言模型,於 2020 年 5 月推出。它利用深度學習生成自然語言文字。文字質量之高,“在矽谷引發一陣寒意”(《連線》),也引發 AI 生成文字的風潮。英國的《衛報》曾發表過一篇完全由 GPT-3 撰寫的報道,主題為闡釋為何 AI 對人類是無害的。
其實到目前,在很多的語言處理任務上,機器的能力已經超過了人。
有一些專門用於測試語言能力的任務榜單,中英文版本都有,裡面有各種各樣的問題,比如讓你判斷兩句話是不是表達一個意思,給你前一句話能不能推出下一句話,等等。
讓機器跟人分別去做,現在最好的模型做出來的正確率,已經超過人類的平均水平了。
機器做得比人好,早已不是新鮮事|Unsplash
儘管如此,人們還是在不斷探索,很多時候,這種探索會走在實際應用的前面。 像 WantWords ,它在研究上的意義就遠遠大於目前作為一個應用系統的意義。
我們老師一直都說,要做面向實際應用的研究。這個過程中會發現很多新的問題,比如查到的詞不那麼好,該怎麼把一些無關的詞去掉之類的。
我們在準備的一篇論文,就是圍繞第二版反向詞典,它使用的又是一套完全不同的原理架構。具體原理嘛,現在還不能透露。
參考文獻
[1] http://wantwords.net/
[2] http://www.douban.com/group/715666/
[3] http://arxiv.org/pdf/1912.08441.pdf
[4] http://aclanthology.org/2020.emnlp-demos.23.pdf
[5] http://openai.com/blog/openai-api/
[6]http://www.theguardian.com/commentisfree/2020/sep/08/robot-wrote-this-article-gpt-3
[7] http://www.wired.com/story/ai-text-generator-gpt-3-learning-language-fitfully/
本文來自微信公眾號 “果殼”(ID:Guokr42) ,作者:翁垟,編輯:臥蟲,36氪經授權釋出。
- 集體換帥,三大日資便利店發生了什麼?
- 抓住這3個關鍵點,幫你提升面試通過率
- 長沙:新消費何以走出安樂“湘”?
- 2022品牌廣告發展趨勢:從攻佔心智,到構建關係
- 直播間人數漲33倍,國貨品牌闢謠又掀 “野性消費”
- 保時捷減配門,一個教科書級的負面公關案例
- 在當前的市場環境下,投資者還能逃向哪裡?
- 網易遊戲:一場出海的押注與豪賭
- 蘋果終棄iPod,是因為有了真正的繼承者
- 海倫司的酒要醒了
- Long China 50 分析 | “賺慢錢”的騰訊Q1淨利潤下降23%,省著花是第一要務
- 創投的春夏靜悄悄
- 當喜劇遇上播客,更多歡樂更多可能
- 手機廠商「見不得人」的小祕密,都隱藏在詳情頁的小字裡
- 騰訊最新財報,釋放出哪些遊戲新訊號?
- Snapchat AR 虛擬電商,傳統電商掘墓人?
- 潘周聃模仿秀播放量超60億,抖音“復刻”娛樂圈?
- 世界500強的榜首也頂不住了?
- 視障者的自由出行,從這裡出發
- 年複合增長率高達19%,即飲咖啡為何是一個價值百億的好賽道?