奈何本人沒文化,一句(嗶 ——)行天下。這位胖友,不知你行走江湖,是否也有過這樣的煩惱?那么這里有個神器,可就值得好好說道說道了。
“聽我說謝謝你,因為有你,溫暖了四季”用成語應該怎么說?在搜索框內輸入你想表達的意思,再在詞性一欄里選擇成語,AI 立馬就能給你拋出幾十上百個選項。背景顏色越深,代表系統(tǒng)推薦程度越高。
要是碰上啥看不懂的,鼠標一點,就能查看具體釋義。
還不只是中文,比如當你想脫口而出一句“鵝妹子嚶”,但又想知道有沒有更華麗的中文表達,同樣是一鍵即可得。
怎么樣,夠方便不?是不是有點“媽媽再也不用擔心我詞窮”內味兒了(手動狗頭)。
來自清華的“反向詞典”
這個神器名叫 WantWords,反向詞典。
背后的 AI,來頭不?。赫Q生自清華大學自然語言處理與社會人文計算實驗室,項目指導教師為孫茂松教授和劉知遠副教授。所謂“反向”,就是和常規(guī)詞典不同,不是按詞尋義,而是反過來給詞典一段描述,讓它來幫你找詞。
作者在 GitHub 中介紹,他們希望反向詞典起到三種作用:
解決話到嘴邊,卻忽然想不起來怎么說的“舌尖現(xiàn)象”
幫助新語言學習者
幫助無法選擇單詞的失讀癥患者
這個反向詞典背后的核心 AI,名為多通道逆向詞典模型,相關論文還中選過 AAAI 2020。
具體而言,多通道逆向詞典模型采用了雙向 LSTM(BiLSTM)和注意力作為基本框架,并在其中加入了 4 個特定特征預測器。采用多個預測器來識別輸入查詢中目標詞的不同特征,一方面,能使嵌入質量較差的目標詞通過特征被挑選出來。另一方面,也可以過濾掉與正確目標詞有接近嵌入、但存在矛盾特征的詞。
也就是說,AI 選詞能更精準。
而為了讓 AI 更容易找到真正“正確”的詞,除了詞性、詞素這兩個詞語的“內部特征”外,作者還考慮了層次體系和義原這兩個“外部特征”。
所謂層次體系,是用來區(qū)分一個詞是實體還是概念,實體下面又會分出各種各樣的實體。
義原在語言學中則是指最小的不可再分的語義單位。語言學家認為義原體系在任何語言中都適用,不與特定語言相關。
舉個例子,“男孩”這個詞可以由“人類”、“男性”、“兒童”這個三個義原表示,“女孩”則可以由“人類”、“女性”、“兒童”的組合來表達。
△ 圖源:HowNet
新算法已測試,相關新系統(tǒng)開發(fā)中
前文提到,WantWords 反向詞典最早誕生于清華 NLP 實驗室,主要由豈凡超和張磊在 2019 年合作完成。
在與果殼交流時豈凡超談到,剛開始,他們并沒有對這個項目進行推廣,只是身邊的同學使用后反饋還不錯。直到去年 11 月,這個項目突然火爆,一時之間訪問量暴增,把服務器都給擠垮了。自此之后,WantWords 開始受到更多關注,也收獲了不少建議和來自志愿者的技術支持。
不僅有了網(wǎng)頁版,微信小程序也已正式上線,還有 App 版正在開發(fā)中。
△ 微信小程序“WantWords”
根據(jù)研發(fā)團隊的最新公告,今年除夕之前,反向查詞還測試完成了新算法,其性能相較于原有算法有顯著提高。而在反向詞典之外,研究團隊還開發(fā)“名言名句語義檢索及推薦系統(tǒng)”,以及“漢語詞語搭配查詢系統(tǒng)”。
目前這兩個系統(tǒng)尚未對外開放,感興趣的小伙伴可以邊讀論文(文末奉上),邊蹲一波。
對了,研發(fā)團隊還表示,WantWords 作為一個開源項目,隨時歡迎大家加入,參與設計 & 開發(fā)、提出需求、反饋問題。感興趣的話就去官網(wǎng)戳戳公告吧~
相關論文:
https://arxiv.org/abs/1912.08441
https://arxiv.org/abs/2202.13145
參考鏈接:
[1] 官網(wǎng):https://wantwords.net/
[2] 果殼文章:https://mp.weixin.qq.com/ s / er-JwST7dUQjMh6VzBE1bA
[3]https://deeplang.feishu.cn/docs/doccnoH9ncCZspo2Ubx79bpZ0Lh#ijyigh
廣告聲明:文內含有的對外跳轉鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。