[發明專利]新詞發現方法在審
| 申請號: | 201910519979.6 | 申請日: | 2019-06-17 |
| 公開(公告)號: | CN110334345A | 公開(公告)日: | 2019-10-15 |
| 發明(設計)人: | 李慧;王慧慧 | 申請(專利權)人: | 首都師范大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F16/335 |
| 代理公司: | 北京薈英捷創知識產權代理事務所(普通合伙) 11726 | 代理人: | 段志慧 |
| 地址: | 100048 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 過濾 重復模式 鄰接 詞頻 新詞發現 詞性 語料 鄰接信息 內部耦合 判斷標準 信息熵 準確率 構建 標注 刪除 清洗 集合 篩選 保存 | ||
一種新詞發現方法,包括以下步驟:語料清洗并保存;切分語料并標注詞性;詞頻過濾和詞性過濾;構建重復模式集合;重復模式過濾刪除;剩余重復模式即為新詞。本發明的過濾篩選包含了詞頻、內部耦合度、左(右)鄰接信息熵、左鄰右鄰接熵、右鄰左鄰接熵、左鄰右平均鄰接熵及右鄰左平均信息熵等判斷標準,大大提高了新詞的準確率。
技術領域
本發明涉及智能交互領域,尤其涉及一種基于社會化媒體的新詞發現方法及裝置。
背景技術
在中文信息處理的眾多領域,均需要基于詞典完成對應的功能。例如,在智能檢索系統或智能對話系統中,通過分詞、問題檢索、相似度匹配、確定檢索結果或智能對話的答案等,其中每個過程都是通過詞語為最小單位進行計算,計算的基礎為詞語詞典,所以詞語詞典對于智能系統的性能有著很大的影響。
隨著互聯網的蓬勃發展,微博、微信等社會化媒體平臺的出現改變了人們以往的傳統交流互動方式,網民在多種網絡平臺發表自己的觀點,網友傾向于使用網絡新詞,多數內容及評論往往是偏口語化的表達,因此有很多新詞被網友們創造出來并能以很快的速度在網絡上傳播。而是否能在新詞出現后及時更新詞語詞典,對詞語詞典所在的智能對話系統的系統效率有著決定性的影響。
目前新詞發現的方法可以分為兩類:基于分類的方法和基于標注的方法。基于分類的方法是先從語料中抽取候選字符串,然后依據規則或統計信息再判斷候選字符串是不是新詞。基于標注的方法則是新詞發現與中文分詞相結合,在分詞的基礎上發現新詞。但目前的新詞發現方法,如專利201510706254.X、201810409087.6、201810409083.8等,存在以下缺點:分詞單元中限制字長會導致一部分新詞不能被召回;計算單元中特征參數不夠全面會導致新詞準確率降低。
為提高新詞的召回率及準確率,本發明提出一種新詞發現方法,糅合以上兩種方法,在中文分詞的基礎上,依據規則與統計信息進行新詞發現。
發明內容
本發明解決的技術問題是如何提升新詞發現的準確度。
為解決上述技術問題,本發明提供一種新詞發現方法,包括以下步驟:
S1:語料清洗并保存;
S2:切分語料并標注詞性;
S3:詞頻過濾和詞性過濾;
S4:構建重復模式集合;
S5:重復模式過濾刪除;
S6:剩余重復模式即為新詞。
進一步地,所述語料清洗并保存包括:按照語料清洗規則對實驗語料進行清洗,并把語料庫中的語料以條為單位按行進行保存。
進一步地,所述切分語料并標注詞性包括:使用NLPIR工具及用戶詞典對微博語料進行分詞并標注詞性,獲取詞性標注后的語料。進一步地,所述詞頻過濾和詞性過濾包括以下步驟:
S31:統計詞性標注后的語料中每個詞出現的頻率,根據預先設置的詞頻閾值,把低頻詞放入過濾詞表中,高頻詞加入到初始候選列表中;
S32:構建過濾詞性集合,判斷詞性標注后的語料中詞語詞性是否存在于過濾詞性集合中,若存在,將其加入到過濾詞表中,否則將其加入初始候選列表中。
進一步地,所述構建重復模式集合包括:循環遍歷初始候選列表L0,取到某個初始候選詞,在初始候選詞上疊加其右側詞語,如果右側詞語不存在于過濾詞表中則疊加,得到重復串1后將其加入重復模式列表R中,繼續在重復串1的基礎上疊加其右側的詞語,如果右側詞語不存在于過濾詞表中則疊加,得到重復串2后將其加入重復模式列表R中;上述疊加過程直到右側詞語遇到標點符號或過濾詞表中的詞時即停止,進而得到重復模式列表。
進一步地,所述重復模式過濾刪除包括以下步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于首都師范大學,未經首都師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910519979.6/2.html,轉載請聲明來源鉆瓜專利網。





