[發明專利]新詞發現方法在審
| 申請號: | 201910519979.6 | 申請日: | 2019-06-17 |
| 公開(公告)號: | CN110334345A | 公開(公告)日: | 2019-10-15 |
| 發明(設計)人: | 李慧;王慧慧 | 申請(專利權)人: | 首都師范大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F16/335 |
| 代理公司: | 北京薈英捷創知識產權代理事務所(普通合伙) 11726 | 代理人: | 段志慧 |
| 地址: | 100048 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 過濾 重復模式 鄰接 詞頻 新詞發現 詞性 語料 鄰接信息 內部耦合 判斷標準 信息熵 準確率 構建 標注 刪除 清洗 集合 篩選 保存 | ||
1.一種新詞發現方法,其特征在于,包括以下步驟:
S1:語料清洗并保存;
S2:切分語料并標注詞性;
S3:詞頻過濾和詞性過濾;
S4:構建重復模式集合;
S5:重復模式過濾刪除;
S6:剩余重復模式即為新詞。
2.根據權利要求1所述的新詞發現方法,其特征在于,所述語料清洗并保存包括:按照語料清洗規則對實驗語料進行清洗,并把語料庫中的語料以條為單位按行進行保存。
3.根據權利要求2所述的新詞發現方法,其特征在于,所述切分語料并標注詞性包括:使用NLPIR工具及用戶詞典對微博語料進行分詞并標注詞性,獲取詞性標注后的語料。
4.根據權利要求3所述的新詞發現方法,其特征在于,所述詞頻過濾和詞性過濾包括以下步驟:
S31:統計詞性標注后的語料中每個詞出現的頻率,根據預先設置的詞頻閾值,把低頻詞放入過濾詞表中,高頻詞加入到初始候選列表中;
S32:構建過濾詞性集合,判斷詞性標注后的語料中詞語詞性是否存在于過濾詞性集合中,若存在,將其加入到過濾詞表中,否則將其加入初始候選列表中。
5.根據權利要求4所述的新詞發現方法,其特征在于,所述構建重復模式集合包括:循環遍歷初始候選列表L0,取到某個初始候選詞,在初始候選詞上疊加其右側詞語,如果右側詞語不存在于過濾詞表中則疊加,得到重復串1后將其加入重復模式列表R中;繼續在重復串1的基礎上疊加其右側的詞語,如果右側詞語不存在于過濾詞表中則疊加,得到重復串2后將其加入重復模式列表R中;上述疊加過程直到右側詞語遇到標點符號或過濾詞表中的詞時即停止,進而得到重復模式列表。
6.根據權利要求5所述的新詞發現方法,其特征在于,所述重復模式過濾刪除包括以下步驟:
S51:使用整合的基礎詞典對獲得的重復模式列表進行過濾,若重復模式存在于基礎詞典中則過濾刪除;
S52:計算重復模式的詞頻,根據預先設置的詞頻閾值,對重復模式詞頻進行過濾,把低于閾值的重復模式刪除。
7.根據權利要求6所述的新詞發現方法,其特征在于,所述重復模式過濾刪除進一步包括以下步驟:
S53:計算重復模式的內部耦合度,根據預先設置的閾值,對重復模式進行過濾,把低于閾值的重復模式刪除;
S54:統計重復模式的左鄰接字符集和右鄰接字符集,根據預先設置的左(右)鄰接熵閾值,對于低于左(右)鄰接熵閾值的重復模式過濾刪除。
S55:統計重復模式的每一個左鄰接字符的右鄰接字符集和每一個右鄰接字符的左鄰接字符集,根據預先設置的左(右)鄰右(左)平均鄰接熵閾值,對于低于平均鄰接熵閾值的重復模式過濾刪除。
S56:使用中文詞語搭配庫對上一步獲得的重復模式進行過濾,若重復模式存在于中文詞語搭配庫中則過濾刪除。
8.根據權利要求7所述的新詞發現方法,其特征在于,其中計算重復模式的內部耦合度包括:窮舉重復模式的所有子串,并對子串進行內部耦合度計算,通過公式(1)求得該重復模式內部耦合度的值:
其中,通過內部耦合度來可以衡量詞語內部緊密程度,定義如下:對字串w劃分為兩個分字串所有的可能組合{(w11,w12),(w21,w22)…(wi1,wi2)…(wn1,wn2)},得到的IC(w)稱為字串w的內部耦合度;
其中P(w)表示字串w在文本域D出現概率,通過公式(2):
計算,N(w)表示w字串在文本域D中出現的次數,ND表示文本域的總字數。IC值越大,說明字串間的相關程度越高,該詞語的內聚性越高;反之,IC值越小,說明字串間的相關程度越低,該詞語的內聚性越低。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于首都師范大學,未經首都師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910519979.6/1.html,轉載請聲明來源鉆瓜專利網。





