[發明專利]一種詞表構建的方法及裝置在審
| 申請號: | 201811317879.7 | 申請日: | 2018-11-07 |
| 公開(公告)號: | CN109492224A | 公開(公告)日: | 2019-03-19 |
| 發明(設計)人: | 李長亮;廖敏鵬;齊濟 | 申請(專利權)人: | 北京金山數字娛樂科技有限公司;成都金山互動娛樂科技有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F16/36 |
| 代理公司: | 北京智信禾專利代理有限公司 11637 | 代理人: | 王治東;吳肖肖 |
| 地址: | 100085 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 詞表 篩選 構建 互信息 凝聚度 語料 刪除 算法復雜度 讀取目標 計算目標 能力強 準確率 長詞 申請 算法 輸出 中文 | ||
本申請提供一種詞表構建的方法及裝置,所述方法包括:讀取目標語料;計算目標語料中每兩個相鄰字之間的互信息,根據互信息大于等于0的至少兩個相鄰字生成待篩選詞,并根據待篩選詞生成第一待篩選詞表;計算所述第一待篩選詞表中的各個待篩選詞的凝聚度,并將凝聚度小于第一閾值的待篩選詞刪除得到第二待篩選詞表;計算所述第二待篩選詞表中的每個所述待篩選詞的自由度,并將自由度小于第二閾值的待篩選詞刪除得到第三待篩選詞表;輸出所述第三待篩選詞表。本申請提供的中文詞表構建方法通過綜合互信息、凝聚度和自由度進行對目標語料進行詞表構建,降低了算法復雜度,長詞識別能力強,提高了算法的效率和準確率。
技術領域
本申請涉及文字識別技術領域,特別涉及一種詞表構建的方法及裝置、計算設備和計算機可讀存儲介質和芯片。
背景技術
詞作為自然語言處理的基本單位,代表了一個語義單元。在中文信息處理領域,由于中文自身的特點,它不像英文那樣在詞與詞之間有空格間隔,因此,詞表構建是一項很重要的基礎工作,它直接決定了自然語言處理系統的性能好壞。因此,針對特定語料詞表構建具有重要的意義。
詞表構建是指從文本語料中以自動或半自動的方式獲得詞的過程,其中,半自動的方式指的是需要適度的進行人工干預。對于詞表構建的方法,目前廣泛采用的包括基于統計和基于規則兩種方法。
基于統計的方法是通過多種統計策略,從語料庫中找出最相關的字串組合。這種方法的缺點是算法復雜度較高、構建的詞表準確率較低的情況。
基于規則的方法需要借用領域專家的知識構造詞語來學習詞性、語義信息,形成規則模板,使用實驗數據和這些規則模板進行匹配,最終實現詞表構建,是一種監督方法?;谝巹t的方法一般是針對特定的領域,需要消耗大量的人力、物力來獲得規則模板,可移植性不佳。
目前,上述詞表構建的方法,例如Ngram算法沒有識別長詞的能力,而在公文等專業術語較多的語料中,長詞的出現是不可避免的。因此,在公文等專業術語較多的語料中,通過上述詞表構建的方法得到的詞表的準確度較低,嚴重影響著后續自然語言處理系統的性能。
發明內容
有鑒于此,本申請實施例提供了一種詞表構建的方法及裝置、計算設備和計算機可讀存儲介質和芯片,以解決現有技術中存在的技術缺陷。
本申請一實施例公開了一種詞表構建的方法,所述方法包括:
讀取目標語料;
計算目標語料中每兩個相鄰字之間的互信息,根據互信息大于等于0的至少兩個相鄰字生成待篩選詞,并根據待篩選詞生成第一待篩選詞表;
計算所述第一待篩選詞表中的各個待篩選詞的凝聚度,并將凝聚度小于第一閾值的待篩選詞刪除得到第二待篩選詞表;
計算所述第二待篩選詞表中的每個所述待篩選詞的自由度,并將自由度小于第二閾值的待篩選詞刪除得到第三待篩選詞表;
輸出所述第三待篩選詞表。
在本申請的一個示意性的實施方案中,所述目標語料中每兩個相鄰字之間的互信息通過兩個相鄰字在目標語料中分別出現的概率以及相鄰出現的概率計算而得。
在本申請的一個示意性的實施方案中,所述目標語料包括至少一個文本子序列;根據互信息大于等于0的至少兩個相鄰字生成待篩選詞,包括:
a1、確定在加載的文本子序列中的開始位置i和結束位置j,計算第i個字和第j個字之間的互信息,若互信息≥0,執行步驟a2,若互信息<0,執行步驟a4,其中,i,j均為正整數,i≥1,j=i+1;
a2、將結束位置j自增1,并計算第j-1個字和第j個字之間的互信息,若互信息≥0,繼續執行步驟a2,若互信息<0,執行步驟a3;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京金山數字娛樂科技有限公司;成都金山互動娛樂科技有限公司,未經北京金山數字娛樂科技有限公司;成都金山互動娛樂科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811317879.7/2.html,轉載請聲明來源鉆瓜專利網。





