[發明專利]基于語義的不完全最大匹配分詞方法有效
| 申請號: | 202110888301.2 | 申請日: | 2021-08-03 |
| 公開(公告)號: | CN113536807B | 公開(公告)日: | 2023-05-05 |
| 發明(設計)人: | 蘇航;周漢清;呂海熊;張春雷;丁新;劉勇 | 申請(專利權)人: | 中國航空綜合技術研究所 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/284;G06F40/242 |
| 代理公司: | 北京孚睿灣知識產權代理事務所(普通合伙) 11474 | 代理人: | 劉翠芹 |
| 地址: | 100028 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 語義 不完全 最大 匹配 分詞 方法 | ||
1.一種基于語義的不完全最大匹配分詞方法,其特征在于:利用語義詞典中的語義元素重新定義匹配算法的切分原則,具體包括以下步驟:
S1、構建正向語義相似度詞典:利用訓練集語料T和同義詞詞林構建正向語義相似度詞典DSim,構建過程具體包括以下子步驟:
S11、對于訓練集語料T中詞條wi,ni個后續詞條組成的集合為Cw={wij,1≤j≤ni},由wi與wij的語義相似度組成的集合計為CSim={wij:Simij,1≤j≤ni},其中wij表示wi的第j個后續詞條,Simij表示wi與wij在詞林中的語義相似度,表示詞條wi與所有后續詞條語義相似度的平均值,即:
S12、以wi為鍵存儲CSim和均值收錄T內相鄰詞條的語義信息,得到DSim;
S2、對詞語進行切分,得到初始詞,其具體包括以下子步驟:
S21、假設有長度為n的待切分漢字串Sn=w1w2……wn,將含有所有詞條的通用詞典計為D;在一輪最大匹配算法中,所有匹配成功的h組成的集合計作Ch={h|(1≤h≤k)∩w1w2......wh∈D},其中,h表示待切分漢字串在通用詞典D中存在的詞條長度,k表示最大匹配算法的匹配詞長,即w1w2……wk是最大匹配算法的首個切分結果,集合Ch內每一個元素構成的分詞都屬于通用詞典D,均作為備用結果;
S22、計算每一個詞的三特征權值WE,計算公式如下:
其中,Sh表示由集合Ch中元素確定的長度為h的分詞;表示詞語Sh與后續詞的平均語義相似度;表示最大的平均語義相似度;ph表示在通用詞典D中詞長為h的詞語出現的頻率;pmax表示在通用詞典D中ph的最大值;
S23、取三特征權值最大的Sh作為分詞結果,計為初始詞Sh=w1w2……wh;
S3、自動識別后續詞:對于待切分漢字串Sn=w1w2......wn經過S2的切分方法得到Sh=w1w2......wh(h≤n)后,在詞典DSim中讀取所有Sh的后續詞集合如果有Sh的某個后續詞匹配成功,即將Sh2自動識別為初始詞Sh的后續詞;
若存在多個Sh2,取與Sh語義相似度最大的作為初始詞Sh的后續詞;若不存在繼續執行步驟S2切分Sh的后續串,即輸入串為Sn-h=wh+1wh+2......wn;
S4、反復執行步驟S2-S3,最終切分完成漢字串Sn。
2.根據權利要求1所述的基于語義的不完全最大匹配分詞方法,其特征在于:步驟S12中,DSim的存儲結構如下表所示:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國航空綜合技術研究所,未經中國航空綜合技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110888301.2/1.html,轉載請聲明來源鉆瓜專利網。





