[發明專利]基于語義的不完全最大匹配分詞方法有效

申請號：	202110888301.2	申請日：	2021-08-03
公開（公告）號：	CN113536807B	公開（公告）日：	2023-05-05
發明（設計）人：	蘇航;周漢清;呂海熊;張春雷;丁新;劉勇	申請（專利權）人：	中國航空綜合技術研究所
主分類號：	G06F40/30	分類號：	G06F40/30;G06F40/284;G06F40/242
代理公司：	北京孚睿灣知識產權代理事務所(普通合伙) 11474	代理人：	劉翠芹
地址：	100028 北***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	基于語義不完全最大匹配分詞方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于語義的不完全最大匹配分詞方法，其特征在于：利用語義詞典中的語義元素重新定義匹配算法的切分原則，具體包括以下步驟：

S1、構建正向語義相似度詞典：利用訓練集語料T和同義詞詞林構建正向語義相似度詞典D^Sim，構建過程具體包括以下子步驟：

S11、對于訓練集語料T中詞條w_i，n_i個后續詞條組成的集合為C_w＝{w_ij,1≤j≤n_i}，由w_i與w_ij的語義相似度組成的集合計為C_Sim＝{w_ij:Sim_ij,1≤j≤n_i}，其中w_ij表示w_i的第j個后續詞條，Sim_ij表示w_i與w_ij在詞林中的語義相似度，表示詞條w_i與所有后續詞條語義相似度的平均值，即：

S12、以w_i為鍵存儲C_Sim和均值收錄T內相鄰詞條的語義信息，得到D^Sim；

S2、對詞語進行切分，得到初始詞，其具體包括以下子步驟：

S21、假設有長度為n的待切分漢字串S_n＝w₁w₂……w_n，將含有所有詞條的通用詞典計為D；在一輪最大匹配算法中，所有匹配成功的h組成的集合計作C_h＝{h|(1≤h≤k)∩w₁w₂......w_h∈D}，其中，h表示待切分漢字串在通用詞典D中存在的詞條長度，k表示最大匹配算法的匹配詞長，即w₁w₂……w_k是最大匹配算法的首個切分結果，集合C_h內每一個元素構成的分詞都屬于通用詞典D，均作為備用結果；