[發明專利]基于語義的不完全最大匹配分詞方法有效

申請號：	202110888301.2	申請日：	2021-08-03
公開（公告）號：	CN113536807B	公開（公告）日：	2023-05-05
發明（設計）人：	蘇航;周漢清;呂海熊;張春雷;丁新;劉勇	申請（專利權）人：	中國航空綜合技術研究所
主分類號：	G06F40/30	分類號：	G06F40/30;G06F40/284;G06F40/242
代理公司：	北京孚睿灣知識產權代理事務所(普通合伙) 11474	代理人：	劉翠芹
地址：	100028 北***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	基于語義不完全最大匹配分詞方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明提供一種基于語義的不完全最大匹配分詞方法，其包括以下步驟：S1、利用訓練集語料T和同義詞詞林構建正向語義相似度詞典Dsupgt;Sim/supgt;；S2、對詞語進行切分，得到初始詞；S3、后續詞自動識別：對于待切分漢字串Ssubgt;n/subgt;＝wsubgt;1/subgt;wsubgt;2/subgt;......wsubgt;n/subgt;經過S2的切分方法得到Ssubgt;h/subgt;＝wsubgt;1/subgt;wsubgt;2/subgt;......wsubgt;h/subgt;(h≤n)后，在詞典Dsupgt;Sim/supgt;中讀取所有Ssubgt;h/subgt;的后續詞集合如果有Ssubgt;h/subgt;的某個后續詞匹配成功，即將Ssubgt;h2/subgt;自動識別為Ssubgt;h/subgt;的后續詞；S4、反復執行步驟S2?S3，最終切分完成漢字串Ssubgt;n/subgt;。本發明將基于規則和統計兩種方法相結合，提出了基于語義的不完全最大匹配分詞法，因使用三特征權值計算式解決了傳統最大匹配算法詞語粘連的缺陷,提高了分詞的準確性。

技術領域

本發明涉及詞組分配方法，具體地涉及一種基于語義的不完全最大匹配分詞方法。

背景技術

中文分詞技術作為文本處理的初始階段，直接影響著數據挖掘全流程的準確性。高精度的中文分詞技術將為語義消歧、關鍵字提取、信息檢索等領域提供優質的文本預處理基礎，對推動自然語言的發展具有重要意義。目前，中文分詞技術的研究主要在準確性和時效性兩個方向上共同推進：在提高算法時效性方面，主要方式是通過定義詞典和高性能數據結構。比如利用字符樹或分組字符樹加載詞典。在提高準確性方面，多數研究更關注分詞算法的改進。常用的中文分詞方法可劃分為以下兩類：

基于規則的分詞算法：

最大匹配算法是典型的基于規則分詞法。它依據分詞詞典、不需考慮文本領域問題，因而具備領域無關性和高時效性。但難以處理歧義詞，易發生詞語粘連。業內出現了很多對最大匹配算法的改進，比如：使用詞典詞條動態截取輸入串、應用哈希技術提升分詞效率等。

基于統計的分詞算法：

統計分詞法聚焦于字與字的穩定組合，常用相鄰字的共現率模擬它們構成詞的可能性。利用這種統計詞語出現頻率的方式實現分詞。

但是現有的這兩種方法容易發生詞語黏連，不能保證分詞的準確性。

發明內容

為了解決上述現有技術的不足，本發明提出一種基于語義的不完全最大匹配分詞方法，其能夠構建正向語義相似度詞典，該詞典能記錄詞語間的關聯強度，保障時間開銷的基礎上，解決最大匹配算法詞語粘連的缺陷，提升分詞算法的準確性。其一方面應用詞典實現后續詞識別，提升分詞準確性，減少循環，提升效率。另一方面，本發明提出了三特征權值計算式，該計算式重新定義分詞算法的切分原則，解決了傳統算法詞語粘連的缺陷。

具體地，本發明提供一種基于語義的不完全最大匹配分詞方法，其利用語義詞典中的語義元素重新定義匹配算法的切分原則，具體包括以下步驟：

S1、構建正向語義相似度詞典：利用訓練集語料T和同義詞詞林構建正向語義相似度詞典D^Sim，構建過程具體包括以下子步驟：

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于中國航空綜合技術研究所，未經中國航空綜合技術研究所許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202110888301.2/2.html，轉載請聲明來源鉆瓜專利網。