[發明專利]基于語義的不完全最大匹配分詞方法有效
| 申請號: | 202110888301.2 | 申請日: | 2021-08-03 |
| 公開(公告)號: | CN113536807B | 公開(公告)日: | 2023-05-05 |
| 發明(設計)人: | 蘇航;周漢清;呂海熊;張春雷;丁新;劉勇 | 申請(專利權)人: | 中國航空綜合技術研究所 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/284;G06F40/242 |
| 代理公司: | 北京孚睿灣知識產權代理事務所(普通合伙) 11474 | 代理人: | 劉翠芹 |
| 地址: | 100028 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 語義 不完全 最大 匹配 分詞 方法 | ||
本發明提供一種基于語義的不完全最大匹配分詞方法,其包括以下步驟:S1、利用訓練集語料T和同義詞詞林構建正向語義相似度詞典Dsupgt;Sim/supgt;;S2、對詞語進行切分,得到初始詞;S3、后續詞自動識別:對于待切分漢字串Ssubgt;n/subgt;=wsubgt;1/subgt;wsubgt;2/subgt;......wsubgt;n/subgt;經過S2的切分方法得到Ssubgt;h/subgt;=wsubgt;1/subgt;wsubgt;2/subgt;......wsubgt;h/subgt;(h≤n)后,在詞典Dsupgt;Sim/supgt;中讀取所有Ssubgt;h/subgt;的后續詞集合如果有Ssubgt;h/subgt;的某個后續詞匹配成功,即將Ssubgt;h2/subgt;自動識別為Ssubgt;h/subgt;的后續詞;S4、反復執行步驟S2?S3,最終切分完成漢字串Ssubgt;n/subgt;。本發明將基于規則和統計兩種方法相結合,提出了基于語義的不完全最大匹配分詞法,因使用三特征權值計算式解決了傳統最大匹配算法詞語粘連的缺陷,提高了分詞的準確性。
技術領域
本發明涉及詞組分配方法,具體地涉及一種基于語義的不完全最大匹配分詞方法。
背景技術
中文分詞技術作為文本處理的初始階段,直接影響著數據挖掘全流程的準確性。高精度的中文分詞技術將為語義消歧、關鍵字提取、信息檢索等領域提供優質的文本預處理基礎,對推動自然語言的發展具有重要意義。目前,中文分詞技術的研究主要在準確性和時效性兩個方向上共同推進:在提高算法時效性方面,主要方式是通過定義詞典和高性能數據結構。比如利用字符樹或分組字符樹加載詞典。在提高準確性方面,多數研究更關注分詞算法的改進。常用的中文分詞方法可劃分為以下兩類:
基于規則的分詞算法:
最大匹配算法是典型的基于規則分詞法。它依據分詞詞典、不需考慮文本領域問題,因而具備領域無關性和高時效性。但難以處理歧義詞,易發生詞語粘連。業內出現了很多對最大匹配算法的改進,比如:使用詞典詞條動態截取輸入串、應用哈希技術提升分詞效率等。
基于統計的分詞算法:
統計分詞法聚焦于字與字的穩定組合,常用相鄰字的共現率模擬它們構成詞的可能性。利用這種統計詞語出現頻率的方式實現分詞。
但是現有的這兩種方法容易發生詞語黏連,不能保證分詞的準確性。
發明內容
為了解決上述現有技術的不足,本發明提出一種基于語義的不完全最大匹配分詞方法,其能夠構建正向語義相似度詞典,該詞典能記錄詞語間的關聯強度,保障時間開銷的基礎上,解決最大匹配算法詞語粘連的缺陷,提升分詞算法的準確性。其一方面應用詞典實現后續詞識別,提升分詞準確性,減少循環,提升效率。另一方面,本發明提出了三特征權值計算式,該計算式重新定義分詞算法的切分原則,解決了傳統算法詞語粘連的缺陷。
具體地,本發明提供一種基于語義的不完全最大匹配分詞方法,其利用語義詞典中的語義元素重新定義匹配算法的切分原則,具體包括以下步驟:
S1、構建正向語義相似度詞典:利用訓練集語料T和同義詞詞林構建正向語義相似度詞典DSim,構建過程具體包括以下子步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國航空綜合技術研究所,未經中國航空綜合技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110888301.2/2.html,轉載請聲明來源鉆瓜專利網。





