[發明專利]一種自適應中文新詞識別方法與系統有效
| 申請號: | 202010117792.6 | 申請日: | 2020-02-25 |
| 公開(公告)號: | CN111339753B | 公開(公告)日: | 2023-06-16 |
| 發明(設計)人: | 蔣東辰;唐帥;蔣翱遠;牛穎 | 申請(專利權)人: | 北京林業大學 |
| 主分類號: | G06F40/216 | 分類號: | G06F40/216;G06F40/289;G06F40/30 |
| 代理公司: | 北京科迪生專利代理有限責任公司 11251 | 代理人: | 鄧治平 |
| 地址: | 100083 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 自適應 中文 新詞 識別 方法 系統 | ||
1.一種自適應中文新詞識別方法,其特征在于,包括如下步驟:
文本初始化步驟:用于對輸入文本text做結構化處理,獲得一個包含原有中文漢字并保持原文本中中文漢字相鄰關系、間隔關系的寬字符序列;
非偶然共現判定步驟:使用二項分布或使用泊松分布近似表征一對漢字前后相鄰出現的概率分布,并基于給定的非偶然共現顯著性水平αp確定文本text中的所有非偶然共現的相鄰漢字對;
統計關聯性判定步驟:給定關聯性顯著性水平αk,判定文本text中相鄰中文字符的關聯程度,篩選出具有內部強關聯的中文字符串;所述強關聯是指在給定顯著性水平下,中文字符串內部相鄰字符出現與否不滿足統計意義上的相互獨立;
現有詞庫過濾步驟:基于現有詞典,在滿足非偶然共現和內部強關聯的字符串中篩選出尚未在詞典中出現的中文字符串;
非偶然共現判定步驟如下:
步驟2.1統計序列charList中所有相鄰漢字對ci,cj的出現次數,i,j為漢字序號,并由LocalCount(ci,cj)記錄;用N記錄序列charList中所有相鄰漢字對的出現次數,轉步驟2.2;
步驟2.2由charPairSet記錄序列charList中所有相鄰漢字對構成集合,轉步驟2.3;
步驟2.3遍歷charPairSet中的所有相鄰漢字對,對給定相鄰漢字對ci,cj,由漢字頻率查詢系統CharFreq按下公式估算ci,cj在相鄰位置的出現概率Freq(ci,cj):
Freq(ci,cj)=CharFreq(ci)*CharFreq(cj)
并根據下述公式計算ci,cj在文本text中出現n次的累積概率F(ci,cj):
給定非偶然性顯著性水平αp,αp取10-12至10-2之間的任意小數,如果F(ci,cj)≥1-αp,則將相鄰漢字對ci,cj加入備選相鄰漢字對集合NCP;
備選相鄰漢字對集合NCP={ci,cj|F(ci,cj)≥1-αp},它是判定新詞基礎,最終備選新詞中的所有相鄰漢字對都應該在NCP中;
統計關聯性判定步驟如下:
步驟3.1初始化語義單元序列semanticUnitList=charList,初始化相鄰語義對集semanticPairSet=NCP;轉步驟3.2;
步驟3.2根據定義,構建semanticPairSet的前語義單元集PreUnitSet、后語義單元集PostUnitSet;令待計算關聯性的相鄰語義對集SP為空,將語義對統計函數spNum設為空,全部語義對統計值為0,totalNum=0;轉步驟3.3;
步驟3.3遍歷semanticUnitList中的每一個相鄰語義對X,Y,初次執行時X和Y都是漢字,統計與X、Y相關的頻次信息:將相鄰語義對X,Y出現次數增一,即spNum(X,Y)加一;將以X為前語義單元的相鄰語義對出現次數增一,即spNum(X,#)加一;將以Y為后語義單元的相鄰語義對出現次數增一,即spNum(#,Y)加一;將全部相鄰語義對出現的總次數增一,totalNum加一;如果由X的最后一個漢字x和Y的第一個漢字y構成的相鄰漢字對x,y在NCP中,則將X,Y加入集合SP中;待遍歷結束,轉步驟3.4;
步驟3.4如果SP不為空,令A,B為SP第一個相鄰語義對,初始化關聯性閾值出現次數freq=0,設字符串U、V都為空,轉步驟3.5;否則,轉步驟3.11;
在該步驟3.4中,是自由度為1的開方分布在顯著性水平αk下的隨機變量取值,其數值通過查開方分布表獲得,αk取10-6至10-2之間的任意小數;
步驟3.5令以A為前語義單元但不以B為后語義單元的相鄰語義對個數spA=spNum(A,#)-spNum(A,B)、以B為后語義單元但不以A為前語義單元的相鄰語義對個數spB=spNum(#,B)-spNum(A,B)、不以A為前語義單元并且不以B為后語義單元的相鄰語義對個數noneNum=totalNum-spNum(A,#)-spNum(#,B)+spNum(A,B),根據下述公式計算A,B的統計量Q2(A,B);如果轉步驟3.6;否則,轉步驟3.8;
步驟3.6如果A不屬于PostUnitSet,即A不構成某一個相鄰語義對的后語義單元,且B不屬于PreUnitSet,即B不構成某一個相鄰語義對的前語義單元,則AB獨立成詞,將A,B從semanticPairSet中刪除,并將A,B裝入result,轉步驟3.8;否則,轉步驟3.7;
步驟3.7令a為A的最后一個漢字和b為B的第一個漢字:如果spNum(A,B)freq或者spNum(A,B)=freq∧Q2(A,B)Q,則令freq=spNum(A,B)、Q=Q2(A,B)、U=A、V=B;轉步驟3.8;
步驟3.8如果A,B不是SP的最后一個相鄰語義對,令A,B為SP的下一個相鄰語義對,轉步驟3.5;否則,轉步驟3.9;
步驟3.9如果freq0,則說明在比較中有更新,將U,V裝入result,轉步驟3.10;否則,轉步驟3.11;
步驟3.10遍歷semanticUnitList中的每一個相鄰語義對X,Y,如果X,Y在result中,則將X,Y加入到集合semanticPairSet中,同時從semanticUnitList中刪除X,Y,并將合并后的字符串XY作為一個語義單元插入到semanticUnitList的相應位置中;待遍歷結束,轉步驟3.2;
步驟3.11統計semanticUnitList中所有寬字符長度大于1字符串w的頻率localFreq(w);在給定非偶然共現顯著性水平αp的情況下,如果在w中任意兩個相鄰漢字ci,cj的累積概率Fw(ci,cj)都大于等于1-αp,則將w加入集合Result中;其中,
其中λ=N*Freq(ci,cj)、n=localFreq(w)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京林業大學,未經北京林業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010117792.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種終端匹配多種類型工業相機的方法
- 下一篇:一種新型二階多穩態隨機共振電路





