[發明專利]中文命名實體識別及分類方法和裝置在審
| 申請號: | 202210101567.2 | 申請日: | 2022-01-27 |
| 公開(公告)號: | CN114692634A | 公開(公告)日: | 2022-07-01 |
| 發明(設計)人: | 鄧柯;潘長在;米成;陳靜;李夢琦;李宜斐 | 申請(專利權)人: | 清華大學;上海起承文化發展有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/242 |
| 代理公司: | 北京鴻元知識產權代理有限公司 11327 | 代理人: | 董永輝;曹素云 |
| 地址: | 10008*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 中文 命名 實體 識別 分類 方法 裝置 | ||
1.一種中文命名實體識別及分類方法,其特征在于,包括:
步驟S1,通過正則匹配識別輸入文本中的專業詞語,并合并到預裝詞表中,形成第一詞典,所述預裝詞表中包含有分類的專業詞語;
步驟S2,若第一詞典的各類詞語數量大于預設閾值,則執行步驟S3,否則采用第一實體識別算法從所述輸入文本中得到按照詞語顯著性排序的顯著性詞語列表,對所述顯著性詞語列表進行挑詞,得到挑詞詞表,然后執行步驟S5;
步驟S3,將所述輸入文本、所述第一詞典作為第二實體識別算法的輸入,輸出第一分類詞表,對所述第一分類詞表進行挑詞,獲得挑詞詞表,然后執行步驟S5;
步驟S4,將所述輸入文本、所述第一詞典和挑詞詞表作為第二實體識別算法的輸入,輸出第二分類詞表,對所述第二分類詞表進行挑詞,獲得挑詞詞表,然后執行步驟S5;
步驟S5,若所述挑詞詞表覆蓋核心詞語,則輸出命名實體列表,否則執行步驟S4。
2.根據權利要求1所述的中文命名實體識別及分類方法,其特征在于,所述第一實體識別算法包括:
運用最大期望算法對所述第一詞典進行篩選獲得第二詞典;
運用對數似然比統計量來計算第二詞典中詞語的統計顯著性,以得到第二詞典中詞語的顯著性分值,并根據所述顯著性分值對所述第二詞典中的詞語排序。
3.如權利要求2所述的中文命名實體識別及分類方法,其特征在于,所述運用最大期望算法對所述第一詞典進行篩選獲得第二詞典,包括:
(a)、初值的選取,對于第一詞典中的子字符串Wi,其參數θi的初值設定為
其中,
I(·)是示性函數,
其中,整數值是指字符串Tj中子字符串Wi出現的次數,Lj是Tj的長度,t表示字符串Tj中第t個字符,ki是Wi的長度,Tj[a,b]是Tj中從位置a的字符一直到位置b的字符組成的子字符串;
其中,第一詞典包括N個詞語以及一個特殊終止符號
詞語參數給出了第一詞典D中每個元素的使用概率,其中0≤θi<1對于i=1,2,...,N,并且(D,θ)稱為第一詞典模型;
句子是k個詞語的序列,其中符號“|”表示詞間分割符;
未分詞文本是k個詞語的串聯,未分詞文本不包含詞間分割符;
所述文本T={T1,T2,…,Tn}是n條未分詞文本的集合;
采用如下基本假設:句子是通過對第一詞典D中詞語進行k次獨立的有放回抽取產生的,每次抽取時抽到詞語Wi的概率是θi,直至抽到終止符號時停止,生成句子的似然函數為:
生成未分詞文本Tj的似然函數為:
其中,表示在第一詞典D下,未分詞文本Tj的所有可能分詞方式;
(b)、設θ(r)為在最大期望算法第r輪迭代中得到的參數估計,計算如下統計量:
其中,P(S|Tj;D,θ)表示在第一詞典模型(D,θ)下,Tj由分詞方式S產生的條件概率,定義如下:
ni(S)表示在句子S中詞語Wi出現的次數;
(c)、按照如下公式更新對參數θ的估計
(d)、反復迭代步驟b和步驟c,直到θ(r)和θ(r+1)之間的歐氏距離d(θ(r),θ(r+1))小于預先給定的閾值;
(e)、將所述第一詞典D中的所有參數θ不為零的詞語構成所述第二詞典。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學;上海起承文化發展有限公司,未經清華大學;上海起承文化發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210101567.2/1.html,轉載請聲明來源鉆瓜專利網。





