[發明專利]一種面向中醫古籍文獻的命名實體識別方法和裝置在審
| 申請號: | 201910340359.6 | 申請日: | 2019-04-25 |
| 公開(公告)號: | CN110321550A | 公開(公告)日: | 2019-10-11 |
| 發明(設計)人: | 謝永紅;夏超;張德政;阿孜古麗;栗輝;楊石兵 | 申請(專利權)人: | 北京科技大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京市廣友專利事務所有限責任公司 11237 | 代理人: | 張仲波 |
| 地址: | 100083*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 中醫 語料 命名實體 詞表 測試數據集 方法和裝置 訓練數據集 短語 測試文件 實體類型 驗證數據 中醫古籍 讀入 標注 輸出 數據訓練 挖掘 詞語 預測 | ||
1.一種面向中醫古籍文獻的命名實體識別方法,其特征在于,包括:
S1、整理至少一種實體類型的實體詞語,得到一個包含待識別的實體類型的第一中醫領域詞表;所述第一中醫領域詞表包括實體詞語和對應的實體類型;
S2、使用AutoPhrase自動短語挖掘技術,從中醫古文語料中進行短語挖掘,得到所有可能的實體詞語,得到第二中醫領域詞表,所述第二中醫領域詞表包括實體詞語;
S3、結合所述第一中醫領域詞表和所述第二中醫領域詞表,根據預定的回標策略,標注出所述中醫古文語料中出現的實體;
S4、結合所述中醫古文語料的回標結果和tie/break連接/斷開標注模式,得到中醫古文語料的標注數據;
S5、結合所述標注數據和根據所述中醫古文語料訓練得到的預訓練模型WordEmbedding詞嵌入,生成訓練數據集、驗證數據集、測試數據集,將訓練數據集輸出到訓練文件中,驗證數據集和測試數據集輸出到測試文件中;
S6、從所述訓練文件、測試文件中讀入數據,根據所述讀入數據訓練AutoNER自動命名實體識別模型,并使用訓練得到的所述AutoNER自動命名實體識別模型,對所述中醫古文語料進行預測,得到識別的結果;根據結果得到識別的實體。
2.根據權利要求1所述的方法,其特征在于,所述步驟S1包括:
S101、整理至少一種實體類型的實體詞語,所述整理包括:對實體進行清理,刪除空格、標點符號;
S102、刪除現有詞表中有歧義性的實體,并對同類型的實體進行去重的操作,得到待識別的類型的實體組成的第一中醫領域詞表。
3.根據權利要求1所述的方法,其特征在于,所述步驟S2包括:
S201、設置AutoPhrase自動短語挖掘腳本中的輸入輸出路徑、短語挖掘的詞頻以及程序運行的線程數;
S202、根據所述中醫古文語料,對中文的停用詞表進行維護,添加需要過濾的字和詞;
S203、在詞表中添加中醫古文語料中的中醫專業術語以提升短語挖掘的質量,然后進行短語挖掘,生成第二中醫領域詞表,所述第二中醫領域詞表為根據短語質量分數從高到低排序的詞表。
4.根據權利要求1所述的方法,其特征在于,所述步驟S3包括:
301、合并所述第一中醫領域詞表和所述第二中醫領域詞表;對于所述第一中醫領域詞表,將實體以及對應的類型讀入;
S302、對所述第二中醫領域詞表進行清理,刪除前后空格、換行符,并且過濾掉單字的實體;設置兩個可信閾值,分別對于單詞和多詞組成的實體進行篩選,超過所述可信閾值,則合并進最終詞表,在合并時保存實體詞語,對應的實體類型設為NULL;
S303、根據回標策略,對于中醫古文中的每一句,返回其中可能出現的實體以及對應的實體類型;
所述回標策略包括:
對于一個長詞包含至少兩個短詞情況,采用長詞優先的策略,并且標注詞語對應的實體類型;對于長詞由至少兩個短詞組成情況,將所述長詞的每個短詞的實體類型標注為NULL;對于至少兩個詞交集沖突的情況,將所述兩個詞的實體類型都標注為NULL。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京科技大學,未經北京科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910340359.6/1.html,轉載請聲明來源鉆瓜專利網。





