[發(fā)明專利]一種面向中醫(yī)古籍文獻的命名實體識別方法和裝置在審
| 申請?zhí)枺?/td> | 201910340359.6 | 申請日: | 2019-04-25 |
| 公開(公告)號: | CN110321550A | 公開(公告)日: | 2019-10-11 |
| 發(fā)明(設計)人: | 謝永紅;夏超;張德政;阿孜古麗;栗輝;楊石兵 | 申請(專利權)人: | 北京科技大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京市廣友專利事務所有限責任公司 11237 | 代理人: | 張仲波 |
| 地址: | 100083*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 中醫(yī) 語料 命名實體 詞表 測試數(shù)據(jù)集 方法和裝置 訓練數(shù)據(jù)集 短語 測試文件 實體類型 驗證數(shù)據(jù) 中醫(yī)古籍 讀入 標注 輸出 數(shù)據(jù)訓練 挖掘 詞語 預測 | ||
本發(fā)明的實施例公開一種面向中醫(yī)古籍文獻的命名實體識別方法和裝置,所述方法包括:整理至少一種實體類型的實體詞語,得到一個包含待識別的實體類型的第一中醫(yī)領域詞表;使用AutoPhrase自動短語挖掘技術,從中醫(yī)古文語料中進行短語挖掘,得到第二中醫(yī)領域詞表;根據(jù)預定的回標策略,標注出所述中醫(yī)古文語料中出現(xiàn)的實體;得到中醫(yī)古文語料的標注數(shù)據(jù);生成訓練數(shù)據(jù)集、驗證數(shù)據(jù)集、測試數(shù)據(jù)集,將訓練數(shù)據(jù)集輸出到訓練文件中,驗證數(shù)據(jù)集和測試數(shù)據(jù)集輸出到測試文件中;從所述訓練文件、測試文件中讀入數(shù)據(jù),根據(jù)所述讀入數(shù)據(jù)訓練自動命名實體識別模型,對所述中醫(yī)古文語料進行預測,得到識別的結果;根據(jù)結果得到識別的實體。
技術領域
本發(fā)明涉及中文處理領域,尤其涉及一種面向中醫(yī)古籍文獻的命名實體識別方法和裝置。
背景技術
隨著技術的發(fā)展,需要對中醫(yī)古籍文獻進行命名實體識別處理。目前的方法都需要大量的人工標注數(shù)據(jù)或者設計特征,然而中醫(yī)領域的標注和特征設計需要領域知識,所以代價較高。
發(fā)明內容
有鑒于此,本發(fā)明實施例提供一種面向中醫(yī)古籍文獻的命名實體識別方法和裝置,能夠提高中醫(yī)古籍文獻的命名實體識別的自動化水平。
一種面向中醫(yī)古籍文獻的命名實體識別方法,包括:
S1、整理至少一種實體類型的實體詞語,得到一個包含待識別的實體類型的第一中醫(yī)領域詞表;所述第一中醫(yī)領域詞表包括實體詞語和對應的實體類型;
S2、使用AutoPhrase自動短語挖掘技術,從中醫(yī)古文語料中進行短語挖掘,得到所有可能的實體詞語,得到第二中醫(yī)領域詞表,所述第二中醫(yī)領域詞表包括實體詞語;
S3、結合所述第一中醫(yī)領域詞表和所述第二中醫(yī)領域詞表,根據(jù)預定的回標策略,標注出所述中醫(yī)古文語料中出現(xiàn)的實體;
S4、結合所述中醫(yī)古文語料的回標結果和tie/break連接/斷開標注模式,得到中醫(yī)古文語料的標注數(shù)據(jù);
S5、結合所述標注數(shù)據(jù)和根據(jù)所述中醫(yī)古文語料訓練得到的預訓練模型WordEmbedding詞嵌入,生成訓練數(shù)據(jù)集、驗證數(shù)據(jù)集、測試數(shù)據(jù)集,將訓練數(shù)據(jù)集輸出到訓練文件中,驗證數(shù)據(jù)集和測試數(shù)據(jù)集輸出到測試文件中;
S6、從所述訓練文件、測試文件中讀入數(shù)據(jù),根據(jù)所述讀入數(shù)據(jù)訓練AutoNER自動命名實體識別模型,并使用訓練得到的所述AutoNER自動命名實體識別模型,對所述中醫(yī)古文語料進行預測,得到識別的結果;根據(jù)結果得到識別的實體。
一種面向中醫(yī)古籍文獻的命名實體識別裝置,包括:
整理單元,整理至少一種實體類型的實體詞語,得到一個包含待識別的實體類型的第一中醫(yī)領域詞表;所述第一中醫(yī)領域詞表包括實體詞語和對應的實體類型;
挖掘單元,使用AutoPhrase自動短語挖掘技術,從中醫(yī)古文語料中進行短語挖掘,得到所有可能的實體詞語,得到第二中醫(yī)領域詞表,所述第二中醫(yī)領域詞表包括實體詞語;
標注單元,結合所述第一中醫(yī)領域詞表和所述第二中醫(yī)領域詞表,根據(jù)預定的回標策略,標注出所述中醫(yī)古文語料中出現(xiàn)的實體;
處理單元,結合所述中醫(yī)古文語料的回標結果和tie/break連接/斷開標注模式,得到中醫(yī)古文語料的標注數(shù)據(jù);
輸出單元,結合所述標注數(shù)據(jù)和根據(jù)所述中醫(yī)古文語料訓練得到的預訓練模型Word Embedding詞嵌入,生成訓練數(shù)據(jù)集、驗證數(shù)據(jù)集、測試數(shù)據(jù)集,將訓練數(shù)據(jù)集輸出到訓練文件中,驗證數(shù)據(jù)集和測試數(shù)據(jù)集輸出到測試文件中;
預測單元,從所述訓練文件、測試文件中讀入數(shù)據(jù),根據(jù)所述讀入數(shù)據(jù)訓練AutoNER自動命名實體識別模型,并使用訓練得到的所述AutoNER自動命名實體識別模型,對所述中醫(yī)古文語料進行預測,得到識別的結果;根據(jù)結果得到識別的實體。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京科技大學,未經(jīng)北京科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910340359.6/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 中醫(yī)健康管理系統(tǒng)及智能終端
- 基于中醫(yī)體質辨識的健康管理系統(tǒng)及智能終端
- 一種中醫(yī)古代文獻半監(jiān)督學習方法和系統(tǒng)
- 一種中醫(yī)健康狀態(tài)多維辨識系統(tǒng)
- 中醫(yī)體質類型檢測方法及裝置
- 一種基于證素的中醫(yī)輔助診斷系統(tǒng)
- 基于DAELA-LSTM神經(jīng)網(wǎng)絡的痛經(jīng)中醫(yī)辨證系統(tǒng)
- 一種基于中醫(yī)養(yǎng)生功法的健康數(shù)據(jù)管理平臺
- 一種面向中醫(yī)古籍文獻的分詞方法和裝置
- 數(shù)據(jù)處理方法、裝置、設備和存儲介質





