[發明專利]一種特定領域命名實體識別方法在審
| 申請號: | 202210003814.5 | 申請日: | 2022-01-05 |
| 公開(公告)號: | CN114330349A | 公開(公告)日: | 2022-04-12 |
| 發明(設計)人: | 宋曉;李曉慶;崔勇;周軍華 | 申請(專利權)人: | 北京航空航天大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 特定 領域 命名 實體 識別 方法 | ||
1.一種特定領域命名實體識別方法,主要包括以下步驟:
(1)獲取領域知識庫,使用短語挖掘對文本語料進行高質量短語詞表構建,補充現有特定領域知識庫的內容。
(2)采用遠程監督方法對文本語料進行標注,將領域知識庫中實體所對應的類型作為該實體在文本中的類型。
(3)構建特定領域細粒度命名實體識別模型,將標注好的文本語料分為訓練集、驗證集與測試集,對模型進行訓練,最后使用訓練好的模型獲取文本中細粒度實體類型的實體集合獲取。
2.根據權利要求1所述的一種特定領域命名實體識別模型,其特征在于:
模型分為兩個階段,分別為候選實體獲取與實體類型判斷,通過引入命名實體類型標簽的語義相關性,完成特定領域中細粒度命名實體類型的篩選。
候選實體獲取階段獲取實體邊界信息,從而獲取候選實體。主要包含預訓練編碼層完成文本語料中原始字、詞向量形式的轉化;雙向長短記憶網絡完成文本全局上下文特征;邏輯回歸分類層完成候選實體邊界的判斷。
實體類型判斷階段由長短記憶網絡和雙向長短記憶網絡組成的特征表示層完成候選實體及其上下文語義環境的特征獲??;線性映射函數和計算公式組成的相似度計算層完成候選實體與實體類型集合間的相似度獲??;最后采用遞歸搜索實現候選實體對應類型的選擇與輸出。
線性映射函數φM與φL的具體定義為:
相似度計算函數s具體定義為:
式中:表示候選實體特征表示向量的實數空間,表示類型標簽表示初始向量的實數空間,表示二者嵌入的實數空間。U和V分別是特征表示和類型標簽的投影矩陣,fi為第i個候選實體的特征表示,為第i個候選實體所對應類型標簽的獨熱向量編碼表示。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210003814.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種PE管的制造工藝
- 下一篇:一種心理教育學用環境模擬裝置





