[發明專利]一種基于同類實體替換的語句標注的方法及裝置在審
| 申請號: | 201911032391.4 | 申請日: | 2019-10-28 |
| 公開(公告)號: | CN110851597A | 公開(公告)日: | 2020-02-28 |
| 發明(設計)人: | 胡偉鳳;高雪松;陳維強 | 申請(專利權)人: | 青島聚好聯科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/295;G06N3/04;G06N3/08 |
| 代理公司: | 北京同達信恒知識產權代理有限公司 11291 | 代理人: | 張懷陽 |
| 地址: | 266101 山*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 同類 實體 替換 語句 標注 方法 裝置 | ||
本發明公開了一種基于同類實體替換的語句標注的方法及裝置,該方法包括獲取用戶輸入的語句,根據用戶輸入的語句和命名實體識別模型,確定出用戶輸入的語句對應的實體標簽序列,根據實體標簽序列中的實體標簽,確定實體標簽序列中的實體是否存在同類實體,若是,根據同類實體和所述實體標簽序列,生成新的語句的實體標簽序列。通過字符嵌入層、第一特征學習層、第二特征學習層和概率預測層識別的實體標簽序列,相比于現有的長短時記憶模型與概率分布預測模型串行解決方案,識別的準確率有顯著提高,通過同類實體的替換,可以有效提高新詞的發現能力,擴展模型的訓練集中的數據。
技術領域
本發明實施例涉及自然語言處理技術領域,尤其涉及一種基于同類實體替換的語句標注的方法及裝置。
背景技術
命名實體識別為自然語言處理中的基礎任務,奠定了下游實體鏈接、關系抽取、語義搜索和自動問答等一系列任務的基石。業界廣泛應用長短時記憶模型與概率分布預測模型串行解決方案,但其模型訓練需要依賴大量人工標注數據,特別在中文垂直領域應用中,模型的產業化應用效果完全依賴大量的領域知識進行訓練。在實際應用中,系統的命名實體識別的表現力不僅要考慮準確率還要考慮召回率,而在垂直領域中,對不在訓練集中或訓練集中出現頻率低的新詞發現能力亟待提升。
發明內容
本發明實施例提供一種基于同類實體替換的語句標注的方法及裝置,用以增加新詞的發現能力,擴充訓練集的數據。
第一方面,本發明實施例提供一種基于同類實體替換的語句標注的方法,包括:
獲取用戶輸入的語句;
根據所述用戶輸入的語句和命名實體識別模型,確定出所述用戶輸入的語句對應的實體標簽序列;所述命名實體識別模型包括字符嵌入層、第一特征學習層、第二特征學習層和概率預測層;所述命名實體識別模型是通過對實體標簽序列訓練集進行訓練得到的;
根據所述實體標簽序列中的實體標簽,確定所述實體標簽序列中的實體是否存在同類實體,若是,根據所述同類實體和所述實體標簽序列,生成新的語句的實體標簽序列。
上述技術方案中,通過字符嵌入層、第一特征學習層、第二特征學習層和概率預測層識別的實體標簽序列,相比于現有的LSTM+CRF模型,識別的準確率有顯著提高,通過同類實體的替換,可以有效提高新詞的發現能力,擴展模型的訓練集中的數據。
可選的,所述根據所述用戶輸入的語句和命名實體識別模型,確定出所述用戶輸入的語句對應的實體標簽序列,包括:
通過所述字符嵌入層,將所述用戶輸入的語句轉化為第一嵌入空間向量;
將所述第一嵌入空間向量輸入至所述第一特征學習層,提取所述用戶輸入的語句的第一特征;
將所述用戶輸入的語句的第一特征輸入至所述第二特征學習層,提取所述用戶輸入的語句的第二特征;
將所述用戶輸入的語句的第二特征輸入至所述概率預測層,得到所述用戶輸入的語句對應的實體標簽序列。
可選的,所述根據所述同類實體和所述實體標簽序列,生成新的語句的實體標簽序列,包括:
將所述實體標簽序列中實體標簽相同的實體替換為所述同類實體,作為所述新的語句的實體標簽序列。
可選的,在生成新的語句的實體標簽序列之后,還包括:
將所述新的語句的實體標簽序列放入所述實體標簽序列訓練集,重新訓練所述命名實體識別模型。
第二方面,本發明實施例提供一種基于同類實體替換的語句標注的裝置,包括:
獲取單元,用于獲取用戶輸入的語句;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于青島聚好聯科技有限公司,未經青島聚好聯科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911032391.4/2.html,轉載請聲明來源鉆瓜專利網。





