[發明專利]實體詞識別方法和裝置有效
| 申請號: | 202010103350.6 | 申請日: | 2020-02-19 |
| 公開(公告)號: | CN111339268B | 公開(公告)日: | 2023-08-15 |
| 發明(設計)人: | 史亞冰;李雙婕;蔣燁;張揚;朱勇 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/36 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 王艷斌 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 實體詞 識別 方法 裝置 | ||
1.一種實體詞識別方法,其特征在于,包括:
獲取實體詞類別和待識別文檔;
根據所述實體詞類別生成實體詞問題;
對所述待識別文檔拆分,生成多個候選語句;
將所述實體詞問題和所述多個候選語句輸入預先訓練的問答模型,獲取實體詞識別結果;
根據所述實體詞識別結果獲取與所述實體詞問題對應的實體詞集合。
2.如權利要求1所述的方法,其特征在于,在所述將所述實體詞問題和所述多個候選語句輸入預先構建的問答模型之前,包括:
獲取樣本實體詞問題和樣本識別文檔;
對所述樣本識別文檔拆分處理,獲取多個候選樣本語句;
將所述實體詞問題和所述多個候選樣本語句輸入初始問答模型;
控制所述初始問答模型的嵌入層,提取所述樣本實體詞問題的第一特征和所述多個樣本語句的第二特征;
拼接所述第一特征和所述第二特征生成樣本特征;
將所述樣本特征輸入所述初始問答模型的模型層,獲取所述模型層輸出的樣本實體詞;
判斷所述樣本實體詞與預先標注的所述樣本識別文檔中的目標實體詞是否一致;
若不一致,則繼續調節所述初始問答模型的模型參數,直至所述樣本實體詞與預先標注的所述樣本識別文檔中的目標實體詞一致。
3.如權利要求2所述的方法,其特征在于,所述模型層包括多層解碼單元,每一層解碼單元的解碼子單元的數量與所述樣本特征對應的長度一致,所述每一層解碼單元的解碼子單元互不連接,所述多層解碼單元中,每一層的每個解碼子單元與上一層中的所有解碼子單元連接,所述將所述樣本特征輸入所述初始問答模型的模型層,包括:
將所述樣本特征中的每個子特征輸入到對應位置的第一層解碼單元的子單元;
獲取所述模型層最后一層解碼單元對應位置輸出的實體詞解碼結果。
4.如權利要求1所述的方法,其特征在于,還包括:
對所述實體詞集合中每個實體詞進行語義分析,獲取所述每個實體詞的語義通順度;
過濾掉所述實體詞集合中,所述語義通順度小于預設閾值的實體詞;
將過濾后的所述實體詞集合提供給用戶。
5.如權利要求1所述的方法,其特征在于,還包括:
獲取所述實體詞集合中每個實體詞的長度;
過濾掉所述實體詞集合中,所述長度不屬于預設長度范圍的實體詞;
將過濾后的所述實體詞集合提供給用戶。
6.如權利要求1所述的方法,其特征在于,所述根據所述實體詞識別結果獲取與所述實體詞問題對應的實體詞集合,包括:
識別所述問答模型輸出的與多個后續語句對應的標注語句;
識別所述標注語句中的開始標識和結束標識;
提取所述開始標識和相鄰結束標識之間的實體詞,生成所述實體詞集合。
7.一種實體詞識別裝置,其特征在于,包括:
第一獲取模塊,用于獲取實體詞類別和待識別文檔;
第一生成模塊,用于根據所述實體詞類別生成實體詞問題;
第二生成模塊,用于對所述待識別文檔拆分,生成多個候選語句;
第二獲取模塊,用于將所述實體詞問題和所述多個候選語句輸入預先訓練的問答模型,獲取實體詞識別結果;
第三獲取模塊,用于根據所述實體詞識別結果獲取與所述實體詞問題對應的實體詞集合。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010103350.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于相似性損失的行為識別方法
- 下一篇:地圖展示方法與系統





