[發明專利]實體標簽的確定方法和裝置在審
| 申請號: | 202010617196.4 | 申請日: | 2020-06-30 |
| 公開(公告)號: | CN111967262A | 公開(公告)日: | 2020-11-20 |
| 發明(設計)人: | 程鳴權;楊浩;劉昊;劉歡;陳坤斌;劉準;何伯磊;和為 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/30;G06F16/2458;G06F16/31;G06F16/36;G06N3/04;G06N3/08;G06N20/00 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 石茵汀 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 實體 標簽 確定 方法 裝置 | ||
本申請公開了實體標簽的確定方法和裝置,涉及自然語言處理技術領域、大數據處理技術領域、深度學習技術領域,具體實現方案為:獲取與目標文檔的文檔類型對應的實體標簽庫,其中,實體標簽庫中包括與文檔類型對應的多個實體標簽;將目標文檔與實體標簽庫匹配,獲取匹配成功的多個候選實體標簽;獲取目標文檔的屬性特征,并根據目標文檔獲取與每個候選實體標簽對應的標簽特征;將屬性特征和標簽特征輸入預先訓練的標簽識別模型,獲取與每個候選實體標簽對應的第一置信度;根據第一置信度從多個候選實體標簽中,確定目標文檔的目標實體標簽。由此,以半自動化的方式實現實體標簽的確定,提升了實體標簽確定的準確率和召回率,且降低了人工成本。
技術領域
本申請涉及自然語言處理技術領域、大數據處理技術領域、深度學習技術領域,尤其涉及一種實體標簽的確定方法和裝置。
背景技術
隨著互聯網技術的發展,各種知識管理場景也實現了與互聯網技術的結合,比如,在線實現企業知識文檔的管理,比如,在線實現技術文檔的搜尋等,其中,無論是對有關文檔進行何種場景的應用,都依賴于有關文檔的實體標簽的標注。
相關技術中,打實體標簽的方式為需要業務專家人工梳理標簽體系,進而基于關鍵詞匹配技術,將文檔的關鍵詞與標簽體系匹配,進行文檔實體標簽的確定。
然而,上述實體標簽的確定方式,不但使得人工成本較高,而且實體標簽的準確率依賴于人工梳理標簽體系的全面性和準確性,實體標簽的準確率和召回率較低。
發明內容
本申請提供了一種實體標簽的確定方法和裝置,由此,以半自動化的方式實現實體標簽的確定,提升了實體標簽確定的準確率和召回率,且降低了人工成本。
根據本申請的一方面,提供了一種實體標簽的確定方法,包括:獲取與目標文檔的文檔類型對應的實體標簽庫,其中,所述實體標簽庫中包括與所述文檔類型對應的多個實體標簽;將所述目標文檔與所述實體標簽庫匹配,獲取匹配成功的多個候選實體標簽;獲取所述目標文檔的屬性特征,并根據所述目標文檔獲取與每個所述候選實體標簽對應的標簽特征;將所述屬性特征和所述標簽特征輸入預先訓練的標簽識別模型,獲取與每個所述候選實體標簽對應的第一置信度;根據所述第一置信度從所述多個候選實體標簽中,確定所述目標文檔的目標實體標簽。
根據本申請的另一方面,提供了一種實體標簽的確定裝置,包括:第一獲取模塊,用于獲取與目標文檔的文檔類型對應的實體標簽庫,其中,所述實體標簽庫中包括與所述文檔類型對應的多個實體標簽;第二獲取模塊,用于將所述目標文檔與所述實體標簽庫匹配,獲取匹配成功的多個候選實體標簽;第三獲取模塊,用于獲取所述目標文檔的屬性特征,并根據所述目標文檔獲取與每個所述候選實體標簽對應的標簽特征;第四獲取模塊,用于將所述屬性特征和所述標簽特征輸入預先訓練的標簽識別模型,獲取與每個所述候選實體標簽對應的第一置信度;第一確定模塊,用于根據所述第一置信度從所述多個候選實體標簽中,確定所述目標文檔的目標實體標簽。
根據本申請的再一方面,提供了一種電子設備,包括:至少一個處理器;以及與所述至少一個處理器通信連接的存儲器;其中,所述存儲器存儲有可被所述至少一個處理器執行的指令,所述指令被所述至少一個處理器執行,以使所述至少一個處理器能夠執行如前所述的實體標簽的確定方法。
根據本申請的又一方面,提供了一種存儲有計算機指令的非瞬時計算機可讀存儲介質,其中,所述計算機指令用于使所述計算機執行如前所述的實體標簽的確定方法。
本申請公開的技術方案,至少包括如下附加的技術特征:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010617196.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:動畫驅動方法、裝置、電子設備及存儲介質
- 下一篇:一種深度清潔作業車





