[發明專利]實體標簽的確定方法和裝置在審
| 申請號: | 202010617196.4 | 申請日: | 2020-06-30 |
| 公開(公告)號: | CN111967262A | 公開(公告)日: | 2020-11-20 |
| 發明(設計)人: | 程鳴權;楊浩;劉昊;劉歡;陳坤斌;劉準;何伯磊;和為 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/30;G06F16/2458;G06F16/31;G06F16/36;G06N3/04;G06N3/08;G06N20/00 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 石茵汀 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 實體 標簽 確定 方法 裝置 | ||
1.一種實體標簽的確定方法,包括:
獲取與目標文檔的文檔類型對應的實體標簽庫,其中,所述實體標簽庫中包括與所述文檔類型對應的多個實體標簽;
將所述目標文檔與所述實體標簽庫匹配,獲取匹配成功的多個候選實體標簽;
獲取所述目標文檔的屬性特征,并根據所述目標文檔獲取與每個所述候選實體標簽對應的標簽特征;
將所述屬性特征和所述標簽特征輸入預先訓練的標簽識別模型,獲取與每個所述候選實體標簽對應的第一置信度;
根據所述第一置信度從所述多個候選實體標簽中,確定所述目標文檔的目標實體標簽。
2.如權利要求1所述的方法,在所述獲取與目標文檔的文檔類型對應的實體標簽庫之前,還包括:
獲取與所述文檔類型對應的文檔搜索日志、專業文檔、知識圖譜和關聯垂類文檔;
提取所述文檔搜索日志中的搜索詞,對所述搜索詞切詞處理獲取搜索分詞,并根據所述搜索分詞獲取所述文檔類型對應的第一參考實體標簽;
提取所述專業文檔中的多個關鍵詞,根據預設算法計算所述多個關鍵詞中的每個關鍵詞在所述專業文檔的重要值;
根據所述重要值在所述多個關鍵詞中確定預設個數的目標關鍵詞為第二參考實體標簽;
識別所述知識圖譜和所述關聯垂類文檔中的專有名詞,并根據所述專有名詞確定第三參考實體標簽;
根據所述第一參考實體標簽、所述第二參考實體標簽和所述第三參考實體標簽確定所述實體標簽庫。
3.如權利要求2所述的方法,其中,所述根據所述第一參考實體標簽、所述第二參考實體標簽和所述第三參考實體標簽確定所述實體標簽庫,包括:
將所述第一參考實體標簽、所述第二參考實體標簽和所述第三參考實體標簽中的每個參考實體標簽,輸入預先訓練的神經網絡模型,獲取與所述每個參考實體標簽對應的第二置信度;
根據所述第二置信度大于預設置信值的參考實體標簽,確定所述實體標簽庫。
4.如權利要求2所述的方法,其中,所述根據所述搜索分詞獲取所述文檔類型對應的第一參考實體標簽,包括:
根據文檔搜索日志的搜索分詞構建所述搜索詞的第一倒排索引表;
確定所述第一倒排索引表中的節點優先級大于預設等級的目標節點;
確定所述目標節點在所述第一倒排索引表中的第一節點路徑,根據所述第一節點路徑覆蓋的搜索分詞確定所述第一參考實體標簽。
5.如權利要求1所述的方法,其中,所述將所述目標文檔與所述實體標簽庫匹配,獲取匹配成功的多個候選實體標簽,包括:
對所述目標文檔的文檔標題和文檔內容切詞處理,獲取多個文檔分詞;
對所述實體標簽切詞處理獲取標簽分詞,并根據所述標簽分詞構建與所述實體標簽庫對應的第二倒排索引表;
將多個文檔分詞中的每個文檔分詞與第二倒排索引表中的節點匹配,判斷是否包含與每個文檔分詞對應的第二節點路徑;
若包含所述第二節點路徑,則確定所述第二節點路徑對應的實體標簽為候選實體標簽。
6.如權利要求5所述的方法,在所述確定所述第二節點路徑對應的實體標簽為所述候選實體標簽之前,還包括:
統計所述第二節點路徑對應的實體標簽在所述目標文檔中的出現次數;
確定所述出現次數大于預設次數閾值。
7.如權利要求1所述的方法,其中,所述將所述目標文檔與所述實體標簽庫匹配,獲取匹配成功的多個候選實體標簽,包括:
計算所述目標文檔的文檔標題的標題語義向量;
計算每個所述實體標簽的標簽語義向量;
計算所述標題語義向量和每個所述實體標簽的標簽語義向量的語義相似度,確定所述語義相似度大于預設相似閾值的實體標簽為候選實體標簽。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010617196.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:動畫驅動方法、裝置、電子設備及存儲介質
- 下一篇:一種深度清潔作業車





