[發明專利]核心實體標注方法、裝置及電子設備有效
| 申請號: | 202010042343.X | 申請日: | 2020-01-15 |
| 公開(公告)號: | CN111241832B | 公開(公告)日: | 2023-08-15 |
| 發明(設計)人: | 王述;任可欣;張曉寒;馮知凡;張揚;朱勇 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/30;G06F16/36 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 戎鄭華 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 核心 實體 標注 方法 裝置 電子設備 | ||
本申請提出一種核心實體標注方法、裝置及電子設備,涉及智能搜索技術領域。其中,該方法包括:分別將目標文本進行字向量映射、詞向量映射及實體向量映射,獲取目標文本分別對應的字向量序列、第一詞向量序列及實體向量序列;根據目標文本對應的字向量序列、第一詞向量序列及實體向量序列,生成目標文本對應的目標向量序列;利用預設的網絡模型對目標向量序列進行編碼、解碼處理,確定目標文本中每個字符作為核心實體的起始字符概率、及終止字符概率;根據每個字符作為核心實體的起始字符概率、及終止字符概率,確定目標文本的核心實體。由此,通過這種核心實體標注方法,準確提取文本中的核心實體,豐富了文本核心內容的語義信息,通用性好。
技術領域
本申請涉及計算機技術領域,尤其涉及智能搜索技術領域,提出一種核心實體標注方法、裝置及電子設備。
背景技術
隨著信息技術的發展,文本數據呈爆炸性增長,面對于海量的文本內容,僅靠人工處理是無法完成從中提取出核心內容的,因此迫切需要計算機技術實現對于文本內容的智能化理解,實現自動化、智能化的文本內容生產、處理和分發推薦。其中,實體理解是文本理解中重要的一環,并且通過核心實體的標注可以延展出對應的實體側面、話題等其他細粒度的文本理解結果,從而能幫助用戶更好的理解網頁文本資源或者根據用戶的意圖推薦更符合用戶需求的文本資源。
相關技術中,通常通過提取能夠描述短文本核心內容的關鍵詞,來表征短文本的核心內容。但是,由于關鍵詞不一定為實體詞,從而使確定的短文本核心內容,缺失語義信息,難以滿足不同的應用需求。
發明內容
本申請提出的核心實體標注方法、裝置及電子設備,用于解決相關技術中,通過提取短文本的關鍵詞來表征短文本核心內容的方式,由于關鍵詞不一定為實體詞,從而使確定的短文本核心內容,缺失語義信息,難以滿足不同的應用需求的問題。
本申請一方面實施例提出的核心實體標注方法,包括:分別將目標文本進行字向量映射、詞向量映射及實體向量映射,獲取所述目標文本分別對應的字向量序列、第一詞向量序列及實體向量序列,其中,所述字向量序列包括所述目標文本中每個字符對應的字向量,所述第一詞向量序列包括所述目標文本中每個分詞對應的詞向量,所述實體向量序列包括所述目標文本中每個實體對應的實體向量;根據所述目標文本對應的字向量序列、第一詞向量序列及實體向量序列,生成所述目標文本對應的目標向量序列;利用預設的網絡模型對所述目標向量序列進行編碼、解碼處理,確定所述目標文本中每個字符作為核心實體的起始字符概率、及終止字符概率;根據每個字符作為核心實體的起始字符概率、及終止字符概率,確定所述目標文本的核心實體。
本申請另一方面實施例提出的核心實體標注裝置,包括:第一獲取模塊,用于分別將目標文本進行字向量映射、詞向量映射及實體向量映射,獲取所述目標文本分別對應的字向量序列、第一詞向量序列及實體向量序列,其中,所述字向量序列包括所述目標文本中每個字符對應的字向量,所述第一詞向量序列包括所述目標文本中每個分詞對應的詞向量,所述實體向量序列包括所述目標文本中每個實體對應的實體向量;生成模塊,用于根據所述目標文本對應的字向量序列、第一詞向量序列及實體向量序列,生成所述目標文本對應的目標向量序列;第一確定模塊,用于利用預設的網絡模型對所述目標向量序列進行編碼、解碼處理,確定所述目標文本中每個字符作為核心實體的起始字符概率、及終止字符概率;第二確定模塊,用于根據每個字符作為核心實體的起始字符概率、及終止字符概率,確定所述目標文本的核心實體。
本申請再一方面實施例提出的電子設備,其包括:至少一個處理器;以及與所述至少一個處理器通信連接的存儲器;其中,所述存儲器存儲有可被所述至少一個處理器執行的指令,所述指令被所述至少一個處理器執行,以使所述至少一個處理器能夠執行如前所述的核心實體標注方法。
本申請又一方面實施例提出的存儲有計算機指令的非瞬時計算機可讀存儲介質,其特征在于,所述計算機指令用于使所述計算機執行如前所述的核心實體標注方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010042343.X/2.html,轉載請聲明來源鉆瓜專利網。





