[發明專利]用于處理信息的方法和裝置在審
| 申請號: | 201811542556.8 | 申請日: | 2018-12-17 |
| 公開(公告)號: | CN109635114A | 公開(公告)日: | 2019-04-16 |
| 發明(設計)人: | 熊皓;何中軍;李芝;忻舟;王海峰 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京英賽嘉華知識產權代理有限責任公司 11204 | 代理人: | 王達佐;馬曉亞 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本信息 描述信息 上下文信息 相似度 方法和裝置 處理信息 計算實體 準確度 預設 解析 集合 申請 | ||
本申請實施例公開了用于處理信息的方法和裝置。該方法的一具體實施方式包括對獲取到的文本信息進行解析,確定文本信息中的實體;從文本信息中提取實體的上下文信息;從預設的實體描述信息集合中確定出實體對應的實體描述信息;計算實體的上下文信息與實體對應的實體描述信息之間的相似度;基于相似度,利用實體對應的實體描述信息對文本信息中的實體進行處理。該實施方式基于實體的上下文信息與實體對應的實體描述信息之間的相似度對文本信息中的實體進行處理,提高了對文本信息中的實體的處理準確度。
技術領域
本申請實施例涉及計算機技術領域,具體涉及用于處理信息的方法和裝置。
背景技術
傳統的閱讀文本通常都是純文本。對于閱讀者來說,有時候對于文本中的陌生詞語需要進行額外的查詢擴展閱讀才能理解具體的含義。這種現象在閱讀外文書籍時顯得更常見。由于對其他國家和文化的理解差異,對于一些術語、專有名詞等實體了解較少,因此僅為用戶提供純文本,難以達到良好的閱讀體驗。
目前,在純文本的基礎上對實體進行擴展的方式通常是對文本中的實體直接匹配來獲取對應的實體解釋信息。
發明內容
本申請實施例提出了用于處理信息的方法和裝置。
第一方面,本申請實施例提供了一種用于處理信息的方法,包括:對獲取到的文本信息進行解析,確定文本信息中的實體;從文本信息中提取實體的上下文信息;從預設的實體描述信息集合中確定出實體對應的實體描述信息;計算實體的上下文信息與實體對應的實體描述信息之間的相似度;基于相似度,利用實體對應的實體描述信息對文本信息中的實體進行處理。
在一些實施例中,對獲取到的文本信息進行解析,確定文本信息中的實體,包括:對文本信息進行分詞,得到文本信息中的關鍵詞;將關鍵詞在實體描述信息集合對應的實體集合中匹配,以及基于匹配結果,確定文本信息中的實體。
在一些實施例中,計算實體的上下文信息與實體對應的實體描述信息之間的相似度,包括:將實體的上下文信息輸入至預先訓練的第一特征提取模型,得到實體的上下文信息的特征向量;將實體對應的實體描述信息輸入至預先訓練的第二特征提取模型,得到實體對應的實體描述信息的特征向量;計算實體的上下文信息的特征向量與實體對應的實體描述信息的特征向量之間的余弦相似度。
在一些實施例中,基于相似度,利用實體對應的實體描述信息對文本信息中的實體進行處理,包括:若余弦相似度大于第一預設相似度閾值,為文本信息中的實體創建錨點,以及將實體對應的實體描述信息創建為到錨點的鏈接。
在一些實施例中,第一特征提取模型和第二特征提取模型通過如下步驟訓練得到:獲取訓練樣本,其中,訓練樣本包括樣本實體的上下文信息和樣本實體的實體描述信息;執行以下訓練步驟:將樣本實體的上下文信息輸入至第一循環神經網絡,得到樣本實體的上下文信息的特征向量;將樣本實體的實體描述信息輸入至第二循環神經網絡,得到樣本實體的實體描述信息的特征向量;計算樣本實體的上下文信息的特征向量與樣本實體的實體描述信息的特征向量之間的樣本余弦相似度;若樣本余弦相似度大于第二預設相似度閾值,將第一循環神經網絡作為第一特征提取模型,以及將第二循環神經網絡作為第二特征提取模型。
在一些實施例中,該步驟還包括:若樣本余弦相似度不大于第二預設相似度閾值,調整第一循環神經網絡和第二循環神經網絡的參數,以及繼續執行訓練步驟。
在一些實施例中,實體描述信息包括以下至少一項:文本信息、圖片信息、音頻信息、視頻信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811542556.8/2.html,轉載請聲明來源鉆瓜專利網。





