[發明專利]用于處理信息的方法和裝置在審
| 申請號: | 201811542556.8 | 申請日: | 2018-12-17 |
| 公開(公告)號: | CN109635114A | 公開(公告)日: | 2019-04-16 |
| 發明(設計)人: | 熊皓;何中軍;李芝;忻舟;王海峰 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京英賽嘉華知識產權代理有限責任公司 11204 | 代理人: | 王達佐;馬曉亞 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本信息 描述信息 上下文信息 相似度 方法和裝置 處理信息 計算實體 準確度 預設 解析 集合 申請 | ||
1.一種用于處理信息的方法,包括:
對獲取到的文本信息進行解析,確定所述文本信息中的實體;
從所述文本信息中提取所述實體的上下文信息;
從預設的實體描述信息集合中確定出所述實體對應的實體描述信息;
計算所述實體的上下文信息與所述實體對應的實體描述信息之間的相似度;
基于所述相似度,利用所述實體對應的實體描述信息對所述文本信息中的所述實體進行處理。
2.根據權利要求1所述的方法,其中,所述對獲取到的文本信息進行解析,確定所述文本信息中的實體,包括:
對所述文本信息進行分詞,得到所述文本信息中的關鍵詞;
將所述關鍵詞在所述實體描述信息集合對應的實體集合中匹配,以及基于匹配結果,確定所述文本信息中的實體。
3.根據權利要求1所述的方法,其中,所述計算所述實體的上下文信息與所述實體對應的實體描述信息之間的相似度,包括:
將所述實體的上下文信息輸入至預先訓練的第一特征提取模型,得到所述實體的上下文信息的特征向量;
將所述實體對應的實體描述信息輸入至預先訓練的第二特征提取模型,得到所述實體對應的實體描述信息的特征向量;
計算所述實體的上下文信息的特征向量與所述實體對應的實體描述信息的特征向量之間的余弦相似度。
4.根據權利要求3所述的方法,其中,所述基于所述相似度,利用所述實體對應的實體描述信息對所述文本信息中的所述實體進行處理,包括:
若所述余弦相似度大于第一預設相似度閾值,為所述文本信息中的所述實體創建錨點,以及將所述實體對應的實體描述信息創建為到所述錨點的鏈接。
5.根據權利要求3所述的方法,其中,所述第一特征提取模型和所述第二特征提取模型通過如下步驟訓練得到:
獲取訓練樣本,其中,所述訓練樣本包括樣本實體的上下文信息和所述樣本實體的實體描述信息;
執行以下訓練步驟:將所述樣本實體的上下文信息輸入至第一循環神經網絡,得到所述樣本實體的上下文信息的特征向量;將所述樣本實體的實體描述信息輸入至第二循環神經網絡,得到所述樣本實體的實體描述信息的特征向量;計算所述樣本實體的上下文信息的特征向量與所述樣本實體的實體描述信息的特征向量之間的樣本余弦相似度;若所述樣本余弦相似度大于第二預設相似度閾值,將所述第一循環神經網絡作為所述第一特征提取模型,以及將所述第二循環神經網絡作為所述第二特征提取模型。
6.根據權利要求5所述的方法,其中,所述步驟還包括:
若所述樣本余弦相似度不大于所述第二預設相似度閾值,調整所述第一循環神經網絡和所述第二循環神經網絡的參數,以及繼續執行所述訓練步驟。
7.根據權利要求1-6之一所述的方法,其中,所述實體描述信息包括以下至少一項:文本信息、圖片信息、音頻信息、視頻信息。
8.一種用于處理信息的裝置,包括:
解析單元,被配置成對獲取到的文本信息進行解析,確定所述文本信息中的實體;
提取單元,被配置成從所述文本信息中提取所述實體的上下文信息;
確定單元,被配置成從預設的實體描述信息集合中確定出所述實體對應的實體描述信息;
計算單元,被配置成計算所述實體的上下文信息與所述實體對應的實體描述信息之間的相似度;
處理單元,被配置成基于所述相似度,利用所述實體對應的實體描述信息對所述文本信息中的所述實體進行處理。
9.根據權利要求8所述的裝置,其中,所述解析單元包括:
分詞模塊,被配置成對所述文本信息進行分詞,得到所述文本信息中的關鍵詞;
匹配模塊,被配置成將所述關鍵詞在所述實體描述信息集合對應的實體集合中匹配,以及基于匹配結果,確定所述文本信息中的實體。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811542556.8/1.html,轉載請聲明來源鉆瓜專利網。





