[發明專利]信息搜索方法、裝置、計算機設備及存儲介質有效
| 申請號: | 201910363713.7 | 申請日: | 2019-04-30 |
| 公開(公告)號: | CN111859079B | 公開(公告)日: | 2023-08-15 |
| 發明(設計)人: | 陳敬;楊希;梁俊 | 申請(專利權)人: | 中移(蘇州)軟件技術有限公司;中國移動通信集團有限公司 |
| 主分類號: | G06F16/953 | 分類號: | G06F16/953;G06F16/9538;G06F16/33;G06F40/289;G06F40/30 |
| 代理公司: | 北京派特恩知識產權代理有限公司 11270 | 代理人: | 姚文嫻;張穎玲 |
| 地址: | 215163 江蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 信息 搜索 方法 裝置 計算機 設備 存儲 介質 | ||
1.一種信息搜索方法,其特征在于,所述方法包括:
獲取第一關鍵詞;
查詢信息庫獲得與所述第一關鍵詞滿足相似度條件的第一信息;
提取所述第一信息中的關鍵字段;
將所述關鍵字段與所述第一關鍵詞進行語義匹配,得到匹配結果;
基于所述匹配結果,返回搜索結果;
其中,所述查詢信息庫獲得與所述第一關鍵詞滿足相似度條件的第一信息,包括:
將所述第一關鍵詞與信息庫中的第二信息進行語義聚類,得到聚類結果;所述信息庫中的第二信息為所述信息庫中與所述第一關鍵詞對應的索引關鍵字對應的信息;
基于所述聚類結果,從所述第二信息中選擇出與所述第一關鍵詞的語義滿足相似度條件的第一信息;
所述將所述第一關鍵詞與信息庫的第二信息進行語義聚類,得到聚類結果,包括:
將所述第一關鍵詞轉換成第一語義向量;所述第一語義向量為通過主題向量表達模型對輸入的所述第一關鍵詞進行向量運算得到的關鍵詞的主題向量表達;
將所述第二信息轉換成第二語義向量;所述第一信息為新聞文本數據時,所述第二語義向量為通過所述主題向量表達模型對輸入的所述新聞文本數據進行向量運算得到的新聞文本數據的主題向量表達;
將所述第一語義向量與所述第二語義向量進行語義聚類,獲得聚類結果;
其中,所述新聞文本數據的主題向量表達通過以下方式生成:
對于所述新聞文本數據中的每個文本d,通過所述主題向量表達模型對每個文本進行向量化處理,以從D(α)中抽取得到文本-主題多項式分布M(θd);其中,D(α)表示生成每篇新聞文本數據中主題的多項式分布的Dirichlet分布的參數;
對于所述新聞文本數據中的每個新聞主題t,從D(β)中抽取得到主題-單詞多項式分布M(φt);其中,D(β)表示生成新聞文本數據中某個單詞的多項式分布的Dirichlet分布的參數;
對于文本d的每個句子,依照如下步驟依次完成,直到處理完所述新聞文本數據中的所有文本:
從所述多項式分布M(θd)中抽取主題Tds;
根據抽取的主題,由所述多項式分布M(φt)生成該主題下的單詞Wds。
2.根據權利要求1所述的方法,其特征在于,
所述基于所述聚類結果,從所述第二信息中選擇出與所述第一關鍵詞的語義滿足相似度條件的第一信息,包括:
根據所述聚類結果,從所述第二語義向量中選擇出與所述第一語義向量滿足所述相似度條件的第三語義向量;
根據所述第三語義向量所對應的信息,確定與所述第一關鍵詞滿足相似度條件的第一信息。
3.根據權利要求1所述的方法,其特征在于,所述提取所述第一信息中的關鍵字段,包括:
將所述第一信息拆分成多個字段;
獲取任意兩個字段之間的語義相似度;
基于任意兩個字段之間的語義相似度,確定所述語義相似度大于閾值的字段集;
根據所述字段集的字段數量,對所述字段集進行排序,得到第一排序結果;
根據所述第一排序結果,選出排在前預定位數上對應的字段集;
將選出的所述字段集對應的字段作為所述第一信息中的關鍵字段。
4.根據權利要求1所述的方法,其特征在于,所述將所述第一關鍵詞與信息庫的第二信息進行語義聚類,得到聚類結果,包括:
對所述第一關鍵詞進行擴充處理,得到第二關鍵詞;其中,所述對所述第一關鍵詞進行擴充處理,包括以下至少之一:對所述第一關鍵詞進行同義詞擴充;對所述第一關鍵詞進行近義詞擴充;對所述第一關鍵詞進行反義詞擴充;
將所述第二關鍵詞與信息庫的第二信息進行語義聚類,得到聚類結果。
5.根據權利要求1所述的方法,其特征在于,所述將所述第一關鍵詞與信息庫的第二信息進行語義聚類,得到聚類結果,包括:
對所述第一關鍵詞進行分詞處理,得到第三關鍵詞;
將所述第三關鍵詞與信息庫的第二信息進行語義聚類,得到聚類結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中移(蘇州)軟件技術有限公司;中國移動通信集團有限公司,未經中移(蘇州)軟件技術有限公司;中國移動通信集團有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910363713.7/1.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





