[發明專利]實時文本流信息檢索方法及系統有效
| 申請號: | 202010127825.5 | 申請日: | 2020-02-28 |
| 公開(公告)號: | CN111309869B | 公開(公告)日: | 2023-09-22 |
| 發明(設計)人: | 熊俊杰;張樹誠 | 申請(專利權)人: | 中國工商銀行股份有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/335 |
| 代理公司: | 北京三友知識產權代理有限公司 11127 | 代理人: | 王濤;孫乳筍 |
| 地址: | 100140 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 實時 文本 信息 檢索 方法 系統 | ||
本發明提供一種實時文本流信息檢索方法及系統。該實時文本流信息檢索方法包括:根據預先獲取的多個檢索內容確定多個檢索內容的關鍵詞集合、近義詞集合和擴展語料集合;根據關鍵詞集合和近義詞集合對實時文本流信息進行過濾,得到多個過濾文本;根據擴展語料集合中擴展文本的特征向量和多個過濾文本的特征向量確定每個過濾文本與擴展語料集合中每個檢索內容之間的相似度;當相似度的最大值大于預設相似度閾值時,將過濾文本放入最大值對應的檢索內容下的檢索結果集;輸出多個檢索內容的檢索結果集。本發明可以滿足實時場景下對于速度響應的需求,提升文本匹配精度。
技術領域
本發明涉及檢索技術領域,具體地,涉及一種實時文本流信息檢索方法及系統。
背景技術
文本檢索是自然語言處理領域中最為廣泛被大眾所使用的技術,其主要是判別出兩個文本之間的相似程度,應用場景為搜索引擎、智能問答、輿情監控等。在基于檢索式的問答系統中,把問題作為query輸入給系統,系統從知識庫中匹配到最相似的多個候選回答返回給用戶;又如在輿情監控中,根據預設的輿情內容,從信息中找到最為匹配的信息。
目前隨著互聯網和移動通訊技術的快速發展并伴隨著人工智能技術的廣泛應用,各種新的技術給用戶帶來了巨大的便利和新的體驗,同時用戶的要求也不斷提升。這種變化在信息檢索領域最直觀的影響就是用戶希望可以檢索到實時的信息。當前用戶進行信息檢索時,現有的系統通常是使用倒排序等方法對已有的數據建立索引,然后再根據用戶的檢索信息查找相關的條目返回。該類系統只能對已經發生信息內容進行檢索,不能夠實時的從信息流中檢索出當前正在發生的事件,導致產生一定的時延不能夠保證實時場景的各種應用需求。例如:從社交媒體流中實時獲取當前和姚明有關的所有信息,傳統的搜索引擎沒有辦法對這個場景進行檢索。技術的發展促生了快節奏的檢索方式,目前的信息檢索系統明顯不能滿足。另一方面,實時的信息檢索為了達到實時的要求,在文本匹配中的模型一般不能夠復雜且需要快速抽取出文本的特征,這樣的匹配往往是基于詞語的匹配而非語義上的,造成匹配的準確度低。
發明內容
本發明實施例的主要目的在于提供一種實時文本流信息檢索方法及系統,以滿足實時場景下對于速度響應的需求,提升文本匹配精度。
為了實現上述目的,本發明實施例提供一種實時文本流信息檢索方法,包括:
根據預先獲取的多個檢索內容確定多個檢索內容的關鍵詞集合、近義詞集合和擴展語料集合;
根據關鍵詞集合和近義詞集合對實時文本流信息進行過濾,得到多個過濾文本;
根據擴展語料集合中擴展文本的特征向量和多個過濾文本的特征向量確定每個過濾文本與擴展語料集合中每個檢索內容之間的相似度;
當相似度的最大值大于預設相似度閾值時,將過濾文本放入最大值對應的檢索內容下的檢索結果集;
輸出多個檢索內容的檢索結果集。
本發明實施例還提供一種實時文本流信息檢索系統,包括:
集合確定單元,用于根據預先獲取的多個檢索內容確定多個檢索內容的關鍵詞集合、近義詞集合和擴展語料集合;
過濾單元,用于根據關鍵詞集合和近義詞集合對實時文本流信息進行過濾,得到多個過濾文本;
相似度單元,用于根據擴展語料集合中擴展文本的特征向量和多個過濾文本的特征向量確定每個過濾文本與擴展語料集合中每個檢索內容之間的相似度;
檢索結果單元,用于當相似度的最大值大于預設相似度閾值時,將過濾文本放入最大值對應的檢索內容下的檢索結果集;
輸出單元,用于輸出多個檢索內容的檢索結果集。
本發明實施例還提供一種計算機設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,處理器執行計算機程序時實現所述的實時文本流信息檢索方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國工商銀行股份有限公司,未經中國工商銀行股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010127825.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:變壓器真空定量注油方法
- 下一篇:通用量子比較電路的實現方法
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





