[發明專利]信息收集設備和信息收集方法在審
| 申請號: | 201710229239.X | 申請日: | 2017-04-10 |
| 公開(公告)號: | CN108694198A | 公開(公告)日: | 2018-10-23 |
| 發明(設計)人: | 張波;孟遙;孫俊 | 申請(專利權)人: | 富士通株式會社 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 李春暉;李德山 |
| 地址: | 日本神*** | 國省代碼: | 日本;JP |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 關鍵詞庫 信息收集設備 檢索 判定 核心詞組 信息收集 詞庫選擇 檢索單元 快速收集 判定單元 預定概率 信息庫 核心詞 配置 | ||
公開了一種信息收集設備和信息收集方法。該信息收集設備包括:檢索單元,被配置成以預定概率選擇關鍵詞庫,在選擇了關鍵詞庫的情況下,從關鍵詞庫中選擇關鍵詞作為當前擴展詞以與指定核心詞組合進行檢索,而在未選擇關鍵詞庫的情況下,從擴展詞庫選擇擴展詞作為當前擴展詞以與指定核心詞組合進行檢索或者僅使用指定核心詞進行檢索;以及判定單元,被配置成以預定的判定模型判定所檢索到的信息是否有用,并將判定有用的信息加入到信息庫中。根據本公開的實施例,可以實現信息的自動快速收集。
技術領域
本公開涉及信息處理領域,更具體地,涉及一種能夠實現信息的自動快速收集的信息收集設備和信息收集方法。
背景技術
傳統的信息收集方法需要用戶在例如搜索引擎中輸入查詢詞進行檢索,并且在搜索引擎返回的搜索結果中提取用戶所需要的信息。然而,這種信息收集方法往往需要用戶的干預(例如,需要用戶對查詢詞進行各種組合反復進行檢索,在所返回的檢索結果中篩選用戶所需要的信息等)并且由于搜索引擎返回的巨大數量的信息和信息類型,導致信息收集效率低下,無法實現信息的自動快速收集。
發明內容
在下文中給出了關于本公開的簡要概述,以便提供關于本公開的某些方面的基本理解。但是,應當理解,這個概述并不是關于本公開的窮舉性概述。它并不是意圖用來確定本公開的關鍵性部分或重要部分,也不是意圖用來限定本公開的范圍。其目的僅僅是以簡化的形式給出關于本公開的某些概念,以此作為稍后給出的更詳細描述的前序。
鑒于此,本公開的目的是提供一種能夠實現信息的自動快速收集的信息收集設備和信息收集方法,其以預定概率不斷嘗試使用新的查詢詞進行信息檢索,并利用基于增強學習得到的判定模型對檢索結果進行判定,以將判定為有用的信息加入到信息庫中。
根據本公開的一方面,提供了一種信息收集設備,其包括:檢索單元,被配置成以預定概率選擇關鍵詞庫,在選擇了關鍵詞庫的情況下,從關鍵詞庫中選擇關鍵詞作為當前擴展詞以與指定核心詞組合進行檢索,而在未選擇關鍵詞庫的情況下,從擴展詞庫選擇擴展詞作為當前擴展詞以與指定核心詞組合進行檢索或者僅使用指定核心詞進行檢索;以及判定單元,被配置成以預定的判定模型判定所檢索到的信息是否有用,并將判定有用的信息加入到信息庫中。
根據本公開的另一方面,還提供了一種信息收集方法,其包括:以預定概率選擇關鍵詞庫,在選擇了關鍵詞庫的情況下,從關鍵詞庫中選擇關鍵詞作為當前擴展詞以與指定核心詞組合進行檢索,而在未選擇關鍵詞庫的情況下,從擴展詞庫選擇擴展詞作為當前擴展詞以與指定核心詞組合進行檢索或者僅使用指定核心詞進行檢索;以及以預定的判定模型判定所檢索到的信息是否有用,并將判定有用的信息加入到信息庫中。
根據本公開的再一方面,還提供了一種電子設備,該電子設備包括電路,該電路被配置成:以預定概率選擇關鍵詞庫,在選擇了關鍵詞庫的情況下,從關鍵詞庫中選擇關鍵詞作為當前擴展詞以與指定核心詞組合進行檢索,而在未選擇關鍵詞庫的情況下,從擴展詞庫選擇擴展詞作為當前擴展詞以與指定核心詞組合進行檢索或者僅使用指定核心詞進行檢索;以及以預定的判定模型判定所檢索到的信息是否有用,并將判定有用的信息加入到信息庫中。
根據本公開的其它方面,還提供了用于實現上述根據本公開的方法的計算機程序代碼和計算機程序產品以及其上記錄有該用于實現上述根據本公開的方法的計算機程序代碼的計算機可讀存儲介質。
根據本公開的實施例,通過以預定概率使用新的擴展詞與指定核心詞組合進行檢索,并且利用通過增強學習訓練得到的判定模型將判定為有用的檢索結果加入到信息庫中,能夠實現信息的自動快速收集。
在下面的說明書部分中給出本公開實施例的其它方面,其中,詳細說明用于充分地公開本公開實施例的優選實施例,而不對其施加限定。
附圖說明
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于富士通株式會社,未經富士通株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710229239.X/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:超文本抓取方法和裝置
- 下一篇:數據同步裝置、方法、存儲介質及電子設備





