[發明專利]用于獲取信息的方法及裝置有效
| 申請號: | 201810178394.8 | 申請日: | 2018-03-05 |
| 公開(公告)號: | CN108287927B | 公開(公告)日: | 2019-10-22 |
| 發明(設計)人: | 孫飛;劉明浩;鄧射衛;韓超;朱翰聞;張發恩;郭江亮;唐進;尹世明 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332 |
| 代理公司: | 北京英賽嘉華知識產權代理有限責任公司 11204 | 代理人: | 王達佐;馬曉亞 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 待處理文件 內容關鍵詞 獲取信息 位置查詢 文件內容 表征結構 查詢目標 查找文件 對應文件 目標信息 輸入信息 申請 | ||
1.一種用于獲取信息的方法,其特征在于,所述方法包括:
從接收的待處理輸入信息中提取至少一個結構關鍵詞和至少一個內容關鍵詞,其中,結構關鍵詞用于查找文件中對應文件結構的文件內容,文件結構用于對文件的內容進行劃分,內容關鍵詞用于從結構關鍵詞對應的文件內容中查詢目標信息;
將所述至少一個結構關鍵詞導入預先訓練的位置查詢模型,得到對應結構關鍵詞的至少一個待處理文件內容,所述位置查詢模型用于表征結構關鍵詞與待處理文件內容之間的對應關系;
將包含所述至少一個內容關鍵詞的待處理文件內容作為目標信息。
2.根據權利要求1所述的方法,其特征在于,所述方法包括構建位置查詢模型的步驟,所述構建位置查詢模型的步驟包括:
將歷史文件按照文件類型進行劃分,得到至少一種文件類型的文件集合;
對于所述至少一種文件類型的文件集合中的每一個文件集合,獲取該文件集合中文件的結構信息,從結構信息中提取結構關鍵詞,所述結構信息用于對文件的文件內容進行劃分;
利用機器學習方法,將結構關鍵詞作為輸入,將與結構關鍵詞對應的文件內容作為輸出,訓練得到位置查詢模型。
3.根據權利要求2所述的方法,其特征在于,所述獲取該文件類型的文件的結構信息,包括:
若與文件類型對應的文件沒有結構信息,則為該文件類型對應的文件設置結構信息。
4.根據權利要求2所述的方法,其特征在于,所述構建位置查詢模型的步驟包括:
通過文件類型和結構關鍵詞建立結構關鍵詞查詢表。
5.根據權利要求4所述的方法,其特征在于,所述從接收的待處理輸入信息中提取至少一個結構關鍵詞和至少一個內容關鍵詞包括:
通過待處理輸入信息中的詞條組成詞條集合;
將所述詞條集合中包含在所述結構關鍵詞查詢表中的詞條作為結構關鍵詞。
6.一種用于獲取信息的裝置,其特征在于,所述裝置包括:
關鍵詞提取單元,用于從接收的待處理輸入信息中提取至少一個結構關鍵詞和至少一個內容關鍵詞,其中,結構關鍵詞用于查找文件中對應文件結構的文件內容,文件結構用于對文件的內容進行劃分,內容關鍵詞用于從結構關鍵詞對應的文件內容中查詢目標信息;
待處理文件內容獲取單元,用于將所述至少一個結構關鍵詞導入預先訓練的位置查詢模型,得到對應結構關鍵詞的至少一個待處理文件內容,所述位置查詢模型用于表征結構關鍵詞與待處理文件內容之間的對應關系;
目標信息篩選單元,用于將包含所述至少一個內容關鍵詞的待處理文件內容作為目標信息。
7.根據權利要求6所述的裝置,其特征在于,所述裝置包括位置查詢模型構建單元,用于構建位置查詢模型,所述位置查詢模型構建單元包括:
文件類型劃分子單元,用于將歷史文件按照文件類型進行劃分,得到至少一種文件類型的文件集合;
結構關鍵詞提取子單元,用于對于所述至少一種文件類型的文件集合中的每一個文件集合,獲取該文件集合中文件的結構信息,從結構信息中提取結構關鍵詞,所述結構信息用于對文件的文件內容進行劃分;
位置查詢模型構建子單元,用于利用機器學習方法,將結構關鍵詞作為輸入,將與結構關鍵詞對應的文件內容作為輸出,訓練得到位置查詢模型。
8.根據權利要求7所述的裝置,其特征在于,所述結構關鍵詞提取子單元包括:
若與文件類型對應的文件沒有結構信息,則為該文件類型對應的文件設置結構信息。
9.根據權利要求7所述的裝置,其特征在于,所述位置查詢模型構建單元包括:
通過文件類型和結構關鍵詞建立結構關鍵詞查詢表。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810178394.8/1.html,轉載請聲明來源鉆瓜專利網。





