[發明專利]建立映射關系的方法和裝置、信息推薦的方法和裝置有效
| 申請號: | 201910257911.5 | 申請日: | 2019-04-01 |
| 公開(公告)號: | CN109933692B | 公開(公告)日: | 2022-04-08 |
| 發明(設計)人: | 李千;史亞冰;梁海金;張揚;朱勇 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F16/84 | 分類號: | G06F16/84;G06F16/835 |
| 代理公司: | 北京天昊聯合知識產權代理有限公司 11112 | 代理人: | 彭瑞欣;劉悅晗 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 建立 映射 關系 方法 裝置 信息 推薦 | ||
本公開提供了一種建立映射關系的方法,該方法包括:識別半結構化數據的標題,所述半結構化數據包括標題和內容;從所述半結構化數據中提取至少一個目標信息,并根據所提取的所述目標信息建立目標信息集合;建立所述半結構化數據的標題和所述目標信息集合之間的映射關系。本公開還提供了一種建立映射關系的裝置、信息推薦的方法和裝置。
技術領域
本公開實施例涉及數據庫技術領域,特別涉及建立映射關系的方法和裝置、信息推薦的方法和裝置。
背景技術
當用戶就實體集合進行檢索或提出問題時,需要給用戶推薦與實體集合對應的實體,現在與實體集合對應的實體可通過以下方式得出:
1)采用人工方法將實體與實體集合進行對應,但這種方法需要人工參與,耗時較長、準確度較低;
2)通過分析結構化數據得出實體集合與實體的對應關系,但該方法僅適用于具有特定結構的結構化數據,對于非結構化數據、半結構化數據,或具體結構不同的結構化數據,并不適用。
發明內容
本公開實施例提供一種建立映射關系的方法和裝置、信息推薦的方法和裝置。
第一方面,本公開實施例提供了一種建立映射關系的方法,包括:
識別半結構化數據的標題,所述半結構化數據包括標題和內容;
從所述半結構化數據中提取至少一個目標信息,并根據所提取的所述目標信息建立目標信息集合;
建立所述半結構化數據的標題和所述目標信息集合之間的映射關系。
在一些實施例中,所述從所述半結構化數據中提取至少一個目標信息包括:
從所述半結構化數據中提取至少一個第一信息,所述至少一個第一信息中的每一個第一信息均包括多個具有并列關系的子信息;
從所述至少一個第一信息中提取至少一個目標信息。
在一些實施例中,所述從所述半結構化數據中提取至少一個第一信息包括:
根據具有并列關系的符號從所述半結構化數據中提取至少一個第一信息;
和/或,
從所述半結構化數據的錨點列表目錄和/或標題列表目錄中提取至少一個第一信息。
在一些實施例中,所述從所述至少一個第一信息中提取至少一個目標信息包括:
采用句法分析和/或詞法分析從所述至少一個第一信息中提取至少一個初始信息,所有所述初始信息構成初始信息集合;
從所述初始信息集合中篩選出滿足第一預設條件的、無重復的初始信息作為目標信息。
在一些實施例中,所述第一預設條件包括以下項目中的至少一種:
所述初始信息在所述初始信息集合中出現的次數大于或者等于第一閾值;
所述初始信息和所述半結構化數據的標題在預設的第一數據庫中的共現次數大于或者等于第二閾值;
所述初始信息在所述半結構化數據的目標段落中出現的次數大于或者等于第三閾值。
在一些實施例中,在所述從所述半結構化數據中提取至少一個目標信息后,還包括:
對所提取的所述目標信息中的一個目標信息,從預設的第二數據庫中篩選出與該目標信息匹配的第二信息作為目標匹配信息,所述第二數據庫包括多個第二信息以及與每個所述第二信息對應的屬性信息;
關聯該目標信息和目標匹配信息。
在一些實施例中,所述從預設的第二數據庫中篩選出與該目標信息匹配的第二信息作為目標匹配信息包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910257911.5/2.html,轉載請聲明來源鉆瓜專利網。





