[發明專利]建立映射關系的方法和裝置、硬件設備、計算機可讀介質有效
| 申請號: | 201910257829.2 | 申請日: | 2019-04-01 |
| 公開(公告)號: | CN109977198B | 公開(公告)日: | 2021-08-31 |
| 發明(設計)人: | 李千;史亞冰;梁海金;張揚;朱勇 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/36 |
| 代理公司: | 北京天昊聯合知識產權代理有限公司 11112 | 代理人: | 柴亮;張天舒 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 建立 映射 關系 方法 裝置 硬件 設備 計算機 可讀 介質 | ||
本公開提供一種建立映射關系的方法,該方法包括:根據非結構化數據的原始題目確定所述非結構化數據的目標題目,所述目標題目為實體集合;從所述非結構化數據中提取出至少一個目標實體,并根據所述目標實體建立目標實體集合;建立所述目標題目和目標實體集合之間的映射關系。本公開還提供了一種建立映射關系的裝置、硬件設備、計算機可讀介質。
技術領域
本公開實施例涉及數據庫技術領域,特別涉及建立映射關系的方法和裝置、硬件設備、計算機可讀介質。
背景技術
當用戶就實體集合進行檢索或提出問題時,需要給用戶推薦與實體集合對應的實體,現在與實體集合對應的實體可通過以下方式得出:
1)采用人工方法將實體與實體集合進行對應,但這種方法需要人工參與,耗時較長、準確度較低;
2)通過分析結構化數據得出實體集合與實體的對應關系,但該方法僅適用于具有特定結構的結構化數據,對于非結構化數據、半結構化數據,或具體結構不同的結構化數據,并不適用。
發明內容
本公開實施例提供一種建立映射關系的方法和裝置、硬件設備、計算機可讀介質。
第一方面,本公開實施例提供一種建立映射關系的方法,包括:
根據非結構化數據的原始題目確定所述非結構化數據的目標題目,所述目標題目為實體集合;
從所述非結構化數據中提取出至少一個目標實體,并根據所述目標實體建立目標實體集合;
建立所述目標題目和目標實體集合之間的映射關系。
在一些實施例中,所述非結構化數據為信息介紹類的非結構化數據;
所述根據非結構化數據的原始題目確定所述非結構化數據的目標題目包括:根據預設的正則匹配模型從所述非結構化數據的原始題目中提取出目標題目。
在一些實施例中,所述非結構化數據的原始題目包括預設的關鍵詞。
在一些實施例中,所述非結構化數據為問答類的非結構化數據;
所述根據非結構化數據的原始題目確定所述非結構化數據的目標題目包括:將所述非結構化數據的原始題目與預設的詞性序列模板進行匹配,所述詞性序列模板包括至少一個名詞;從所述原始題目中提取對應詞性序列模板中預定名詞的部分,得到至少兩個候選題目;確定各所述候選題目與原始題目的相關度,以對應相關度最大的所述候選題目作為目標題目。
在一些實施例中,所述從所述非結構化數據中提取出至少一個目標實體包括:
識別所述非結構化數據中的實體;
根據所識別的所述實體在所述非結構化數據中的分布特征,從所識別的所述實體中篩選出至少一個候選實體;
根據所述候選實體與所述非結構化數據的相關度,從所述候選實體中篩選出至少一個目標實體。
在一些實施例中,所述非結構化數據包括盤點塊,所述盤點塊包括連續的第一段落和第二段落,所述第一段落的長度小于或等于第一閾值,所述第二段落的長度大于或等于第二閾值,所述第二閾值大于第一閾值;
所述識別所述非結構化數據中的實體包括:識別所述盤點塊的第一段落中的實體;
所述實體在所述非結構化數據中的分布特征包括所述實體在所述非結構化數據全文中的分布特征,以及所述實體在所述盤點塊中的分布特征。
在一些實施例中,所述非結構化數據中無盤點塊,所述盤點塊包括連續的第一段落和第二段落,所述第一段落的長度小于或等于第一閾值,所述第二段落的長度大于或等于第二閾值,所述第二閾值大于第一閾值;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910257829.2/2.html,轉載請聲明來源鉆瓜專利網。





