[發明專利]基于領域知識圖譜的檢索方法、裝置有效
| 申請號: | 202110829095.8 | 申請日: | 2021-07-22 |
| 公開(公告)號: | CN113282689B | 公開(公告)日: | 2023-02-03 |
| 發明(設計)人: | 丁紅霞;伍星;吳忠毅;余志穎;徐更惟;李靖;廖宛玲;李琪 | 申請(專利權)人: | 藥渡經緯信息科技(北京)有限公司 |
| 主分類號: | G06F16/28 | 分類號: | G06F16/28;G06F40/30;G06F40/295;G06N3/04 |
| 代理公司: | 北京慧加倫知識產權代理有限公司 16035 | 代理人: | 陳偉偉 |
| 地址: | 100085 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 領域 知識 圖譜 檢索 方法 裝置 | ||
1.一種基于領域知識圖譜的檢索方法,其特征在于,應用于生物醫藥領域內的檢索,所述檢索方法包括:
獲取用戶輸入的用于從文檔集合中召回文檔的檢索信息,確定所述用于從文檔集合中召回文檔的檢索信息表征的用戶的第一搜索意圖;所述檢索信息至少包括一個實體詞;
基于領域知識圖譜,構建與所述第一搜索意圖相匹配的關系圖并展示;其中,所述關系圖包括多個實體節點及不同實體節點分別對應的實體之間的語義關系;所述關系圖表征的信息包括:所述第一搜索意圖表征的信息以及基于所述領域知識圖譜擴展出的與所述第一搜索意圖具備關聯的信息,以通過所述關系圖至少在所屬的產業領域從深度或專業度方面對第一搜索意圖進行知識拓展;
獲取用戶通過對展示的關系圖執行交互操作所產生的對文檔召回的意圖確認信息,并根據所述意圖確認信息,識別用戶的用于召回文檔的第二搜索意圖;根據所述第二搜索意圖,至少構造包括目標關系圖的第二檢索條件;所述目標關系圖為對匹配于所述第一搜索意圖的所述關系圖完成意圖確認后所得的結果;
通過對目標關系圖中不同實體之間的置信度評分處理實現對不同實體之間的相關度進行確定,將不同實體之間的相關度作為用戶的第二搜索意圖包括:
基于兩個節點在目標關系圖中對應的連接路徑,匯總其連接路徑中各節點實體數據對應的相應數據類型的單獨評分,得到該兩個節點對應的兩個實體之間的置信度評分;
其中,通過公式E=Q*I*W對相同數據類型的數據進行評分,E代表置信度分數,Q代表數量,I代表重要性,W代表權重,其中數量即為命中數據的數量,重要性和權重均基于預設標注;
通過公式V=S1+S2/22+S3/32+...+Si/i2,對來自不同數據類型的數據的單一評分進行匯總,V代表總分,S1、S2、S3...Si分別代表不同的數據類型的單獨評分;至少根據所述第二檢索條件,將所述目標關系圖在為相應的待檢索文檔集合預先構建的第二知識圖譜中進行基于子圖匹配的檢索處理,得到目標檢索結果;所述第二知識圖譜包括所述待檢索文檔集合中每一文檔對應的標識、包含的實體及包含的“實體-關系-實體”三元組間的對應關系信息;其中,通過對所述第二知識圖譜進行檢索,獲得與所述檢索條件匹配的目標文檔標識,并基于檢索所述第二知識圖譜所得的目標文檔標識從所述文檔集合中召回對應的目標文檔;
其中,確定所述用于從文檔集合中召回文檔的檢索信息表征的用戶的第一搜索意圖包括識別文本中的實體詞,其中,所述識別文本中的實體詞包括:
基于詞典實體詞匹配方式,識別文本中的實體詞;
或,利用基于機器學習構建的識別模型,識別文本中的實體詞;
其中,對于包含在文本但詞典中不存在的疑似實體詞的字符串,根據所述字符串的上下文推測所述字符串是否為實體詞;
基于詞典實體詞匹配方式識別文本中的實體詞,其中,基于對于從文本中匹配出的位置連續的多個實體詞,或從文本的同一字符串位置區間匹配出的存在包含或被包含關系的多個實體詞,利用貪婪算法并結合語義理解,合并各個位置連續的實體詞,將合并后得到的語義完整性最高的實體詞作為文本在該位置連續的字符串對應的實體詞;
在識別文本中的實體詞之前,所述檢索方法還包括對文本進行預處理,所述對文本進行預處理包括:對文本進行場景檢測處理,根據檢測到的場景信息對文本的標點符號進行轉換或丟棄處理。
2.根據權利要求1所述的方法,其特征在于,所述獲取用戶輸入的用于從文檔集合中召回文檔的檢索信息,確定所述用于從文檔集合中召回文檔的檢索信息表征的用戶的第一搜索意圖,包括:
獲取用戶輸入的包括單一實體詞的短文本或包括多個實體詞的長文本;
若所述檢索信息為短文本,識別所述短文本中的單一實體詞,得到所述短文本的一個原實體詞;將所述一個原實體詞作為用戶的第一搜索意圖;
若所述檢索信息為長文本,識別所述長文本中的多個實體詞,得到所述長文本的多個原實體詞;抽取不同的原實體詞分別對應的實體之間的語義關系;將所述多個原實體詞和抽取的語義關系作為用戶的第一搜索意圖。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于藥渡經緯信息科技(北京)有限公司,未經藥渡經緯信息科技(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110829095.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:感知無線電終端裝置
- 下一篇:一種滑板車的電池裝置及其電池盒





