[發明專利]文獻知識脈絡生成方法、裝置及存儲介質在審
| 申請號: | 202110480081.X | 申請日: | 2021-04-30 |
| 公開(公告)號: | CN113076432A | 公開(公告)日: | 2021-07-06 |
| 發明(設計)人: | 林桂 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/35;G06F16/335;G06F16/38;G06F16/33;G06F40/295 |
| 代理公司: | 北京鴻元知識產權代理有限公司 11327 | 代理人: | 王迎;袁文婷 |
| 地址: | 518033 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文獻 知識 脈絡 生成 方法 裝置 存儲 介質 | ||
本發明涉及人工智能,揭露一種文獻知識脈絡生成方法,包括:對待檢測文獻進行標簽分類,并獲取與待檢測文獻對應的類別標簽集;獲取查詢信息,并基于查詢信息獲取待檢測文獻中與查詢信息對應的目標文獻范圍;同時,對目標文獻范圍內的目標文獻進行實體抽取,以獲取目標文獻中所有的標準實體指稱;基于標準實體指稱及類別標簽集,獲取與目標文獻對應的類別標簽和標準實體指稱集;基于類別標簽和標準實體指稱集,形成與查詢信息對應的文獻知識脈絡。本發明可以完成對相關文獻的知識脈絡梳理,進而可據此及用戶預期為用戶推薦相應的內容,以供導覽。
技術領域
本發明涉及人工智能技術領域,尤其涉及一種文獻知識脈絡生成的方法、裝置、電子設備及計算機可讀存儲介質。
背景技術
目前,針對高校人員開發的自助式科研信息服務平臺,為研究人員提供了基于文獻的信息挖掘與分析服務。利用該服務,研究人員可以深入全面了解關注課題的研究現狀,完成特定領域的專家與研究機構的研究數據提取,掌握學科最新動態與基金研究熱點。例如,Aminer是由清華大學自主研發,利用數據挖掘和社會網絡分析與挖掘技術,提供研究者語義信息抽取、話題發現和趨勢分析等功能,為研究者提供全面的領域知識、針對性的研究話題和合作者信息。
但是,現有的科研信息服務平臺大多只支持中文文獻分析解讀,對Pubmed文獻收錄不足,普遍側重于計算機領域,同時對于文獻研究熱點的挖掘不深。總體而言,國內現有產品除了在學術挖掘和學者搜索有不同程度的功能缺失外,更為顯著且共性的問題是,并非只針對醫療領域的文獻,導致垂直度不足,不可避免的會對醫療領域的挖掘和研究缺乏專業性。
發明內容
本發明提供一種文獻知識脈絡生成方法、裝置、電子設備及計算機可讀存儲介質,其主要目的在于提供針對醫學等專業文獻知識脈絡生成的可靠方案。
為實現上述目的,本發明提供的一種文獻知識脈絡生成方法,包括:
對待檢測文獻進行標簽分類,并獲取與所述待檢測文獻對應的類別標簽集;
獲取查詢信息,并基于查詢信息及所述類別標簽集,獲取所述待檢測文獻中與所述查詢信息對應的目標文獻范圍;
對所述目標文獻范圍內的目標文獻進行實體抽取,以獲取所述目標文獻中所有的標準實體指稱;
基于所述標準實體指稱及所述類別標簽集,獲取與所述目標文獻對應的類別標簽和標準實體指稱集;
基于所述類別標簽和所述標準實體指稱集,形成與所述查詢信息對應的文獻知識脈絡。
可選地,所述獲取所述目標文獻中所有的標準實體指稱的步驟包括:
基于預訓練的實體識別模型獲取與所述目標文獻對應的所有實體指稱;
基于實體鏈接技術將所述實體指稱鏈接到標準圖譜上,獲取與所述實體指稱對應的標準實體指稱。
可選地,所述獲取與所述實體指稱對應的標準實體指稱的步驟包括:
基于所述實體指稱,獲取與所述實體指稱對應的同義信息項,并基于所述實體指稱及所述同義信息項,確定指稱項集合;
基于所述指稱項集合,在預設知識庫中查找與所述指稱項集合對應的候選實體項集合;
分別提取所述指稱項集合和所述候選實體項集合的降維特征;
對所述指稱項集合和所述候選實體項集合的降維特征進行相似度計算,并根據所述相似度計算得到的分值對所述候選實體項集合中的所有實體進行排序;
基于所述排序的結果確定與所述實體指稱對應的實體集合,所述實體集合中的實體作為所述標準實體指稱。
可選地,所述分別提取所述指稱項集合和所述候選實體項集合的降維特征包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110480081.X/2.html,轉載請聲明來源鉆瓜專利網。





