[發明專利]一種面向實體檢索查詢的目標類型標識方法有效
| 申請號: | 201910573649.5 | 申請日: | 2019-06-28 |
| 公開(公告)號: | CN110347701B | 公開(公告)日: | 2021-07-20 |
| 發明(設計)人: | 姚全珠;閆鐵珊;費蓉;李莎莎;趙佳瑜 | 申請(專利權)人: | 西安理工大學 |
| 主分類號: | G06F16/2452 | 分類號: | G06F16/2452;G06F16/28;G06F40/216;G06F40/295;G06K9/62 |
| 代理公司: | 西安弘理專利事務所 61214 | 代理人: | 王蕊轉 |
| 地址: | 710048 陜*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 實體 檢索 查詢 目標 類型 標識 方法 | ||
本發明公開了一種面向實體檢索查詢的目標類型標識方法,首先構造目標實體類型標識任務訓練集,采用DBpedia本體作為類型分類樹,通過眾包的形式收集查詢集DBpedia?Entity v1中全部查詢的目標類型注釋;然后對現有自動標識類型方法的語言模型特征、類型標簽特征及類型與查詢相似性度量方法特征進行分析,共提取N個用于類型學習排序LTR方法的特征;通過學習排序方法對N個特征組成的訓練數據進行監督學習,確定查詢測試集,進行目標類型標識,輸出類型排序結果,本發明解決了現有技術中存在的類型自動標識準確率低以及標識的類型不具有代表性的問題。
技術領域
本發明屬于查詢理解和語義搜索技術領域,具體涉及一種面向實體檢索查詢的目標類型標識方法。
背景技術
近年來,實體檢索在信息檢索占比逐漸上升,其根據用戶的查詢返回特定實體或實體屬性。在實體檢索中對查詢進行理解,標識出查詢的目標實體類型可以幫助提高檢索性能以及搜索體驗。實體的一個特征是它們具有類型細信息,其中類型可表示為層次結構,即類型分類系統。實體類型的重要性已通過許多實體檢索解決方案得到驗證,當查詢與目標類型信息互補時,可提高實體檢索性能。在TREC和INEX等信息檢索競賽的相關實體排名任務中,查詢題目提供目標類型,即已知目標實體類型,但這是一種理想化的情況。在實際搜索場景中,由于用戶習慣使用單一搜索框架,在查詢時要求用戶標注類型可能會導致認知過載。為解決這一問題,需要根據查詢關鍵字自動標識目標實體類型。
目標實體類型標識任務的主要目的是從類型分類系統中自動標識查詢的最具體目標類型,要求標識出的類型足夠涵蓋所有相關實體。目標實體類型標識可看作為類型排序任務。
假設知識庫中每個實體e都有一個描述文檔d及分配給實體e的相關類型其中類型屬于類型分類系統對于每個查詢q,由一組關鍵字組成q=(qt1,qt2,...,qt|q|),P(q|c)表示給定類型生成查詢的概率,返回的目標類型排序結果按此概率降序進行排列。
現有方法主要包括以下兩種:
1)以類型為中心方法(CCM)根據屬于該類型所有實體的上下文為每個類型構建生成文檔(profile),類型的生成文檔與查詢的文本相似性可代表類型標簽與查詢語句的相關性:
其中,是標準的基于關鍵字的檢索模型,為檢索模型中的參數。該模型基于類型中關鍵字頻率f為每個查詢項qt分配分數。scoreCCM(q,c)表示以類型為中心方法的目標類型得分。
2)以實體為中心方法(ECM)直接對單個實體進行建模代替創建類型生成文檔,根據實體與查詢的相關性對實體進行排名,然后查看排名結果排名靠前的K個實體所具有類型,將所有屬于類型的實體與查詢的相關性得分進行相加,得到類型的最終得分。
其中,Rk(q)是與查詢q的相關性Top-K排名的實體集合。scoreM(e,q)為基于標準檢索模型方法對實體e的檢索得分。w(e,c)表示實體類型關聯權重。scoreECM(q,c)表示以實體為中心方法的目標類型得分。
以類型為中心方法CCM與以實體為中心方法ECM從不同方面考慮了目標類型標識任務。現有方法存在以下兩點缺陷:第一,以類型為中心方法整體準確率低于以實體為中心方法;第二,以實體為中心方法則更多地返回頂級類型,排序結果中靠前的類型通常與正確的目標類型在分類系統中處于同一分支,類型不夠具體,不具有代表性,在進行實體檢索時無法過濾不相關實體,影響了知識庫在實體檢索中使用的正確性和廣泛性。但二者之間具有一定的互補性,本發明將這兩種方法進行結合并加以利用。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安理工大學,未經西安理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910573649.5/2.html,轉載請聲明來源鉆瓜專利網。





