[發明專利]一種面向實體檢索查詢的目標類型標識方法有效
| 申請號: | 201910573649.5 | 申請日: | 2019-06-28 |
| 公開(公告)號: | CN110347701B | 公開(公告)日: | 2021-07-20 |
| 發明(設計)人: | 姚全珠;閆鐵珊;費蓉;李莎莎;趙佳瑜 | 申請(專利權)人: | 西安理工大學 |
| 主分類號: | G06F16/2452 | 分類號: | G06F16/2452;G06F16/28;G06F40/216;G06F40/295;G06K9/62 |
| 代理公司: | 西安弘理專利事務所 61214 | 代理人: | 王蕊轉 |
| 地址: | 710048 陜*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 實體 檢索 查詢 目標 類型 標識 方法 | ||
1.一種面向實體檢索查詢的目標類型標識方法,其特征在于,具體按照以下步驟實施:
步驟1、構造目標實體類型標識任務訓練集,采用DBpedia本體作為類型分類樹,通過眾包的形式收集查詢集DBpedia-Entity v1中全部查詢的目標類型注釋;
所述步驟1具體按照以下步驟實施:
步驟1.1、由語言模型LM實現的以類型為中心的方法CCM-LM、文檔檢索BM25算法實現的以類型為中心的方法CCM-BM25、語言模型LM實現的以實體為中心的方法ECM-LM、文檔檢索BM25算法實現的以實體為中心的方法ECM-BM25四種基礎檢索方法構造目標實體候選類型集合,每種方法選取類型排名結果中的前10種類型,此外,還包括標準目標實體類型,以確保在收集人工注釋時考慮到所有候選類型;
步驟1.2、對每個查詢的候選類型進行批處理注釋,使集合中的類型均成為目標類型的候選,如果某些查詢的候選類型數量較大,將其分解為多個子任務,對于每個處于分類樹中深度為1的頂級類型,將其所有子類型均放在同一個子任務中;
步驟1.3、對每個查詢進行目標類型注釋,注釋出的類型涵蓋所有相關實體,查詢的所有候選類型都在一個子任務中,候選類型由在步驟1.2中標注的類型組成,根據其層次結構由頂級類型至最具體類型進行排列;
步驟2、對現有自動標識類型方法的語言模型特征、類型標簽特征及類型與查詢相似性度量方法特征進行分析,共提取N個用于類型學習排序LTR方法的特征;
所述步驟2中使用文檔檢索模型BM25和語言模型LM對基于以類型為中心方法CCM和以實體為中心方法ECM進行實現,將以類型為中心方法CCM與以實體為中心方法ECM標識的類型在排序列表中的得分作為類型學習排序LTR方法的語言模型特征,現有自動標識類型方法的語言模型特征如下:
CCM方法根據屬于該類型的所有實體的上下文為每個類型構建生成文檔,這些類型的表示像文檔一樣排列,使用標準檢索方法對類型文檔進行排序,實體的類型中關鍵字頻率計算公式如下:
其中,f(qt,d))是關鍵字qt在類型描述文檔d中出現的頻率,w(e,c)表示實體類型關聯權重,w(e,c)表達如下:
對于函數如果實體e屬于類型c,則返回1,否則返回0,將給定查詢q=(qt1,qt2,...,qt|q|)的各個查詢關鍵字的分數的相加作為類型的相關性分數,類型的相關性分數表達如下:
其中,是標準的基于關鍵字的檢索模型,i為查詢關鍵字的位置,為檢索模型中的參數,該模型基于類型中關鍵字頻率f為每個查詢項qt分配分數,scoreCCM(q,c)表示以類型為中心方法的目標類型得分;
ECM方法將屬于給定類型c的實體與查詢q的相關性得分相加總和作為該類型的最終排序得分,計算公式為:
其中,Rk(q)表示與查詢q的相關性Top-K排名的實體集合,scoreM(e,q)為基于標準檢索模型方法對實體e的檢索得分,w(e,c)表示實體類型關聯權重,scoreECM(q,c)表示以實體為中心方法的目標類型得分;
步驟3、通過學習1排序方法對步驟2中提取的N個特征組成的訓練數據進行監督學習,得到分類結果;
步驟4、確定查詢測試集,進行目標類型標識,查詢測試集采用從多個與實體相關的基準評估活動中合成的查詢,查詢包含簡短的關鍵字查詢到自然語言查詢,任務描述如下:
輸入:關鍵字查詢q與類型分類樹
輸出:類型排序列表(c1,c2,…,cn),其中,
評估:對于查詢q每個返回的類型ci根據其在排序列表中的位置標記一個得分;
步驟5、輸出類型排序結果,實現對實體檢索查詢的目標類型標識。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安理工大學,未經西安理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910573649.5/1.html,轉載請聲明來源鉆瓜專利網。





