[發(fā)明專利]復合域視角下進行詞嵌入擴展的專利檢索方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201710570131.7 | 申請日: | 2017-07-12 |
| 公開(公告)號: | CN107391647B | 公開(公告)日: | 2021-05-04 |
| 發(fā)明(設計)人: | 彭智勇;王飛;劉斌 | 申請(專利權)人: | 武漢大學 |
| 主分類號: | G06F16/242 | 分類號: | G06F16/242;G06F16/2458 |
| 代理公司: | 武漢科皓知識產(chǎn)權代理事務所(特殊普通合伙) 42222 | 代理人: | 魯力 |
| 地址: | 430072 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 復合 視角 進行 嵌入 擴展 專利 檢索 方法 系統(tǒng) | ||
本發(fā)明涉及一種專利檢索方法及系統(tǒng),屬于信息檢索領域,具體是涉及一種復合域視角下進行詞嵌入擴展的專利檢索方法及系統(tǒng)。在專利抽取方面,通過將多主題模型與技術分類域相結合,生成帶有明確意圖的多個方面查詢,來克服現(xiàn)有多主題模型的查詢指向不明確問題;在專利擴展方面,通過追求分布和語義相結合的雙一致性擴展,通過詞嵌入技術訓練語義向量模型作為領域相關的擴展源,進行查詢詞匯與擴展詞匯分布關聯(lián)性的量化,來減少檢索語義的模糊性;在數(shù)據(jù)融合方面,基于查詢專利的視角權值和反饋專利的主題關聯(lián)性實現(xiàn)多個方面檢索的結果集融合。
技術領域
本發(fā)明涉及一種專利檢索方法及系統(tǒng),屬于信息檢索領域,具體是涉及一種復合域視角下進行詞嵌入擴展的專利檢索方法及系統(tǒng)。
背景技術
專利是現(xiàn)代企業(yè)保護科研投入,追求經(jīng)濟利益的主流方式。為了獲得專利授權,專利審查人員需要對申請專利進行技術唯一性為目的的技術現(xiàn)狀檢索。專利的數(shù)據(jù)量龐大,使用詞匯的歧義性強,并且專利文檔是一種半結構化文檔,無法直接提供有效的檢索信息,這些都使得專利檢索面臨著巨大的挑戰(zhàn)。當前實施專利檢索主要包含專利抽取和專利擴展兩個流程。專利抽取主要是剔除噪聲詞匯和歧義詞匯,從查詢專利中抽取能夠體現(xiàn)技術特征的術語詞匯,形成一個信息集中的檢索源,而專利擴展則是通過補充語義關聯(lián)或者分布關聯(lián)的詞匯,消除專利技術詞匯的歧義,形成一個意向明確的專利查詢。
專利抽取根據(jù)不同的技術關聯(lián)性量化策略,分為單主題模型和多主題模型。單主題模型的專利抽取認為整個專利技術方案僅僅包含單一技術特征,通常抽取具有高詞頻的技術詞匯形成唯一的專利查詢。多主題模型的專利抽取認為一個技術方案由多個技術特征組成,技術間的相似性是基于專利某個技術特征而非整個技術方案,采用聚類或者決策樹等方法形成多個專利查詢。顯然,專利多主題模型的技術量化策略更加接近人們關于技術相似性的思維方式,但是,現(xiàn)有的多主題模型使用聚類等技術生成的專利查詢并不能代表一個明確的技術方面,并沒有有效地改善專利的檢索性能。
專利擴展根據(jù)不同的擴展源,分為分布一致性和語義一致性兩種擴展策略。分布一致性以初次檢索得到的文檔或者引用文獻作為潛在擴展源,選擇擴展源中與查詢詞匯具有相似分布的詞匯作為擴展詞匯,而語義一致性則是借助Wikipedia、Freebase等成熟知識庫技術,提供查詢詞匯的上下位詞匯和語義相近詞匯作為擴展詞匯。分布一致性選擇了查詢詞匯分布相近的詞匯作為擴展源,但是,這些詞匯可能與查詢詞匯沒有語義上的關聯(lián),容易引起語義的發(fā)散。語義一致性選擇了查詢詞匯語義相近的詞匯作為擴展源,但是,知識庫提供的詞匯可能并不是專利選用詞匯,可能引起詞形的離散。
發(fā)明內容
為了解決背景技術中存在的上述各種問題,本發(fā)明提供了一種在復合域視角下進行專利詞嵌入的擴展檢索。該方法以技術領域特性實現(xiàn)方面查詢生成、雙一致性擴展以及檢索結果集融合,保證了專利現(xiàn)狀檢索的有效性和可靠性。
本發(fā)明的上述技術問題主要是通過下述技術方案得以解決的:
一種在復合域視角下進行詞嵌入擴展的專利檢索方法,包括:
生成方面查詢步驟,根據(jù)主題專利的分類信息生成復合域視角容器用于分類存儲基準檢索獲得的關聯(lián)專利,基于復合域視角容器構建技術視角變換器,實現(xiàn)對主題專利不同技術特征的視角變換;
雙一致性擴展步驟,根據(jù)專利分類信息構建單一域視角容器對專利數(shù)據(jù)集進行分類存儲,使用詞嵌入技術對單一域視角容器進行訓練而獲得相應視角下的語義向量空間,基于語義向量空間進行語義和分布相結合的雙一致性擴展;
檢索結果融合步驟,基于復合域視角權值和檢索關聯(lián)專利的位序信息實現(xiàn)對多個檢索結果集的數(shù)據(jù)融合,形成統(tǒng)一的技術關聯(lián)專利列表。
優(yōu)選的,上述的一種在復合域視角下進行詞嵌入擴展的專利檢索方法,所述生成方面查詢步驟中,所述復合域視角容器的生成包括以下子步驟:
步驟1.1.1:從主題專利中抽取技術特征詞匯進行基準檢索,截取反饋列表中排序靠前的TOP-K個關聯(lián)專利;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢大學,未經(jīng)武漢大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710570131.7/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





