[發(fā)明專利]一種基于擴展布爾檢索模型的大數(shù)據(jù)專利檢索方法在審
| 申請?zhí)枺?/td> | 201710856763.X | 申請日: | 2017-09-21 |
| 公開(公告)號: | CN107609142A | 公開(公告)日: | 2018-01-19 |
| 發(fā)明(設(shè)計)人: | 盛時永 | 申請(專利權(quán))人: | 合肥集知網(wǎng)知識產(chǎn)權(quán)運營有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06Q50/18 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 230088 安徽省合肥市高*** | 國省代碼: | 安徽;34 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 擴展 布爾 檢索 模型 數(shù)據(jù) 專利 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及一種大數(shù)據(jù)專利檢索方法,屬于專利檢索技術(shù)領(lǐng)域,具體涉及一種基于擴展布爾檢索模型的大數(shù)據(jù)專利檢索方法。
背景技術(shù)
20世紀80年代以來,隨著世界經(jīng)濟的發(fā)展和新技術(shù)革命的到來,專利文獻作為一種既可以體現(xiàn)科技創(chuàng)新力,又可以保護科研成果不受侵犯的科技法律文獻,其重要性越來越受到重視。據(jù)世界知識產(chǎn)權(quán)組織(World Intellectual Property Organization)報道,專利文獻包含全世界每年90%~95%的最新科研成果,其中有70%左右的發(fā)明技術(shù)從未在其他非專利文獻上發(fā)表。專利文獻指導技術(shù)創(chuàng)新,將可以節(jié)約40%的研究經(jīng)費和60%的研究時間,專利已經(jīng)成為了企業(yè)科技創(chuàng)新和投資者商業(yè)戰(zhàn)略決策的重要科技參考文獻。
中國專利數(shù)據(jù)截止到2013年底達到了600萬條,超過了美國和日本,躍居世界第一。面對如此大量的專利信息,用戶獲取有價值信息的代價也越來越高,正是這種需求導致了專利數(shù)據(jù)各種研究工作的開展以及各種商業(yè)專利服務(wù)平臺的出現(xiàn)。
相對傳統(tǒng)文本而言,專利文獻有其特殊性,主要表現(xiàn)在5個方面:
(1)復雜性。專利文獻記載著技術(shù)解決方案,確定了專利權(quán)保護范圍,包含很多專業(yè)性和細節(jié)性的說明,特別是專利中描述技術(shù)細節(jié)和組成結(jié)構(gòu)的句子表達非常復雜,涉及多種并列結(jié)構(gòu)、依存結(jié)構(gòu)和嵌套結(jié)構(gòu),在做句法語義分析時也比普通文本遇到更多的挑戰(zhàn)。
(2)規(guī)范化。專利文獻相對網(wǎng)頁有更規(guī)整的結(jié)構(gòu)化信息,一是它具有統(tǒng)一的分類,二是專利權(quán)利說明書遵循一定的寫作規(guī)范,有效地利用這些規(guī)范化信息將有助于對專利的分析。
(3)抽象性。專利作為一種技術(shù)上受保護的文獻,專利發(fā)明人為了壟斷技術(shù),會使用更加抽象的上位詞表達保護的覆蓋范圍,這些詞包含各種技術(shù)術(shù)語甚至是自定義詞匯,從而增加了詞法處理的難度。
(4)唯一性。專利是一種獨一無二的信息資源,相對于網(wǎng)頁,專利間的文本重疊度往往很小,因此在計算專利相似度時,基于詞語重疊的方法并不適用。
(5)多主題多語言。一篇專利文獻經(jīng)常包括多個主題,而且不同國家采用不同的語言描述專利,所以專利檢索更加注重跨語言多主題的檢索。
對比文件1(一種專利檢索的系統(tǒng)和方法,CN201410787225.6)公開了一種專利檢索的系統(tǒng)和方法,專利檢索的系統(tǒng)包括用戶信息管理模塊、檢索類型選擇模塊、檢索輸入模塊、檢索配對模塊和檢索輸出模塊,專利檢索的方法包括:S1,從簡單檢索、高級檢索和表達式檢索中選擇適合本次檢索的檢索方式,并且進入該檢索的窗口;S2,在選擇進入的檢索方式的窗口中輸入檢索詞,點擊檢索窗口進入顯示窗口;S3,在檢索窗口選擇專利呈現(xiàn)的形式,并彈出呈現(xiàn)窗口,或者選擇二次檢索過濾后再次呈現(xiàn);S4,選擇對專利進行保存或則結(jié)束進程。該發(fā)明中的專利檢索主要從功能性模塊出發(fā),并沒有進行實質(zhì)性的提出高效率的檢索方法。
針對以上缺點,有必要設(shè)計出一種新的專利檢索方法,避免傳統(tǒng)專利檢索方法中檢索式構(gòu)造的非友善性和二值匹配相關(guān)性,提高專利檢索結(jié)果的匹配度和關(guān)聯(lián)度。
發(fā)明內(nèi)容
(一)要解決的技術(shù)問題
為了解決現(xiàn)有技術(shù)存在的上述問題,本發(fā)明提供了一種基于擴展布爾檢索模型的大數(shù)據(jù)專利檢索方法,該方法能夠避免傳統(tǒng)專利檢索方法中檢索式構(gòu)造的非友善性和二值匹配相關(guān)性,提高專利檢索結(jié)果的匹配度和關(guān)聯(lián)度。
(二)技術(shù)方案
本發(fā)明提出了一種基于擴展布爾檢索模型的大數(shù)據(jù)專利檢索方法,該方法包括如下步驟:
步驟S1:將用戶的檢索提問轉(zhuǎn)化成廣義析取提問式和廣義合取提問式;
步驟S2:計算出檢索詞Ki在專利文檔dj中的權(quán)重;
步驟S3:對專利文檔dj分別計算出其與廣義析取提問式和廣義合取提問式的相似度;
步驟S4:遍歷專利數(shù)據(jù)庫中的文檔,計算出擴展布爾檢索模型最匹配的前N個專利文檔,并組成集合D;
步驟S5:對集合D中的專利文檔進行排序,輸出給用戶;
步驟S6:用戶根據(jù)呈現(xiàn)的結(jié)果,選擇所需專利,或者添加或重新輸入專利檢索詞并且調(diào)整各檢索詞的權(quán)重,進行二次檢索過濾。
優(yōu)選的,所述步驟S1中,廣義析取提問式和廣義合取提問式計算公式如下:
qor=k1∨pk2∨p……∨pkt
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于合肥集知網(wǎng)知識產(chǎn)權(quán)運營有限公司,未經(jīng)合肥集知網(wǎng)知識產(chǎn)權(quán)運營有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710856763.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 將過程控制系統(tǒng)中梯形邏輯轉(zhuǎn)換為布爾邏輯的方法和系統(tǒng)
- 布爾登管式壓力計
- 基于增量式高次布爾能量最小化的視頻前后景分割方法
- 一種數(shù)據(jù)處理方法、裝置、存儲介質(zhì)及處理器
- 一種聯(lián)鎖布爾邏輯的優(yōu)化方法
- 建筑外輪廓模型生成方法、系統(tǒng)、裝置及可讀存儲介質(zhì)
- 一種搜索S盒的最少硬件實現(xiàn)門數(shù)的方法和S盒電路結(jié)構(gòu)
- 圖計算的布爾型變量存儲方法、裝置、設(shè)備及存儲介質(zhì)
- 一種基于混合布爾網(wǎng)絡(luò)的多功能物理不可克隆函數(shù)裝置
- 一種多層布爾網(wǎng)絡(luò)的模型辨識方法及系統(tǒng)





