[發(fā)明專(zhuān)利]一種基于詞頻和語(yǔ)義計(jì)算專(zhuān)利文獻(xiàn)相似度的智能檢索方法、裝置、電子設(shè)備及其存儲(chǔ)介質(zhì)有效
| 申請(qǐng)?zhí)枺?/td> | 202011227890.1 | 申請(qǐng)日: | 2020-11-06 |
| 公開(kāi)(公告)號(hào): | CN112257419B | 公開(kāi)(公告)日: | 2021-05-28 |
| 發(fā)明(設(shè)計(jì))人: | 汪敏;嚴(yán)妍;肖國(guó)泉;裴非;肖克;彭祖劍;邵羅樹(shù);趙達(dá);石鑫 | 申請(qǐng)(專(zhuān)利權(quán))人: | 開(kāi)普云信息科技股份有限公司;北京開(kāi)普云信息科技有限公司 |
| 主分類(lèi)號(hào): | G06F40/216 | 分類(lèi)號(hào): | G06F40/216;G06F40/30;G06F40/242;G06F40/289;G06K9/62;G06F16/33 |
| 代理公司: | 暫無(wú)信息 | 代理人: | 暫無(wú)信息 |
| 地址: | 523000 廣東省東莞市石龍鎮(zhèn)中*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 詞頻 語(yǔ)義 計(jì)算 專(zhuān)利 文獻(xiàn) 相似 智能 檢索 方法 裝置 電子設(shè)備 及其 存儲(chǔ) 介質(zhì) | ||
本發(fā)明提供一種基于詞頻和語(yǔ)義計(jì)算專(zhuān)利文獻(xiàn)相似度的智能檢索方法、裝置、電子設(shè)備及其存儲(chǔ)介質(zhì),對(duì)專(zhuān)利數(shù)據(jù)庫(kù)中的所有文獻(xiàn)進(jìn)行詞袋統(tǒng)計(jì)和詞向量計(jì)算,得到對(duì)應(yīng)的詞袋數(shù)據(jù)和詞距離數(shù)據(jù);建立模型,輸入內(nèi)容或考題號(hào),在題庫(kù)數(shù)據(jù)中獲取待審專(zhuān)利的標(biāo)題、摘要、權(quán)利要求書(shū)、說(shuō)明書(shū)進(jìn)行多種組合,并分別根據(jù)詞袋算法和語(yǔ)義算法進(jìn)行粗選和細(xì)選,針對(duì)選擇后數(shù)據(jù)進(jìn)行文本相似度分析,將分析結(jié)果融合排序得到綜合相似度,經(jīng)查重篩選,給出待查專(zhuān)利的可疑答案集合。本發(fā)明提升了檢索速度,采用兩輪篩選,第一輪粗選旨在快速縮小對(duì)比范圍,第二輪細(xì)選旨在兼顧提高準(zhǔn)確率;可以有效節(jié)省人力和時(shí)間,幫助專(zhuān)利審查員縮減相關(guān)專(zhuān)利審查范圍,提高審查效率。
技術(shù)領(lǐng)域
本發(fā)明屬于數(shù)據(jù)查重技術(shù)領(lǐng)域,尤其涉及一種基于詞頻和語(yǔ)義計(jì)算專(zhuān)利文獻(xiàn)相似度的智能檢索方法、裝置、電子設(shè)備及其存儲(chǔ)介質(zhì)。
背景技術(shù)
專(zhuān)利是一種受法律保護(hù)的特殊文件,是政府對(duì)社會(huì)發(fā)明創(chuàng)造的一種保護(hù)手段,在國(guó)家專(zhuān)利管理部門(mén)受理專(zhuān)利申請(qǐng)后,需要對(duì)專(zhuān)利進(jìn)行有效審查,而審查過(guò)程中的查重工作無(wú)疑是重要環(huán)節(jié)之一,現(xiàn)有查重系統(tǒng)常用的查重算法是詞袋算法或者語(yǔ)義算法。
詞袋算法,是指根據(jù)文本內(nèi)容的分詞統(tǒng)計(jì)詞袋結(jié)果進(jìn)行相似度計(jì)算,源于文本分類(lèi)技術(shù)。在信息檢索中,它假定對(duì)于一個(gè)文本,忽略其詞序、語(yǔ)法和句法,將其僅僅看作是一個(gè)詞集合,或者說(shuō)是詞的一個(gè)組合。文本中每個(gè)詞的出現(xiàn)都是獨(dú)立的,不依賴(lài)于其它詞是否出現(xiàn),或者說(shuō)這篇文章的任意一個(gè)位置詞匯都不受前面句子的影響而獨(dú)立選擇的。
語(yǔ)義算法,是指將文本內(nèi)容轉(zhuǎn)化為特征向量進(jìn)行相似度計(jì)算。首先把詞處理成實(shí)數(shù)向量,完成向量化,把特征從詞匯表大小的高維度空間降低到一個(gè)相對(duì)低的維度空間;再使用簡(jiǎn)單的代數(shù)運(yùn)算來(lái)發(fā)現(xiàn)它們之間的語(yǔ)義相似度,并且保證向量間的相對(duì)相似度和語(yǔ)義相似度是相關(guān)的。計(jì)算向量間的相似度可以采用諸如余弦相似度的方法。
但是,現(xiàn)有技術(shù)針對(duì)專(zhuān)利查重算法使用方式單一且結(jié)果準(zhǔn)確率不高,審查人員在專(zhuān)利審查過(guò)程中需要付出大量的時(shí)間和精力,工作效率較低且存在審核意見(jiàn)主觀性強(qiáng)的問(wèn)題。
發(fā)明內(nèi)容
本發(fā)明為了彌補(bǔ)現(xiàn)有技術(shù)的不足,提供一種基于詞頻和語(yǔ)義計(jì)算專(zhuān)利文獻(xiàn)相似度的智能檢索方法、裝置、電子設(shè)備及其存儲(chǔ)介質(zhì),本技術(shù)方案權(quán)衡了針對(duì)字面的詞袋算法和針對(duì)語(yǔ)義的語(yǔ)義算法的優(yōu)缺點(diǎn),旨在從字面和語(yǔ)義兩方面雙管齊下,將兩種算法相融合來(lái)綜合審查專(zhuān)利文獻(xiàn)的重復(fù)度,提升專(zhuān)利審查效率。
本發(fā)明的實(shí)施例是這樣實(shí)現(xiàn)的:
第一方面,本發(fā)明實(shí)施例提供了基于詞頻和語(yǔ)義計(jì)算專(zhuān)利文獻(xiàn)相似度的智能檢索方法,應(yīng)用于服務(wù)器,具體實(shí)現(xiàn)步驟是:首先對(duì)專(zhuān)利數(shù)據(jù)庫(kù)中的所有文獻(xiàn)進(jìn)行詞袋統(tǒng)計(jì)和詞向量計(jì)算,得到對(duì)應(yīng)的詞袋數(shù)據(jù)和詞距離數(shù)據(jù);然后建立模型,待用戶(hù)輸入內(nèi)容或考題號(hào),在目前加載的題庫(kù)數(shù)據(jù)中獲取待審專(zhuān)利的標(biāo)題、摘要、權(quán)利要求書(shū)、說(shuō)明書(shū)四部分內(nèi)容進(jìn)行多種組合,并分別根據(jù)詞袋算法和語(yǔ)義算法進(jìn)行粗選和細(xì)選,針對(duì)選擇后數(shù)據(jù)進(jìn)行文本相似度分析,將分析結(jié)果融合排序得到綜合相似度,以此為標(biāo)準(zhǔn)進(jìn)行客觀有效的查重篩選,最后給出待查專(zhuān)利的可疑答案集合。
進(jìn)一步地,粗選是指:根據(jù)組合結(jié)果從專(zhuān)利語(yǔ)料庫(kù)中生成字典和詞典;結(jié)合生成的字典和詞典,從專(zhuān)利數(shù)據(jù)庫(kù)中為每篇專(zhuān)利獲取詞袋,根據(jù)詞袋的不同屬性生成詞袋文件,詞袋文件的集合形成詞袋庫(kù);根據(jù)考題內(nèi)容,從詞袋庫(kù)中取出對(duì)應(yīng)專(zhuān)利的詞袋,由詞袋得到文本內(nèi)容;根據(jù)詞袋算法將每條考題不同字段的組合詞袋與全量專(zhuān)利的相應(yīng)詞袋進(jìn)行逐一比較,計(jì)算得出語(yǔ)義相似值;將對(duì)應(yīng)的每篇專(zhuān)利的不同組合詞袋的TopN1結(jié)果融合取交集,再對(duì)剩余組合詞袋按語(yǔ)義相似值從大到小排序,取出一定數(shù)量湊足TopN1作為粗選的結(jié)果集,從而形成粗選集;統(tǒng)計(jì)出所有考題對(duì)應(yīng)的粗選集,將其傳給細(xì)選算法模型作為輸入。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于開(kāi)普云信息科技股份有限公司;北京開(kāi)普云信息科技有限公司,未經(jīng)開(kāi)普云信息科技股份有限公司;北京開(kāi)普云信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011227890.1/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 基于互聯(lián)網(wǎng)信息的輸入法詞頻庫(kù)的生成方法和系統(tǒng)
- 基于用戶(hù)特性的詞頻庫(kù)的生成方法
- 詞典生成裝置以及信息檢索裝置
- 一種數(shù)字出版物詞匯抽取、顯示方法和系統(tǒng)
- 一種基于互聯(lián)網(wǎng)詞頻的城市認(rèn)知地圖生成方法
- 熱詞詞組提取方法和系統(tǒng)
- 文本相似度確定方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 基于詞頻的文本特征加權(quán)及短文本相似性計(jì)算方法、系統(tǒng)和介質(zhì)
- 一種輸入的方法及相關(guān)裝置
- 自動(dòng)回復(fù)生成方法、裝置及智能設(shè)備
- 面向語(yǔ)義Web服務(wù)程序設(shè)計(jì)的語(yǔ)義數(shù)據(jù)表示和處理方法
- 一種基于語(yǔ)義的三維模型檢索系統(tǒng)和方法
- 一種計(jì)算機(jī)語(yǔ)義工程系統(tǒng)
- 導(dǎo)航方法及裝置
- 一種分層次多語(yǔ)義網(wǎng)系統(tǒng)及方法
- 一種基于上下文的語(yǔ)義匹配方法和系統(tǒng)
- 遠(yuǎn)程語(yǔ)義識(shí)別方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種基于語(yǔ)義依存關(guān)系的醫(yī)療文本標(biāo)注方法
- 基于多級(jí)語(yǔ)義表征和語(yǔ)義計(jì)算的信號(hào)語(yǔ)義識(shí)別方法
- 語(yǔ)義分類(lèi)方法及裝置、存儲(chǔ)介質(zhì)及電子設(shè)備





