[發明專利]一種基于詞頻和語義計算專利文獻相似度的智能檢索方法、裝置、電子設備及其存儲介質有效
| 申請號: | 202011227890.1 | 申請日: | 2020-11-06 |
| 公開(公告)號: | CN112257419B | 公開(公告)日: | 2021-05-28 |
| 發明(設計)人: | 汪敏;嚴妍;肖國泉;裴非;肖克;彭祖劍;邵羅樹;趙達;石鑫 | 申請(專利權)人: | 開普云信息科技股份有限公司;北京開普云信息科技有限公司 |
| 主分類號: | G06F40/216 | 分類號: | G06F40/216;G06F40/30;G06F40/242;G06F40/289;G06K9/62;G06F16/33 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 523000 廣東省東莞市石龍鎮中*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 詞頻 語義 計算 專利 文獻 相似 智能 檢索 方法 裝置 電子設備 及其 存儲 介質 | ||
1.一種基于詞頻和語義計算專利文獻相似度的智能檢索方法,其特征在于:包括以下步驟:
S101、針對題庫的全部專利數據,提取與考題內容相關的文本信息,整理成結構化數據,形成分詞結果;
S102、針對上述全部專利數據的分詞結果進行詞袋統計和詞向量轉化計算,得到每個詞的權重值,作為模型預測的預加載數據;
S103、加載上述全部詞袋、詞向量、詞匯數據,根據考題公開號進行全量匹配查詢,比較模型預測的相似度,返回排名靠前的考題結果;
其中,所述S102進一步包括以下步驟:
S1021、針對上述分詞結果進行詞袋統計,完成粗選;
S1022、針對粗選結果再次進行詞袋統計和詞向量轉化計算,完成細選;
S1023、計算細選結果的權重值;
S1024、構建數據向量模型;
其中,所述S1021進一步包括以下步驟:
S10211、根據分詞結果從專利語料庫中生成字典和詞典;
S10212、結合生成的字典和詞典,從專利數據庫中為每篇專利獲取詞袋,根據詞袋的不同屬性生成詞袋文件,詞袋文件的集合形成詞袋庫;
S10213、根據考題內容,從詞袋庫中取出對應專利的詞袋,由詞袋得到文本內容;
S10214、根據詞袋算法將每條考題不同字段的組合詞袋與全量專利的相應詞袋進行逐一比較,計算得出詞頻相似值;將對應的每篇專利的不同組合詞袋的TopN1結果融合取并集,從而形成粗選集;
S10215、統計出所有考題對應的粗選集,將其傳給細選算法模型作為輸入;
其中,所述S1022進一步包括以下步驟:
S10221、對詞袋再次執行S1021所述粗選算法,對各個不同組合詞袋的結果集進行詞袋算法相似值計算,并賦予一定權重;
S10222、使用語義算法,將詞袋中所有詞和考題中詞逐一進行余弦相似度計算得到相似值,并將所有相似值累加,得到兩篇專利整體的語義相似度;不同字段的組合詞袋分別對應一個總相似值,并賦予一個權重;
S10223、對多個詞袋和語義的相似值連同權重進行計算和累加,將結果作為相似值進行排序,得到TopN2作為細選的結果集,從而形成細選集,作為檢索結果;其中,所述S103進一步包括以下步驟:
S1031、加載數據向量模型的全部詞袋、詞向量、詞匯數據;
S1032、根據考題公開號進行全量匹配查詢,得到模型預測數據;
S1033、比較模型預測數據的相似度;
S1034、返回排名靠前的文獻,得到考題結果。
2.如權利要求1所述的一種基于詞頻和語義計算專利文獻相似度的智能檢索方法,其特征在于:所述S101進一步包括以下步驟:
S1011、獲取題庫的全部專利數據;
S1012、提取與考題內容相關的文本信息;
S1013、分詞處理,形成結構化數據;
S1014、得到分詞結果。
3.如權利要求1所述的一種基于詞頻和語義計算專利文獻相似度的智能檢索方法,其特征在于:S101中所述“考題”是指用戶輸入的標識號,所述“題庫”是指用戶查詢的一個或多個專利數據庫;S102中所述“每個詞的權重值”的閾值范圍在0.3-13左右,計算準確率最高。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于開普云信息科技股份有限公司;北京開普云信息科技有限公司,未經開普云信息科技股份有限公司;北京開普云信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011227890.1/1.html,轉載請聲明來源鉆瓜專利網。





