[發(fā)明專利]一種基于大數(shù)據(jù)的專利文件智能標(biāo)引方法及裝置在審
| 申請?zhí)枺?/td> | 202011180870.3 | 申請日: | 2020-10-29 |
| 公開(公告)號: | CN112380838A | 公開(公告)日: | 2021-02-19 |
| 發(fā)明(設(shè)計)人: | 程艷 | 申請(專利權(quán))人: | 武漢蟬略科技有限公司 |
| 主分類號: | G06F40/216 | 分類號: | G06F40/216;G06F40/258;G06F40/289;G06F16/33;G06Q50/18 |
| 代理公司: | 武漢紅觀專利代理事務(wù)所(普通合伙) 42247 | 代理人: | 李季 |
| 地址: | 430000 湖北省武漢市東湖新技術(shù)*** | 國省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 數(shù)據(jù) 專利 文件 智能 標(biāo)引 方法 裝置 | ||
1.一種基于大數(shù)據(jù)的專利文件智能標(biāo)引方法,其特征在于:包括以下步驟;
S1,獲取檢索分析指令,根據(jù)該檢索分析指令對專利數(shù)據(jù)庫進(jìn)行檢索,并提取對應(yīng)的專利文本;
S2,設(shè)定主題分類詞,根據(jù)該主題分類詞從同領(lǐng)域?qū)@谋局袠?biāo)記出對應(yīng)的詞語作為技術(shù)主題詞;
S3,建立TF-IDF算法,根據(jù)TF-IDF算法計算出每個技術(shù)主題詞在對應(yīng)的專利文本中所占比重作為該技術(shù)主題詞的詞頻;
S4,根據(jù)技術(shù)主題詞的詞頻確定該專利文本對應(yīng)的技術(shù)主題并進(jìn)行標(biāo)引。
2.如權(quán)利要求1所述的基于大數(shù)據(jù)的專利文件智能標(biāo)引方法,其特征在于:步驟S1中,獲取檢索分析指令,根據(jù)該檢索分析指令對專利數(shù)據(jù)庫進(jìn)行檢索,并提取對應(yīng)的專利文本,還包括以下步驟,獲取檢索分析指令,從該獲取檢索分析指令中提取檢索分析詞,根據(jù)該檢索分析詞對專利數(shù)據(jù)庫進(jìn)行檢索,獲取對應(yīng)的專利文本。
3.如權(quán)利要求2所述的基于大數(shù)據(jù)的專利文件智能標(biāo)引方法,其特征在于:步驟S2中,設(shè)定主題分類詞,根據(jù)該主題分類詞從同領(lǐng)域?qū)@谋局袠?biāo)記出對應(yīng)的詞語作為技術(shù)主題詞,還包括以下步驟,根據(jù)檢索分析詞獲取與該檢索分析詞同類別的二級詞語作為主題分類詞,根據(jù)該主題分類詞對專利文本進(jìn)行遍歷,并標(biāo)記出專利文本中對應(yīng)的主題分類詞。
4.如權(quán)利要求3所述的基于大數(shù)據(jù)的專利文件智能標(biāo)引方法,其特征在于:根據(jù)檢索分析詞獲取與該檢索分析詞同類別的二級詞語作為主題分類詞,根據(jù)該主題分類詞對專利文本進(jìn)行遍歷,并標(biāo)記出專利文本中對應(yīng)的主題分類詞之后,還包括以下步驟,設(shè)定檢索連詞,所述檢索連詞包括:包括以及含有,根據(jù)該檢索連詞對標(biāo)記有主題分類詞對應(yīng)的語句進(jìn)行檢索,當(dāng)該語句存在檢索連詞時,提取出該檢索連詞對應(yīng)的語句中的所有詞語,并對所有詞語進(jìn)行篩選,將篩選出的詞語作為輔助分類詞。
5.如權(quán)利要求4所述的基于大數(shù)據(jù)的專利文件智能標(biāo)引方法,其特征在于:步驟S3中,建立TF-IDF算法,根據(jù)TF-IDF算法計算出每個技術(shù)主題詞在對應(yīng)的專利文本中所占比重作為該技術(shù)主題詞的詞頻,還包括以下步驟,建立TF-IDF算法,通過TF-IDF算法統(tǒng)計出專利文本中每個主題分類詞的數(shù)量以及輔助分類詞的數(shù)量,并計算出每個主題分類詞在對應(yīng)專利文本中的詞頻以及每個輔助分類詞在對應(yīng)專利文本中的詞頻。
6.如權(quán)利要求5所述的基于大數(shù)據(jù)的專利文件智能標(biāo)引方法,其特征在于:步驟S4中,根據(jù)技術(shù)主題詞的詞頻確定該專利文本對應(yīng)的技術(shù)主題并進(jìn)行標(biāo)引,還包括以下步驟,記錄每個主題分類詞的詞頻數(shù)值,并疊加每個主題分類詞對應(yīng)的輔助分類詞的詞頻數(shù)值,獲取每個主題分類詞的總詞頻數(shù)值,將每個主題分類詞的總詞頻數(shù)值兩兩進(jìn)行比較,將總詞頻數(shù)值最大的主體分類詞作為該專利文本對應(yīng)的技術(shù)主題并進(jìn)行標(biāo)引。
7.如權(quán)利要求6所述的基于大數(shù)據(jù)的專利文件智能標(biāo)引方法,其特征在于:步驟S4中,根據(jù)第一關(guān)鍵詞和第二關(guān)鍵詞確定最終關(guān)鍵詞作為待計算文本的索引關(guān)鍵詞,并對該待計算文本進(jìn)行標(biāo)記之后,還包括以下步驟,設(shè)定特殊分類詞,所述特殊分類詞包括:背景技術(shù)以及有益效果,根據(jù)該特殊分類詞在專利文本中查找對應(yīng)文本,并從該文本中提取詞語作為待篩選詞語,對該待篩選詞語進(jìn)行篩選,將篩選后的詞語作為特殊分類詞對該專利文本進(jìn)行標(biāo)引。
8.一種基于大數(shù)據(jù)的專利文件智能標(biāo)引裝置,其特征在于,所述基于大數(shù)據(jù)的專利文件智能標(biāo)引裝置包括:
獲取模塊,用于獲取檢索分析指令,根據(jù)該檢索分析指令對專利數(shù)據(jù)庫進(jìn)行檢索,并提取對應(yīng)的專利文本;
技術(shù)主題詞確立模塊,用于設(shè)定主題分類詞,根據(jù)該主題分類詞從同領(lǐng)域?qū)@谋局袠?biāo)記出對應(yīng)的詞語作為技術(shù)主題詞;
計算模塊,用于建立TF-IDF算法,根據(jù)TF-IDF算法計算出每個技術(shù)主題詞在對應(yīng)的專利文本中所占比重作為該技術(shù)主題詞的詞頻;
標(biāo)引模塊,用于根據(jù)技術(shù)主題詞的詞頻確定該專利文本對應(yīng)的技術(shù)主題并進(jìn)行標(biāo)引。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于武漢蟬略科技有限公司,未經(jīng)武漢蟬略科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011180870.3/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





