[發明專利]一種專利文獻關鍵短語自動提取方法有效
| 申請號: | 201410056332.1 | 申請日: | 2014-02-19 |
| 公開(公告)號: | CN103885934B | 公開(公告)日: | 2017-05-03 |
| 發明(設計)人: | 任智軍;張威;李進;楊婧;張江濤;肖湘 | 申請(專利權)人: | 中國專利信息中心 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京瑞恒信達知識產權代理事務所(普通合伙)11382 | 代理人: | 苗青盛 |
| 地址: | 100088 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 專利 文獻 關鍵 短語 自動 提取 方法 | ||
1.一種專利文獻關鍵短語自動提取方法,包括:
步驟1:進行文本域的預處理;
步驟2:識別專利發明的主題類型;
步驟3:提取候選關鍵短語并進行短語過濾;
步驟4:對過濾后的候選關鍵短語進行權重計算并選出關鍵短語;
其中,步驟1包括:
步驟11、識別專利文獻各文本域,包括識別權利要求書、說明書、說明書摘要、附圖說明或者發明內容的文本域;
步驟12、對專利全文進行分句,根據需要進行分詞處理,分詞后進行詞性標注;
步驟13、對于各文本域中的特殊位置進行識別;
其中,步驟4中,權重計算方法為:
短語權重=(詞頻權重+IPC權重)/2*文本域因子*位置因子,
其中,位置因子是短語首次出現的位置帶來的權重影響,文本域因子是指短語位于專利文獻不同文本域對其權重的影響。
2.根據權利要求1所述的方法,其中,步驟2包括:
步驟21、對于技術主題類型進行分類訓練,獲取分類器;
步驟22、獲取發明名稱、分詞、詞性標注信息、核心詞;
步驟23、基于經過訓練后的分類器,通過特征詞表、核心詞概率和核心詞文檔概率以及核心詞本身作為特征,標注技術主題類型。
3.根據權利要求2所述的方法,其中,步驟21包括:
步驟211、選取1萬篇以上專利文檔作為訓練語料,從著錄項目中獲取發明名稱和獨立權利要求的主題名稱及其分詞、詞性標注信息;
步驟212、獲取核心詞;
步驟213、對上述訓練人工標注其技術主題類型;
步驟214、根據技術主題類型的標注結果,分別建立上述技術主題類型的特征詞表;
步驟215、使用自動分類方法作為技術類型分類方法,對待分類的專利文檔主題名稱進行分類,獲取分類器。
4.根據權利要求1所述的方法,其中,步驟3包括:
步驟31、使用詞表法、規則方法、模板方法或者前后指示詞方法來提取候選關鍵短語;
步驟32、提取后對停用短語和低信息度短語進行過濾。
5.根據權利要求1所述的方法,其中,步驟4中,計算頻率權重包括統計與短語頻率相關的權重,計算方法包括TF-IDF、TFC、ITC或者TF-IWF法。
6.根據權利要求1所述的方法,其中,步驟4中,位置因子分為文本位置因子和專利位置因子,文本位置因子是指因關鍵短語出現在文檔的不同位置帶來的對權重的影響,專利位置因子是指由于專利特殊撰寫格式帶來的對權重的影響。
7.根據權利要求1所述的方法,其中,步驟4還包括:
提取出關鍵詞后,將關鍵詞-文本域信息進行關聯顯示;或者
提取出關鍵短語后,根據技術領域-近義詞表,顯示與提取出來的關鍵短語相似的技術術語,作為近似檢索詞推薦給查詢者。
8.根據權利要求7所述的方法,其中,顯示與提取出來的關鍵短語相似的技術術語的步驟包括:
根據待標引文檔的IPC分類號,定位到所屬技術領域-近義詞表的相關技術領域,如果該技術領域中僅存在一個詞義,同時顯示出該關鍵詞的相關技術領域共使用者參考;或者
如果存在多個詞義,則根據現有方法使用技術領域-近義詞表分別對每個詞義與其他關鍵短語以短語為元素構建詞匯鏈,計算詞的集聚特征值,計算后取集聚特征值最大的詞義。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國專利信息中心,未經中國專利信息中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410056332.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:同心軸轉角差調節裝置
- 下一篇:一種連鑄JZ35車軸用鋼坯的生產方法





