[發明專利]一種專利文本向量的語義表示方法在審
| 申請號: | 201410169250.8 | 申請日: | 2014-04-24 |
| 公開(公告)號: | CN104199809A | 公開(公告)日: | 2014-12-10 |
| 發明(設計)人: | 王秀紅;袁銀池;汪滿容;盧章平 | 申請(專利權)人: | 江蘇大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 江蘇縱聯律師事務所 32253 | 代理人: | 戴勇 |
| 地址: | 212013 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 專利 文本 向量 語義 表示 方法 | ||
1.一種專利文本向量的語義表示方法,其特征在于包括以下步驟:
步驟一,構建領域專利知識庫;
步驟二,利用構建的領域專利知識庫,計算詞項的專利語義權重,將專利文本表示成帶有專利語義信息的向量:假設兩待比對的專利文本為dx和dz,首先通過詞包法將dx和dz表示成實詞向量xx和zz;然后通過構建的領域專利知識庫賦以各詞項專利語義權重,將xx和zz進一步表示成帶有專利語義信息的向量xx0和zz0;所述實詞為出現在專利文獻中的名詞、動詞、形容詞和副詞,即所述詞項;
步驟三,結合利用TF-IDF規則,最后將專利文本表示成帶有專利語義權重信息以及詞頻權重信息的專利文本向量x和z。
2.根據權利要求1所述的一種專利文本向量的語義表示方法,其特征在于所述構建領域專利知識庫的方法為:基于所述領域的領域詞典和德溫特世界專利索引數據庫即DWPI數據庫公開的所述領域的專利文獻,結合所述領域的技術國際專利分類即IPC分類體系層次結構關系,構建所述領域專利知識庫。
3.根據權利要求1所述的一種專利文本向量的語義表示方法,其特征在于所述步驟二進一步具體為
輸入:待比對的專利文本dx和專利文本dz
輸出:待比對的專利文本dx和專利文本dz分別對應的專利文本向量x和z
步驟1,用詞包法分別將dz和dx表示成兩個詞頻向量xx和zz
φ1:dz→zz=φ1(dz)=(tf(t1,dz),tf(t2,dz),...,tf(tN,dz))∈RN,
φ1:dx→xx=φ1(dx)=(tf(t1,dx),tf(t2,dx),...,tf(tN,dx))∈RN
式中f(ti,dx)和f(ti,dz)分別是詞項ti,i=1,...,N在dx和dz中出現的頻率,N為詞典大??;
步驟2,利用所構建的領域專利知識庫,計算zz和xx中各詞項ti,i=1,...,N的專利語義權重,將專利文本進一步表示成帶有知識語義信息的專利文本向量xx0和zz0
φ2:zz→zz0=φ2(zz)=(ω(t1)tf(t1,zz),ω(t2)tf(t2,zz),...,ω(tN)tf(tN,zz))∈RN
φ2:xx→xx0=φ2(xx)=(ω(t1)tf(t1,xx),ω(t2)tf(t2,xx),...,ω(tN)tf(tN,xx))∈RN
ω(ti)為詞項ti的專利語義權重,通過將專利文本中詞項ti對應關聯到領域專利知識庫中,計算得詞項ti的專利語義權重ω(ti);
步驟3,針對專利文獻帶有很強的專業性,術語在某一特定專業領域內反復出現,而在其它專業領域卻很少出現的特點,利用TF-IDF規則,即當某個專利術語在一篇或少數專利文獻中出現的頻率高而在其它專利文獻中很少出現,則認為該術語具有很好的類別區分能力;在很多個專利文獻中都出現的術語,區分性能較弱,進一步結合利用TF-IDF規則定義詞項ti的詞頻權重w0(ti)來表達術語重要程度,將專利文本dx和dz進一步表示成專利文本向量x和z
φ3:zz0→z=φ3(zz0)=(ω0(t1)ω(t1)tf(t1,zz),ω0(t2)ω(t2)tf(t2,zz),...,ω0(tN)ω(tN)tf(tN,zz))∈RN
φ3:xx0→x=φ3(xx0)=(ω0(t1)ω(t1)tf(t1,xx),ω0(t2)ω(t2)tf(t2,xx),...,ω0(tN)ω(tN)tf(tN,xx))∈RN。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇大學;,未經江蘇大學;許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410169250.8/1.html,轉載請聲明來源鉆瓜專利網。





