[發明專利]一種計算中文詞語語義相似度的控制方法以及裝置無效
| 申請號: | 201210174557.8 | 申請日: | 2012-05-30 |
| 公開(公告)號: | CN102955774A | 公開(公告)日: | 2013-03-06 |
| 發明(設計)人: | 楊燕;吳雯;吳奔斌;霍曉駿;王偉杰;洪磊;張波;崔永利;賀樑;宋樹彬 | 申請(專利權)人: | 華東師范大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 隆天國際知識產權代理有限公司 72003 | 代理人: | 吳世華;馮志云 |
| 地址: | 200241 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 計算 中文 詞語 語義 相似 控制 方法 以及 裝置 | ||
1.一種計算中文詞語語義相似度的控制方法,其特征在于,包括如下步驟:
a.獲取詞語對,并根據所述詞語對獲取相應的特征向量,其中所述詞語對包括第一詞語以及第二詞語,與之相對應的特征向量為第一特征向量以及第二特征向量;
b.對所述特征向量進行語義拓展獲得拓展特征向量;
c.對所述特征向量進行語義映射獲得映射特征向量;以及
d.根據所述拓展特征向量以及所述映射特征向量計算詞語相似度。
2.根據權利要求1所述的控制方法,其特征在于,所述步驟b包括如下步驟:
b′.將只在所述第一特征向量或者所述第二特征向量出現的詞語項作為第一詞語項,查找所述第一詞語項在同義詞詞林中的編碼,根據所述編碼在所述第一詞語項所屬的特征向量中查找所述編碼下的詞語項,將查找出的詞語項對應的值中最大的值作為所述第一詞語項的值,
其中,對每一個只在所述第一特征向量或者所述第二特征向量出現的詞語項,重復步驟b′,分別得到相對應與所述第一特征向量的第一拓展特征向量以及相對應于所述第二特征向量的第二拓展特征向量。
3.根據權利要求1所述的控制方法,其特征在于,所述步驟c包括如下步驟:
c′.將所述第一特征向量以及第二特征向量中的一個詞語項作為第二詞語項,查找其在同義詞詞林中的編碼,如果該編碼在對應的特征向量中沒有被統計過,將所述第二詞語項所在的原始向量中屬于所述編碼的所有詞語項對應的值進行累加并將該編碼和累加值加入到對應的映射向量中。,?
其中,對每一個所述第一特征向量以及第二特征向量的詞語項重復步驟c,分別得到相對應與所述第一特征向量的第一映射特征向量以及相對應于所述第二特征向量的第二映射特征向量。
4.根據權利要求1所述的控制方法,其特征在于,所述步驟a包括如下步驟:
a1.對于所述第一詞語以及所述第二詞語,分別在語料庫中抽取定量的包含所述第一詞語的第一文本片段和包含所述第二詞語的第二文本片段;
a2.將所述第一文本片段以及第二文本片段進行分詞,所述第一文本片斷中出現的詞語都是所述第一詞語的共現詞;所述第二文本片斷中出現的詞語都是所述第二詞語的共現詞,分別在兩個文本片段中進行共現詞的頻數統計,并將所述第一文本片段的共現詞及其頻數組成第一原始向量以及所述第二文本片段的共現詞及其頻數組成第二原始向量,其中所述共現詞作為所述向量的詞語項,所述共現詞的頻數作為所述詞語項的值;
a3.分別判斷所述第一原始向量以及第二原始向量各詞語項的值是否大于第一閾值;以及
a4.若所述第一原始向量或者第二原始向量各詞語項的值大于第一閾值則將所述詞語項及其值保留為所述第一特征向量或者第二特征向量的的詞語項及其值。
5.根據權利要求1所述的控制方法,其特征在于,所述步驟d包括如下步驟:
d1.根據所述拓展特征向量以及所述映射特征向量利用余弦相似度計算公式得到兩個相似度值;
d2.對兩個相似度值進行加權計算得到最終相似度值。
6.根據權利要求5所述的控制方法,其特征在于,所述步驟d1之前包括如下步驟:
-判斷所述拓展特征向量之間以及所述映射特征拓展向量之?間各詞語項的詞頻對比度是否在第二閾值以及第二閾值的倒數之間;
-若所述拓展特征向量之間以及所述映射特征拓展向量之間各詞語項的詞頻對比度在第二閾值以及第二閾值的倒數之間,則將所述詞語項及其值保留為新拓展特征向量或者新映射特征拓展向量的詞語項及其值。
7.根據權利要求5所述的控制方法,其特征在于,所述步驟d1包括如下步驟:
d11.根據所述第一拓展特征向量以及所述第二拓展特征向量利用余弦相似度計算公式得到拓展相似度值Simexpansion;
d12.根據所述第一映射特征向量以及所述第二映射特征向量利用余弦相似度計算公式得到拓展相似度值Simmapping。
8.根據權利要求5至7任一項所述的控制方法,其特征在于,所述最終相似度根據如下公式計算:
Sim=αSimexpansion+(1-α)Simmapping。
其中,α為加權參數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華東師范大學,未經華東師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210174557.8/1.html,轉載請聲明來源鉆瓜專利網。





