[發明專利]一種基于上下文關聯的中文相似性比較方法無效
| 申請號: | 201110303533.3 | 申請日: | 2011-10-09 |
| 公開(公告)號: | CN102314418A | 公開(公告)日: | 2012-01-11 |
| 發明(設計)人: | 趙長海;晏海華;郎鈺澤 | 申請(專利權)人: | 北京航空航天大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京永創新實專利事務所 11121 | 代理人: | 周長琪 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 上下文 關聯 中文 相似性 比較 方法 | ||
1.一種基于上下文關聯的中文相似性比較方法,其特征在于,該方法具體包括如下步驟:
步驟1、首先將要進行比較的兩篇文本S和D的文本流進行分詞,然后為每一個文本建立倒排表,具體是:通過詞匯內容建立索引,將詞匯本身作為索引的鍵,詞匯在文本中的位置作為索引值;
步驟2、對倒排表進行相似性檢測,得到可疑相似片段,具體是:
步驟2.1、首先使用倒排表對中心詞進行映射:若詞X同時在文本S的倒排表和文本D的倒排表中出現,則在文本S的倒排表和文本D的倒排表中建立詞X的關系映射,并得到以詞X作為中心詞、以r作為半徑,長度n=2r+1的一對可疑相似片段;
步驟2.2、以n個詞作為一個粒度對兩篇文本S和D進行相似性檢測,并確定每一對可疑相似片段的相似度;
步驟2.3、確定文本S和文本D的相似值RS,D表示文本S對文本D的相似度,RD,S表示文本D對文本S的相似度;
步驟3、對可疑相似片段進行聚合,生成相似文本塊。
2.根據權利要求1所述的一種基于上下文關聯的中文相似性比較方法,其特征在于,步驟2.1中所述的r為2。
3.根據權利要求1所述的一種基于上下文關聯的中文相似性比較方法,其特征在于,步驟2中所述的可疑相似片段,其數據結構包括如下元素:包含該可疑相似片段s與d的相似度rsf(s,d)、片段s在文本S中的起始位置索引號s_StartIndex、片段s在文本S中的終止位置索引號s_EndIndex、片段d在文本D中的起始位置索引號d_StartIndex和片段d在文本D中的終止位置索引號d_EndIndex。
4.根據權利要求1所述的一種基于上下文關聯的中文相似性比較方法,其特征在于,步驟2.3中所述的文本S對文本D的相似度RS,D具體通過式(1)得到:
wi表示S中第i個詞語,NS表示文本S中包含的詞語的總個數,表示對文本S中所有的詞語的相似度求和,表示詞語wi的相似度,具體依據下面式(2)來確定:
為第j個包含某個詞語w的可疑相似片段的相似度,可疑相似片段的相似度依據式(3)來確定:
αi表示第i個詞的權重向量,s表示候選片段,s∈文本S,d表示待檢測片段,d∈文本D,F(s)表示片段s的詞匯向量,F(d)表示片段d的詞匯向量,N表示文本S和文本D中包含的詞語的總個數;
文本D對文本S的相似度RD,S類似RS,D能夠得到。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航空航天大學,未經北京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110303533.3/1.html,轉載請聲明來源鉆瓜專利網。





