[發明專利]一種基于海量文本數據的相似度衡量方法有效
| 申請號: | 201310335123.6 | 申請日: | 2013-08-02 |
| 公開(公告)號: | CN104346394B | 公開(公告)日: | 2018-12-21 |
| 發明(設計)人: | 陸嘉恒 | 申請(專利權)人: | 中國人民大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京中創陽光知識產權代理有限責任公司 11003 | 代理人: | 尹振啟 |
| 地址: | 100872 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 海量 文本 數據 相似 衡量 方法 | ||
1.一種基于海量文本數據的相似度衡量方法,其特征在于,所述方法包括:
步驟A:對于給定的字符串s1和s2,利用選擇擴展,選擇規則集R中規則,分別獲得其對應的擴展集合S1′與S2′;所述選擇擴展為全擴展和貪心擴展的結合;
所述全擴展包括:
步驟A1:對于給定的字符串s1和s2,分別獲得其對應的集合S1和S2;
步驟A2:掃描規則集R,進行全擴展:對于規則集R中任意規則r:lhs(r)→rhs(r),若lhs(r)是S1的子串,則將rhs(r)中包含的詞組添加到S1;若lhs(r)是S2的子串,則將rhs(r)中包含的詞組添加到S2;
所述貪心擴展包括:
步驟A1:分別確定兩個字符串的可用規則集R1和R2;
步驟A2:分別對集合S1和S2進行貪心擴展:
步驟A2-1:對于S1,執行如下擴展過程:
步驟A2-1-1:計算R1中各個規則的增益,選出增益最大的規則;
給定兩個集合S1和S2,以及S1的一條可用規則r:lhs(r)→rhs(r),規則r的增益定義為:
步驟A2-1-2:如果步驟A2-1-1中所述增益最大的規則擴展S1后,S1′與S2′的相似度增加,則將步驟A2-1-1中所述增益最大的規則從R1中刪除,并將其添加到R1u中;
步驟A2-1-3:重復上述步驟,直到相似度不再增加或者R1為空;
步驟A2-2:對于S2,執行貪心擴展,與步驟A2-1類似,將步驟A2-1中的S1替換為S2并R1替換為R2后,執行步驟A2-1;
步驟B:衡量擴展集合S1′與S2′的相似度,作為原始字符串s1和s2的相似度;
所述選擇擴展包括:
步驟A1:分別確定兩個字符串的可用規則集R1和R2;
步驟A2:分別選擇擴展兩個集合:
步驟A2-1:對于S1,執行全擴展,獲得擴展后的集合S1′,此時R1u=R1;
步驟A2-2:對于S2,執行如下擴展過程:
步驟A2-2-1:計算規則集R2中各個規則的增益;
步驟A2-2-2:選擇規則R2中增益最大的規則;
步驟A2-2-3:測試使用步驟A2-2-2中所述增益最大的規則擴展S2后,如果S1′與S2′的相似度增加,則將步驟A2-2-2所述增益最大的規則從R2中刪除,并將其添加到R2u中;
步驟A2-2-4:重復上述步驟,直到相似度不再增加或者R2為空;
步驟A2-3:刪去R1u中的無用規則;
步驟A2-3-1:計算規則集R1u中各個規則的增益;
步驟A2-3-2:選擇增益最小的規則,如果S1′去掉僅由所述增益最小的規則引入的元素,可以使S1′與S2′的相似度增加,則去掉相應元素,從R1u中刪去所述增益最小的規則;
步驟A2-3-3:重復上述步驟,直到相似度不再增加或者R1u為空;
步驟A2-4:刪去R2u中的無用規則,過程類似A2-3;
步驟A2-5:返回擴展集;
步驟A3:分別對集合S1和S2進行擴展,步驟類似A2,在此次擴展中對S2進行全擴展,S1進行貪心擴展,返回擴展后的集合;
步驟A4:比較A2與A3返回的擴展集合之間的相似度,將相似度較大的選擇為最終擴展集合,較大的相似度為最終相似度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民大學,未經中國人民大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310335123.6/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





