[發明專利]一種文本的相似度計算的方法和裝置有效

申請號：	201611107823.X	申請日：	2016-12-06
公開（公告）號：	CN106776548B	公開（公告）日：	2019-12-13
發明（設計）人：	賈禎;白楊;朱頻頻	申請（專利權）人：	上海智臻智能網絡科技股份有限公司
主分類號：	G06F17/27	分類號：	G06F17/27;G06F16/335;G06F16/31;G06K9/62
代理公司：	31100 上海專利商標事務所有限公司	代理人：	陳亮
地址：	201803 上海市嘉***	國省代碼：	上海;31
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種文本相似計算方法裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種文本的相似度計算的方法，其特征在于，所述方法包括：

a)對所述文本的句子進行分詞，以得到各句子對應的詞；

b)對得到的詞執行索引化，以得到各個詞的索引；

c)根據各個句子對應的詞，生成各個句子的語法樹，其中每個句子對應的詞的數值信息作為相應語法樹的末端節點，每個詞的數值信息至少部分地基于所述詞的索引；

d)從每個句子的語法樹的末端節點向頂端節點執行遞歸運算，以獲得各個句子的數值表達；

e)基于各句子的數值表達計算文本間句子的相似度，若最終各句子的數值表達為數字，則直接計算各句子的數值表達的差值作為文本間句子的相似度；若最終各句子的數值表達式為向量，則計算向量間的余弦距離，作為文本間句子的相似度；以及

f)基于文本間句子的相似度計算文本間的相似度；

所述步驟f)，進一步包括：

計算文本間句子的相似度的平均值作為文本間的相似度。

2.如權利要求1所述的方法，其特征在于，所述方法還包括：

提供詞索引關系庫，包括詞到索引的映射關系；以及

所述步驟b)，進一步包括：

對于每個詞，將該詞和所述詞索引關系庫中的詞執行匹配度運算，將所述詞索引關系庫中與該詞具有最高匹配度的詞所對應的索引作為該詞的索引。

3.如權利要求1所述的方法，其特征在于，所述詞的數值信息為所述詞的索引。

4.如權利要求3所述的方法，其特征在于，所述步驟e)，進一步包括：

計算各句子的數值表達的差值作為文本間句子的相似度。

5.如權利要求1所述的方法，其特征在于，所述方法還包括：

為每個詞加入在語法樹生成過程中得到的詞性信息，其中，每個詞的數值信息為由其索引和詞性信息組成的向量。

6.如權利要求1所述的方法，其特征在于，所述方法還包括：

將各個詞的索引進行擴維表示，以得到各個詞的多維索引，其中，每個詞的數值信息為由其多維索引組成的向量。

7.如權利要求1所述的方法，其特征在于，所述方法還包括：

為每個詞加入在語法樹生成過程中得到的詞性信息；以及

將各個詞的索引進行擴維表示，以得到各個詞的多維索引；

其中，每個詞的數值信息為由其詞性信息和多維索引組成的向量。

8.如權利要求6或7所述的方法，其特征在于，所述將各個詞的索引進行擴維表示的步驟，進一步包括：

運用Word Embedding算法或Word2vec算法對各個詞進行擴維表示。

9.如權利要求5-7中任一項所述的方法，其特征在于，

各句子的數值表達為向量表達；以及

所述步驟e)進一步包括：

計算文本間句子的向量表達的余弦距離，作為文本間句子的相似度。

10.如權利要求1所述的方法，其特征在于，所述方法還包括：

對所述文本進行停用詞過濾，所述分詞是對經過停用詞過濾的文本進行的。

11.如權利要求1所述的方法，其特征在于，

所述步驟d)，進一步包括：

利用自動編碼器執行所述遞歸運算。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于上海智臻智能網絡科技股份有限公司，未經上海智臻智能網絡科技股份有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201611107823.X/1.html，轉載請聲明來源鉆瓜專利網。

上一篇：一種文檔主題生成方法和裝置
下一篇：一種基于規則的英語作文語法錯誤糾正方法

同類專利

專利分類

G 物理

G06 計算；推算；計數
G06F 電數字數據處理
G06F17-00 特別適用于特定功能的數字計算設備或數據處理設備或數據處理方法
G06F17-10 .復雜數學運算的
G06F17-20 .處理自然語言數據的
G06F17-30 .信息檢索；及其數據庫結構
G06F17-40 .數據的獲取和記錄
G06F17-50 .計算機輔助設計

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】