[發明專利]一種文本的相似度計算的方法和裝置有效
| 申請號: | 201611107823.X | 申請日: | 2016-12-06 |
| 公開(公告)號: | CN106776548B | 公開(公告)日: | 2019-12-13 |
| 發明(設計)人: | 賈禎;白楊;朱頻頻 | 申請(專利權)人: | 上海智臻智能網絡科技股份有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F16/335;G06F16/31;G06K9/62 |
| 代理公司: | 31100 上海專利商標事務所有限公司 | 代理人: | 陳亮 |
| 地址: | 201803 上海市嘉*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 相似 計算 方法 裝置 | ||
1.一種文本的相似度計算的方法,其特征在于,所述方法包括:
a)對所述文本的句子進行分詞,以得到各句子對應的詞;
b)對得到的詞執行索引化,以得到各個詞的索引;
c)根據各個句子對應的詞,生成各個句子的語法樹,其中每個句子對應的詞的數值信息作為相應語法樹的末端節點,每個詞的數值信息至少部分地基于所述詞的索引;
d)從每個句子的語法樹的末端節點向頂端節點執行遞歸運算,以獲得各個句子的數值表達;
e)基于各句子的數值表達計算文本間句子的相似度,若最終各句子的數值表達為數字,則直接計算各句子的數值表達的差值作為文本間句子的相似度;若最終各句子的數值表達式為向量,則計算向量間的余弦距離,作為文本間句子的相似度;以及
f)基于文本間句子的相似度計算文本間的相似度;
所述步驟f),進一步包括:
計算文本間句子的相似度的平均值作為文本間的相似度。
2.如權利要求1所述的方法,其特征在于,所述方法還包括:
提供詞索引關系庫,包括詞到索引的映射關系;以及
所述步驟b),進一步包括:
對于每個詞,將該詞和所述詞索引關系庫中的詞執行匹配度運算,將所述詞索引關系庫中與該詞具有最高匹配度的詞所對應的索引作為該詞的索引。
3.如權利要求1所述的方法,其特征在于,所述詞的數值信息為所述詞的索引。
4.如權利要求3所述的方法,其特征在于,所述步驟e),進一步包括:
計算各句子的數值表達的差值作為文本間句子的相似度。
5.如權利要求1所述的方法,其特征在于,所述方法還包括:
為每個詞加入在語法樹生成過程中得到的詞性信息,其中,每個詞的數值信息為由其索引和詞性信息組成的向量。
6.如權利要求1所述的方法,其特征在于,所述方法還包括:
將各個詞的索引進行擴維表示,以得到各個詞的多維索引,其中,每個詞的數值信息為由其多維索引組成的向量。
7.如權利要求1所述的方法,其特征在于,所述方法還包括:
為每個詞加入在語法樹生成過程中得到的詞性信息;以及
將各個詞的索引進行擴維表示,以得到各個詞的多維索引;
其中,每個詞的數值信息為由其詞性信息和多維索引組成的向量。
8.如權利要求6或7所述的方法,其特征在于,所述將各個詞的索引進行擴維表示的步驟,進一步包括:
運用Word Embedding算法或Word2vec算法對各個詞進行擴維表示。
9.如權利要求5-7中任一項所述的方法,其特征在于,
各句子的數值表達為向量表達;以及
所述步驟e)進一步包括:
計算文本間句子的向量表達的余弦距離,作為文本間句子的相似度。
10.如權利要求1所述的方法,其特征在于,所述方法還包括:
對所述文本進行停用詞過濾,所述分詞是對經過停用詞過濾的文本進行的。
11.如權利要求1所述的方法,其特征在于,
所述步驟d),進一步包括:
利用自動編碼器執行所述遞歸運算。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海智臻智能網絡科技股份有限公司,未經上海智臻智能網絡科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611107823.X/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種文檔主題生成方法和裝置
- 下一篇:一種基于規則的英語作文語法錯誤糾正方法





