[發明專利]一種基于TF-IDF和詞向量的相似句子檢測方法有效
| 申請號: | 202010193466.3 | 申請日: | 2020-03-18 |
| 公開(公告)號: | CN111310478B | 公開(公告)日: | 2023-09-19 |
| 發明(設計)人: | 劉丹;趙明;吳超;任志愿;王昊 | 申請(專利權)人: | 電子科技大學 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/216;G06F40/205 |
| 代理公司: | 電子科技大學專利中心 51203 | 代理人: | 周劉英 |
| 地址: | 611731 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 tf idf 向量 相似 句子 檢測 方法 | ||
本發明公開了一種基于TF?IDF和詞向量的相似句子檢測方法,屬于屬于自然語言處理技術領域。本發明利用TF?IDF,對每一個詞語加入了權重,用于體現詞語的重要程度及對整句相似度計算的影響,越重要的詞語,其TF?IDF值越大,對相似度的影響也越大;同時針對基于共現詞的Jaccard算法未涉及語義層面的相似度對比,不能處理同義詞和近義詞的問題,本發明利用詞向量對其進行了改進,使其能夠在語義層面進行相似度計算。同時,本發明所提出的相似句子的檢測方法,使得對句子中的詞語進行同義詞替換后,也不會影響兩個句子的相似度,因此可以將本發明所提出的句子相似度方法用于中文文章的查重,文獻檢索等。
技術領域
本發明屬于自然語言處理技術領域,具體涉及一種基于TF-IDF和詞向量的相似句子檢測方法。
背景技術
基于共現詞的Jaccard算法的基本思想是:如果兩個句子的相同部分越大,共現的詞語數目越多,那么這兩個句子的相似度就越高。而共現詞相對于所有詞語所占的比例可以從數值上反映這兩個句子的相似度,用公式表示為:其中,Inter(A,B)表示句子A和句子B的詞語交集,Union(A,B)表示句子A和句子B的詞語并集,||·||表示集合的元素數,Sim(A,B)表示句子A和句子B的相似度。
現有的基于共現詞的Jaccard算法主要存在兩點問題:
(1)未考慮各個詞語的重要程度。
(2)未涉及語義層面的相似度對比,不能處理同義詞和近義詞。
詞向量生成工具word2vec用于自然語言處理時,將自然語言中的每個詞語通過一個三層的神經網絡訓練為一組詞向量。它很好的解決了傳統詞袋模型(Bag-of-Words,BOW)無法表示文本上下文語義信息以及造成的維數災難問題,使得語義上相似的詞語具有相似的向量表示。
TF-IDF(Term?Frequency-inverse?Document?Frequency,詞頻與逆文檔頻率)是一種統計方法,用以評估一個詞語對于語料庫中一份文檔的重要程度。TF-IDF的計算方法是詞頻與逆文檔頻率的乘積,即TF×IDF。其中,詞頻(Term?Frequency)是詞語t在文檔d中出現的頻率,而逆文檔頻率(Inverse?Document?Frequency)代表了詞語t的類別區分能力,包含詞語t的文檔越少則IDF越大。其中,TF的計算公式為:IDF的計算公式為:函數f(t,d)表示詞語t在文檔d出現的次數,dft表示語料庫中包含詞語t的文檔數量,N表示語料庫中全部的文檔數量。詞語t的TF-IDF權重為:tfidft=tf(t,d)×idft??梢钥闯?,詞語t的權重隨著它在文檔中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。
發明內容
本發明的發明目的在于:針對基于共現詞的Jaccard方法缺陷,對句子間的相似度度量方式進行了改進,進而實現一種基于TF-IDF和詞向量的相似句子檢測方法,使得對句子中的詞語進行同義詞替換后,也不會影響兩個句子的相似性檢測。
本發明的基于TF-IDF和詞向量的相似句子檢測方法,對待進行相似檢測處理的句子A和句子B,執行下列步驟:
步驟1:對句子A和句子B中的每個詞語進行詞向量生成處理,得到句子A和句子B中的每個詞語的詞向量;
步驟2:對句子A和句子B進行分詞處理,并去除停用詞,得到句子A和句子B分詞結果:A(a1,a2,…,ai,…,an)和B(b1,b2,…,bj,…,bm);
其中,ai表示句子A的第i個詞語,i=1,2,…,n,n表示句子A的詞語數量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于電子科技大學,未經電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010193466.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:磨損診斷方法和維護方法
- 下一篇:一種用于單積分球測量系統的植物葉片固定裝置





