[發明專利]一種基于TF-IDF和詞向量的相似句子檢測方法有效
| 申請號: | 202010193466.3 | 申請日: | 2020-03-18 |
| 公開(公告)號: | CN111310478B | 公開(公告)日: | 2023-09-19 |
| 發明(設計)人: | 劉丹;趙明;吳超;任志愿;王昊 | 申請(專利權)人: | 電子科技大學 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/216;G06F40/205 |
| 代理公司: | 電子科技大學專利中心 51203 | 代理人: | 周劉英 |
| 地址: | 611731 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 tf idf 向量 相似 句子 檢測 方法 | ||
1.基于TF-IDF和詞向量的相似句子檢測方法,其特征在于,對待進行相似檢測處理的句子A和句子B,執行下列步驟:
步驟1:對句子A和句子B中的每個詞語進行詞向量生成處理,得到句子A和句子B中的每個詞語的詞向量;
步驟2:對句子A和句子B進行分詞處理,并去除停用詞,得到句子A和句子B分詞結果:A(a1,a2,…,ai,…,an)和B(b1,b2,…,bj,…,bm);
其中,ai表示句子A的第i個詞語,i=1,2,…,n,n表示句子A的詞語數量;
bj表示句子B的第j個詞語,j=1,2,…,m,m表示句子B的詞語數量;
步驟3:采用TF-IDF法,分別計算句子A和句子B中每個詞語的TF-IDF權重,并定義wi表示詞語ai的TF-IDF權重,wj表示詞語bj的TF-IDF權重;
步驟4:將句子A中每個詞語的詞向量與句子B中每個詞語的詞向量兩兩計算夾角余弦值cos(Ai,Bj),得到句子A和句子B的詞向量相似度矩陣;其中,Ai表示詞語ai對應的詞向量,Bj表示詞語bj對應的詞向量;
步驟5:遍歷句子A和句子B的詞向量相似度矩陣,將詞向量相似度矩陣中的每個余弦值cos(Ai,Bj)與預置的閾值α進行比較;
若當前余弦值cos(Ai,Bj)大于或等于α,則根據公式計算余弦值cos(Ai,Bj)對應的相似度量值
若cos(Ai,Bj)小于α,則根據公式計算余弦值cos(Ai,Bj)對應的不相似度量值
累加所有的相似度量值并記為Sum1;
累加所有的不相似度量值并記為Sum2;
步驟6:根據公式Sim(A,B)=Sum1/(Sum1+Sum2)計算句子A和句子B的相似度Sim(A,B);
步驟7:將句子A和句子B的相似度Sim(A,B)與預置的閾值β進行比較,若Sim(A,B)大于或等于β,則判定句子A和句子B為相似句子;否則,則判定句子A和句子B為不相似句子。
2.如權利要求1所述的方法,其特征在于,步驟1中,采用詞向量生成工具word2vec對句子A和句子B中的每個詞語進行詞向量生成處理。
3.如權利要求1所述的方法,其特征在于,步驟5中,閾值α的取值范圍為:[0.5,0.9]。
4.如權利要求1所述的方法,其特征在于,步驟7中,閾值β的取值范圍為:[0.7,0.8]。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于電子科技大學,未經電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010193466.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:磨損診斷方法和維護方法
- 下一篇:一種用于單積分球測量系統的植物葉片固定裝置





