[發明專利]一種基于語義分析的中文句子相似度計算方法和系統在審

申請號：	202110747767.0	申請日：	2021-07-01
公開（公告）號：	CN113392630A	公開（公告）日：	2021-09-14
發明（設計）人：	季白楊;李辰杰	申請（專利權）人：	浙江工業大學
主分類號：	G06F40/211	分類號：	G06F40/211;G06F40/284;G06F40/30;G06K9/62
代理公司：	浙江千克知識產權代理有限公司 33246	代理人：	冷紅梅
地址：	310014 浙***	國省代碼：	浙江;33
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于語義分析中文句子相似計算方法系統
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于語義分析的中文句子相似度計算方法，其特征在于，包括：

S1.獲取待處理的句子對，并基于預構建的語料庫分別對獲取的句子對進行分詞；其中，預構建的語料庫包括行業語料庫和普通語料庫；

S2.對分詞后句子的成分進行劃分，得到句子的主要成分和次要成分，通過BERT方法和Word2vec方法將句子的主要成分、次要成分均轉化為詞向量，并使用余弦相似度分別計算句子對的主要成分、次要成分的相似度；

S3.根據得到的主要成分、次要成分的相似度，分別計算BERT方法和Word2vec方法的句子對整體相似度，并根據句子對的整體相似度計算句子對的最終相似度。

2.根據權利要求1所述的一種基于語義分析的中文句子相似度計算方法，其特征在于，所述步驟S1中對句子對進行分詞后還包括：計算句子對所涉及的行業的相似度，表示為：

其中，N(A,B)表示句子A和句子B行業統計的交集；C(A,B)表示句子A和句子B行業統計的差集。

3.根據權利要求1所述的一種基于語義分析的中文句子相似度計算方法，其特征在于，所述步驟S2中對分詞后句子的成分進行劃分，得到句子的主要成分和次要成分；

主要成分表示為：

S_major＝S(主語，謂語，賓語)

其中，S表示進行分詞后的句子；S_major表示主要成分。

次要成分表示為：

S_other＝S(定語，狀語，補語)

其中，S表示進行分詞后的句子；S_other表示次要成分。

4.根據權利要求3所述的一種基于語義分析的中文句子相似度計算方法，其特征在于，所述步驟S2中通過BERT方法和Word2vec方法將句子的主要成分轉化為詞向量，表示為：

S_(major,BERT)＝BERT(S_major)

其中，S_(major,BERT)表示通過BERT方法將句子的主要成分轉化為詞向量；

S_{(major,Word2vec)}＝Word2vec(S_major)

其中，S_{(major,Word2vec)}表示通過Word2vec方法將句子的主要成分轉化為詞向量。

5.根據權利要求4所述的一種基于語義分析的中文句子相似度計算方法，其特征在于，所述步驟S2中通過BERT方法和Word2vec方法將句子的次要成分轉化為詞向量，表示為：

S_(other,BERT)＝BERT(S_other)

其中，S_(other,BERT)表示通過BERT方法將句子的次要成分轉化為詞向量；

S_{(other,Word2vec)}＝Word2vec(S_other)

其中，S_{(other,Word2vec)}表示通過Word2vec方法將句子的次要成分轉化為詞向量。

6.根據權利要求5所述的一種基于語義分析的中文句子相似度計算方法，其特征在于，所述步驟S2中使用余弦相似度計算句子對的相似度，表示為：

其中，similarity表示句子A和句子B的相似度；A_i表示句子A分詞并轉換為詞向量后的各分量；B_i表示句子B分詞并轉換為詞向量后的各分量；n表示分量總數。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于浙江工業大學，未經浙江工業大學許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202110747767.0/1.html，轉載請聲明來源鉆瓜專利網。

專利分類

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】