[發明專利]一種基于語義分析的中文句子相似度計算方法和系統在審
| 申請號: | 202110747767.0 | 申請日: | 2021-07-01 |
| 公開(公告)號: | CN113392630A | 公開(公告)日: | 2021-09-14 |
| 發明(設計)人: | 季白楊;李辰杰 | 申請(專利權)人: | 浙江工業大學 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F40/284;G06F40/30;G06K9/62 |
| 代理公司: | 浙江千克知識產權代理有限公司 33246 | 代理人: | 冷紅梅 |
| 地址: | 310014 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 語義 分析 中文 句子 相似 計算方法 系統 | ||
1.一種基于語義分析的中文句子相似度計算方法,其特征在于,包括:
S1.獲取待處理的句子對,并基于預構建的語料庫分別對獲取的句子對進行分詞;其中,預構建的語料庫包括行業語料庫和普通語料庫;
S2.對分詞后句子的成分進行劃分,得到句子的主要成分和次要成分,通過BERT方法和Word2vec方法將句子的主要成分、次要成分均轉化為詞向量,并使用余弦相似度分別計算句子對的主要成分、次要成分的相似度;
S3.根據得到的主要成分、次要成分的相似度,分別計算BERT方法和Word2vec方法的句子對整體相似度,并根據句子對的整體相似度計算句子對的最終相似度。
2.根據權利要求1所述的一種基于語義分析的中文句子相似度計算方法,其特征在于,所述步驟S1中對句子對進行分詞后還包括:計算句子對所涉及的行業的相似度,表示為:
其中,N(A,B)表示句子A和句子B行業統計的交集;C(A,B)表示句子A和句子B行業統計的差集。
3.根據權利要求1所述的一種基于語義分析的中文句子相似度計算方法,其特征在于,所述步驟S2中對分詞后句子的成分進行劃分,得到句子的主要成分和次要成分;
主要成分表示為:
Smajor=S(主語,謂語,賓語)
其中,S表示進行分詞后的句子;Smajor表示主要成分。
次要成分表示為:
Sother=S(定語,狀語,補語)
其中,S表示進行分詞后的句子;Sother表示次要成分。
4.根據權利要求3所述的一種基于語義分析的中文句子相似度計算方法,其特征在于,所述步驟S2中通過BERT方法和Word2vec方法將句子的主要成分轉化為詞向量,表示為:
S(major,BERT)=BERT(Smajor)
其中,S(major,BERT)表示通過BERT方法將句子的主要成分轉化為詞向量;
S(major,Word2vec)=Word2vec(Smajor)
其中,S(major,Word2vec)表示通過Word2vec方法將句子的主要成分轉化為詞向量。
5.根據權利要求4所述的一種基于語義分析的中文句子相似度計算方法,其特征在于,所述步驟S2中通過BERT方法和Word2vec方法將句子的次要成分轉化為詞向量,表示為:
S(other,BERT)=BERT(Sother)
其中,S(other,BERT)表示通過BERT方法將句子的次要成分轉化為詞向量;
S(other,Word2vec)=Word2vec(Sother)
其中,S(other,Word2vec)表示通過Word2vec方法將句子的次要成分轉化為詞向量。
6.根據權利要求5所述的一種基于語義分析的中文句子相似度計算方法,其特征在于,所述步驟S2中使用余弦相似度計算句子對的相似度,表示為:
其中,similarity表示句子A和句子B的相似度;Ai表示句子A分詞并轉換為詞向量后的各分量;Bi表示句子B分詞并轉換為詞向量后的各分量;n表示分量總數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江工業大學,未經浙江工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110747767.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:半導體清洗設備及其機械手
- 下一篇:一種新型修邊機





