[發明專利]一種語句相似度計算方法及裝置有效
| 申請號: | 201610514080.1 | 申請日: | 2016-06-30 |
| 公開(公告)號: | CN107562714B | 公開(公告)日: | 2021-02-09 |
| 發明(設計)人: | 郭祥;郭瑞;雷宇 | 申請(專利權)人: | 北京儒博科技有限公司 |
| 主分類號: | G06F40/253 | 分類號: | G06F40/253 |
| 代理公司: | 北京衛平智業專利代理事務所(普通合伙) 11392 | 代理人: | 張新利 |
| 地址: | 101500 北京市密云區經濟開發*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語句 相似 計算方法 裝置 | ||
1.一種語句相似度計算方法,其特征在于,包括:
根據第一預設規則對第一語句和第二語句進行分詞處理,得到所述第一語句的第一分詞向量和所述第二語句的第二分詞向量;
根據第二預設規則,計算得到所述第一分詞向量中各個分詞的權重和所述第二分詞向量中各個分詞的權重,并根據所述第一分詞向量中各個分詞的權重和所述第二分詞向量中各個分詞的權重,分別計算得到所述第一分詞向量的第一模和所述第二分詞向量的第二模;
獲取所述第一分詞向量和所述第二分詞向量中相同的目標分詞,并根據所述目標分詞的權重,計算所述第一分詞向量和所述第二分詞向量的目標分詞內積;
根據所述第一模、所述第二模和所述目標分詞內積,計算得到所述第一語句和所述第二語句的相似度;
所述根據第一預設規則對第一語句和第二語句進行分詞處理,得到所述第一語句的第一分詞向量和所述第二語句的第二分詞向量之前,還包括:
獲取所述第一語句和所述第二語句,其中,所述第二語句為所述第一語句的召回語句,所述召回語句為根據所述第一語句經搜索引擎搜索得到的語句;
所述各個分詞的權重的計算方法如下:
假設當前計算第i個詞的權重,則初始化權重Wi=0;若詞同時出現在第一語句和第二語句中的次數為M,則Wi+=m*M;若詞只在第一語句中出現并且出現次數為N,則Wi+=n*N;若詞只出現在第二語句中,則Wi=g*G;
其中,m、n、g為系數,可根據數據特點自行調整,G是當詞只在第二語句中出現時的出現次數;
將所有詞權重相加求和,若有x個詞,則S=W0+W1+W2+...+Wx,并歸一化到[0,1]區間,對每個詞i除去總和并更新Wi’=Wi/S,其中Wi’是歸一化后的每個詞i的權重值。
2.根據權利要求1所述的方法,其特征在于,所述根據第二預設規則,計算得到所述第一分詞向量中各個分詞的權重和所述第二分詞向量中各個分詞的權重,并根據所述第一分詞向量中各個分詞的權重和所述第二分詞向量中各個分詞的權重,分別計算得到所述第一分詞向量的第一模和所述第二分詞向量的第二模,進一步包括:
根據第二預設規則,計算得到所述第一分詞向量中各個分詞的權重和所述第二分詞向量中各個分詞的權重;
對所述第一分詞向量中各個分詞的權重和所述第二分詞向量中各個分詞的權重分別進行歸一化處理;
根據所述第一分詞向量中各個分詞的歸一化后的權重和所述第二分詞向量中各個分詞的歸一化后的權重,分別計算得到所述第一分詞向量的第一模和所述第二分詞向量的第二模。
3.根據權利要求2所述的方法,其特征在于,所述根據第二預設規則,計算得到所述第一分詞向量中各個分詞的權重和所述第二分詞向量中各個分詞的權重,進一步包括:
將所述第一分詞向量中各個分詞的權重設置為相等;
根據第一預設值、第二預設值、第三預設值、當前分詞在所述第一分詞向量中出現的次數和當前分詞在所述第二分詞向量中出現的次數,計算當前分詞在所述第二分詞向量中的權重。
4.根據權利要求3所述的方法,其特征在于,所述計算得到所述第一分詞向量中各個分詞的權重和所述第二分詞向量中各個分詞的權重,進一步包括:
根據所述第二分詞向量中各個分詞的權重,判斷獲知所述第二分詞向量中各個分詞的權重之和是否大于第四預設值。
5.根據權利要求1-4任一所述的方法,其特征在于,所述根據所述第一模、所述第二模和所述目標分詞內積,計算得到所述第一語句和所述第二語句的相似度之后,還包括:
若所述第一語句包括若干個召回語句,則選擇最大的相似度對應的目標語句,并將所述目標語句和所述最大的相似度發送至顯示器進行輸出。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京儒博科技有限公司,未經北京儒博科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610514080.1/1.html,轉載請聲明來源鉆瓜專利網。





