[發明專利]相似問集合的評分方法、裝置、計算機設備和存儲介質有效
| 申請號: | 202011127938.1 | 申請日: | 2020-10-21 |
| 公開(公告)號: | CN111967254B | 公開(公告)日: | 2021-04-06 |
| 發明(設計)人: | 武士雄;劉思亮;文博;劉云峰 | 申請(專利權)人: | 深圳追一科技有限公司 |
| 主分類號: | G06F40/279 | 分類號: | G06F40/279;G06F40/211;G06F40/30 |
| 代理公司: | 廣州華進聯合專利商標代理有限公司 44224 | 代理人: | 方高明 |
| 地址: | 518051 廣東省深圳市南山區粵海街道*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 相似 集合 評分 方法 裝置 計算機 設備 存儲 介質 | ||
本申請涉及一種相似問集合的評分方法、裝置、計算機設備和存儲介質。所述方法包括:獲取相似問集合,確定所述相似問集合中所包括的相似問語句的數量;分別對各個所述相似問語句進行向量編碼得到各個句向量,確定各個所述句向量在所述相似問集合的語義空間中的目標分布情況;將所述目標分布情況與預設的均勻分布情況進行比較,確定所述目標分布情況與所述均勻分布情況之間的差異度;基于所述差異度和所述相似問語句的數量確定所述相似問集合的質量評分。采用本方法能夠實現對相似問集合的質量進行準確檢測。
技術領域
本申請涉及計算機技術領域,特別是涉及一種相似問集合的評分方法、裝置、計算機設備和存儲介質。
背景技術
隨著計算機技術的發展,出現了文本識別、語音識別等技術,可以識別出輸入的文本或者語音的意圖。為了全面、準確地識別用戶的意圖,通常會建立相似問語句庫,將相似問語句庫中的相似問語句作為訓練數據對識別模型進行訓練。相似問語句是意圖相同,表達方式不同的語句,例如“我沒錢啊”、“我錢用完了”等。
在對識別模型進行訓練之前,需要對相似問語句庫中的相似問集合的質量進行評價。然而,目前沒有對相似問集合的質量進行準確檢測的方法。
發明內容
基于此,有必要針對上述技術問題,提供一種能夠實現對相似問集合的質量進行準確檢測的相似問集合的評分方法、裝置、計算機設備和存儲介質。
一種相似問集合的評分方法,所述方法包括:
獲取相似問集合,確定所述相似問集合中所包括的相似問語句的數量;
分別對各個所述相似問語句進行向量編碼得到各個句向量,確定各個所述句向量在所述相似問集合的語義空間中的目標分布情況;
將所述目標分布情況與預設的均勻分布情況進行比較,確定所述目標分布情況與所述均勻分布情況之間的差異度;
基于所述差異度和所述相似問語句的數量確定所述相似問集合的質量評分。
在其中一個實施例中,所述分別對各個所述相似問語句進行向量編碼得到各個句向量,確定各個所述句向量在所述相似問集合的語義空間中的目標分布情況,包括:
分別對各個所述相似問語句進行向量編碼得到各個第一句向量;
對各個所述第一句向量進行降維處理,得到各個第二句向量;所述第二句向量的維度數量小于所述第一句向量的維度數量;
確定各個所述第二句向量在所述相似問集合的語義空間中的目標分布情況。
在其中一個實施例中,所述第二句向量的維度數量小于預設的數量閾值。
在其中一個實施例中,所述基于所述差異度和所述相似問語句的數量確定所述相似問集合的質量評分,包括:
基于所述差異度確定第一評分;所述差異度與所述第一評分之間成負相關關系;
基于所述相似問語句的數量確定第二評分;所述相似問語句的數量與所述第二評分成正相關關系;
基于所述第一評分和所述第二評分確定所述相似問集合的質量評分。
在其中一個實施例中,所述基于所述第一評分和所述第二評分確定所述相似問集合的質量評分,包括:
將所述第一評分和所述第二評分相加,得到所述相似問集合的質量評分。
在其中一個實施例中,所述將所述目標分布情況與預設的均勻分布情況進行比較,確定所述目標分布情況與所述均勻分布情況之間的差異度,包括:
通過擬合優度檢驗將所述目標分布情況與預設的均勻分布情況進行比較,確定所述目標分布情況與所述均勻分布情況之間的差異度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳追一科技有限公司,未經深圳追一科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011127938.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:攝像光學鏡頭
- 下一篇:二度體重力異常積分解數值模擬方法和裝置





