[發明專利]一種基于多模型融合的文本相似性度量方法及裝置有效
| 申請號: | 202110017778.3 | 申請日: | 2021-01-07 |
| 公開(公告)號: | CN112784587B | 公開(公告)日: | 2023-05-16 |
| 發明(設計)人: | 謝勇添;顏泗海;林明福;林憲;謝宇宸;張宏坡;陳圣毅 | 申請(專利權)人: | 國網福建省電力有限公司泉州供電公司;福建和盛高科技產業有限公司;泉州億興電力工程建設有限公司泉州經濟技術開發區分公司 |
| 主分類號: | G06F40/279 | 分類號: | G06F40/279;G06F40/30;G06F40/58;G06N3/045;G06N3/0442 |
| 代理公司: | 廈門市首創君合專利事務所有限公司 35204 | 代理人: | 李秀梅 |
| 地址: | 362000 福建省泉州市*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 模型 融合 文本 相似性 度量 方法 裝置 | ||
本發明提供一種基于多模型融合的文本相似性度量方法,包括如下步驟:準備訓練集和測試集;選擇四個深度學習訓練模型:Bert、Paddle、Xlnet和Tree?LSTM;對于各訓練模型,獲取C個子模型;對于每個子模型,計算輸入數據的相似度得分和損失函數;對各子模型進行評估;選取并固定各子模型的評估值最好的一組超參組合;對各子模型繼續訓練以使其損失函數收斂,并保存此時的4C個子模型;采用Boosting方案對4C個子模型進行融合,以將各子模型的相似性得分進行加權相加,得到相似性度量模型;利用測試集的數據對相似性度量模型進行測試和調整。本發明有效提升相似性度量的準確性,提高相似性判斷的召回率和準確率,提升模型泛化能力。
技術領域
本發明涉及一種基于多模型融合的文本相似性度量方法及裝置。
背景技術
文本相似性度量是指對兩個文本之間相似度的度量,其在多個領域有著廣泛的應用。如在信息檢索中,可以用相似度來識別相似的詞語,提高召回率。自動問答場景中,相似度在可以用于計算用戶以自然語言的提問問句與語料庫中問題的匹配程度,將匹配度最高的問題對應的答案最為響應返回。而在機器翻譯應用中,通過分析語句的相似度來完成雙語的翻譯,能否準確定義并計算相似度將影響最終翻譯的效果,此時,通常的做法是是直接利用語句中每個詞的語法和語義來分析相似度,或先分析語句的依存樹,然后再計算相似度。自動文摘場景中,相似度用來對語義相似的句子進行抽取,形成最終的摘要。目前,針對文本相似性度量已有一定的方案,但均存在一定的缺陷。
基于Jaccard相似度的文本相似度判定方法是其中一種現有技術,在申請號為201610807202.6,標題為:《一種基于改進的Jaccard系數確定文檔相似度的方法》的專利中,提出了此種計算方法。其處理過程為:通過定義好的k值,采用k-shingle算法,分別從待比較的兩篇文檔中從其實位置開始掃描,提取文本中k個長度的所有字符,例如:文本內容為abcdefg,設k為2,則獲得的詞語數組為:ab,bc,cd,de,ef,fg。根據Jaccard相似度原理,文檔X和文檔Y的Jaccard相似度等于文檔X和文檔Y的交集大小與并集大小的比值,其公式如下:區別與標準的Jaccard相似度的計算,此專利中對詞語對每個元素(即:劃分后的詞語)所占的比重采用出現的次數(詞頻)進行了加權。同時也對最終相似度的得分也進行了部分改進,但該部分改進內容將帶來時間復雜度的大幅度提升。該方案較為粗糙,存在著明顯的缺點:首先,未考慮文檔的語義,忽略了詞的上下文關系,忽略了詞的位置關系,僅是從字符串比較的層面上判斷相似度。同時,未采用通用詞庫對文檔進行分詞,而是從起始位置順序進行劃分,此做法會造成對不必要的停止詞的計算,造成計算資源的浪費;同時會在大概率上造成造成劃分的詞不構成詞,進行影響最終的相似度判斷。實際上,該專利的此種做法代表著文本相似度判斷的一類經典實現,即:基于關鍵詞匹配。此類方法通常采用N-gram相似度或Jaccard相似度,即基于關鍵詞匹配的方式通過兩個長得很像的句子間的“差異”來衡量相似度。
基于TF-IDF結合minHash的文本相似度計算方式是另一種現有技術,在申請號為201510974716.6,標題為:《一種文本相似性的比較方法以及裝置》的專利中,提出了此種計算方法。其通過對文本進行分詞處理,獲得多個字詞,同時去除停用詞,得到字詞序列,同時對字詞序列進行TF-IDF,形成最終的文本的特性向量。再通過MinHash計算兩個文本向量間差異的大小。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國網福建省電力有限公司泉州供電公司;福建和盛高科技產業有限公司;泉州億興電力工程建設有限公司泉州經濟技術開發區分公司,未經國網福建省電力有限公司泉州供電公司;福建和盛高科技產業有限公司;泉州億興電力工程建設有限公司泉州經濟技術開發區分公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110017778.3/2.html,轉載請聲明來源鉆瓜專利網。





