[發明專利]一種基于多模型融合的文本相似性度量方法及裝置有效
| 申請號: | 202110017778.3 | 申請日: | 2021-01-07 |
| 公開(公告)號: | CN112784587B | 公開(公告)日: | 2023-05-16 |
| 發明(設計)人: | 謝勇添;顏泗海;林明福;林憲;謝宇宸;張宏坡;陳圣毅 | 申請(專利權)人: | 國網福建省電力有限公司泉州供電公司;福建和盛高科技產業有限公司;泉州億興電力工程建設有限公司泉州經濟技術開發區分公司 |
| 主分類號: | G06F40/279 | 分類號: | G06F40/279;G06F40/30;G06F40/58;G06N3/045;G06N3/0442 |
| 代理公司: | 廈門市首創君合專利事務所有限公司 35204 | 代理人: | 李秀梅 |
| 地址: | 362000 福建省泉州市*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 模型 融合 文本 相似性 度量 方法 裝置 | ||
1.一種基于多模型融合的文本相似性度量方法,其特征在于:包括如下步驟:
A、準備若干已人工標記好的句子對數據作為數據集,并將數據集分為訓練集和測試集;
B、選擇四個差異性大的深度學習訓練模型:Bert、Paddle、Xlnet和Tree-LSTM,對于各訓練模型分別設置一組初始超參數,形成超參組合;
C、對于經步驟B后的各訓練模型,均從訓練集進行C次有放回的抽樣,共進行4C次抽樣,將各訓練模型對應的C次抽樣數據輸入該訓練模型,以得到對應于該訓練模型的C個子模型;
D、對于每個子模型,通過公式y=rTpθ計算輸入數據的相似度得分,采用均方誤差作為子模型的損失函數:
其中,pθ=softmax(W(p)ds+b(p)),ds=σ(W(×)d×+W(×)d++b(d)),d+=|da-db|,da、db分別指輸入的兩個句子對;W(×)、W(p)均為權重矩陣,b(p)、b(d)均為閾值向量,σ為系數;
E、根據相似度得分判斷句子對是否相似,并采用下式對各子模型進行評估,得到評估值FMeasure:FMeasure=(2×P×R)/(P+R),
其中,P=TP/(TP+FP),R=TP/(TP+FN),TP為將實際相似句子對預測為相似的數量,FP為將實際不相似句子對預測為相似的數量,FN為將實際相似句子對預測為不相似的數量;
F、M次修改各訓練模型的超參數以形成新的超參組合,每次修改后均重復步驟D和步驟E,選取并固定各子模型的評估值FMeasure最好的一組超參組合,進入步驟G;
G、對各子模型繼續訓練以使其損失函數收斂,并保存此時的4C個子模型;
H、采用Boosting方案對4C個子模型進行融合,以將各子模型的相似性得分進行加權相加,得到相似性度量模型;
I、利用測試集的數據對相似性度量模型進行測試和調整。
2.根據權利要求1所述的一種基于多模型融合的文本相似性度量方法,其特征在于:抽樣次數C的取值范圍為:[8,12]。
3.根據權利要求1所述的一種基于多模型融合的文本相似性度量方法,其特征在于:抽樣次數C=10。
4.根據權利要求1或2或3所述的一種基于多模型融合的文本相似性度量方法,其特征在于:所述數據集中的句子對數量不少于1000條,句子為tsv格式。
5.根據權利要求1或2或3所述的一種基于多模型融合的文本相似性度量方法,其特征在于:所述步驟A中,訓練集與測試集的比例為7:3。
6.根據權利要求1或2或3所述的一種基于多模型融合的文本相似性度量方法,其特征在于:所述步驟E中判斷句子對是否相似具體為:對步驟E得出的相似度得分進行歸一化,當得出的值大于0.5時,判定為相似。
7.根據權利要求1或2或3所述的一種基于多模型融合的文本相似性度量方法,其特征在于:所述步驟D中,W(×)、W(p)、b(p)和b(d)中所有元素初始化值的取值范圍均為[-1.0,1.0]。
8.根據權利要求1或2或3所述的一種基于多模型融合的文本相似性度量方法,其特征在于:所述步驟F中,M取范圍為[500-1000]。
9.一種基于多模型融合的文本相似性度量裝置,其特征在于:包括:
數據集獲取模塊:用于準備若干已人工標記好的句子對數據作為數據集,并將數據集分為訓練集和測試集;
子模型獲取模塊:用于選擇四個差異性大的深度學習訓練模型:Bert、Paddle、Xlnet和Tree-LSTM,對于各訓練模型分別設置一組初始超參數,形成超參組合;對于經步驟B后的各訓練模型,均從訓練集進行C次有放回的抽樣,共進行4C次抽樣,將各訓練模型對應的C次抽樣數據輸入該訓練模型,以得到對應于該訓練模型的C個子模型;
子模型評估值獲取模塊:用于對于每個子模型,通過公式y=rTpθ計算輸入數據的相似度得分,采用均方誤差作為模型的損失函數:其中,pθ=softmax(W(p)ds+b(p)),ds=σ(W(×)d×+W(×)d++b(d)),d+=|da-db|,da、db分別指輸入的兩個句子對;W(×)、W(p)均為權重矩陣,b(p)、b(d)均為閾值向量,σ為系數;根據相似度得分判斷句子對是否相似,并采用下式對各子模型進行評估,得到評估值FMeasure:FMeasure=(2×P×R)/(P+R),其中,P=TP/(TP+FP),R=TP/(TP+FN),TP為將實際相似句子對預測為相似的數量,FP為將實際不相似句子對預測為相似的數量,FN為將實際相似句子對預測為不相似的數量;M次修改超參組合,選取并固定各子模型的評估值FMeasure最好的一組超參組合,再對各子模型繼續訓練以使其損失函數收斂;
融合模塊:用于利用Boosting方案對4C個子模型進行融合,以將各子模型的相似性得分進行加權相加,得到相似性度量模型;
測試模塊:用于利用測試集的數據對相似性度量模型進行測試和調整。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國網福建省電力有限公司泉州供電公司;福建和盛高科技產業有限公司;泉州億興電力工程建設有限公司泉州經濟技術開發區分公司,未經國網福建省電力有限公司泉州供電公司;福建和盛高科技產業有限公司;泉州億興電力工程建設有限公司泉州經濟技術開發區分公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110017778.3/1.html,轉載請聲明來源鉆瓜專利網。





