[發明專利]一種詞級別短文本語義匹配的迭代擴展方法和裝置在審
| 申請號: | 202210950247.4 | 申請日: | 2022-08-09 |
| 公開(公告)號: | CN115292493A | 公開(公告)日: | 2022-11-04 |
| 發明(設計)人: | 戴佳駿;徐盛 | 申請(專利權)人: | 翼健(上海)信息科技有限公司;廈門翼方健數信息科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/247;G06F40/30;G06K9/62;G06N5/04 |
| 代理公司: | 北京華清迪源知識產權代理有限公司 11577 | 代理人: | 胡樂 |
| 地址: | 200050 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 級別 文本 語義 匹配 擴展 方法 裝置 | ||
1.一種詞級別短文本語義匹配的迭代擴展方法,其特征在于,包括:
步驟一,對于包含有標注數據的大數據集D,將其中帶有可信標注的數據部分作為初始訓練數據集D0,所述初始訓練數據集D0是由多組同義近義文本組成的集合T,T={An,Bm,……},其中A、B為不同語義的文本數組,n、m為各文本數組里的文本數量;
步驟二,根據目標文本集合X中的目標樣本u,在所述初始訓練數據集D0中選取與樣本u語義相同的文本作為正樣本vpos,以及選擇與樣本u語義無關的文本作為負樣本vneg,并以樣本u、正樣本vpos和負樣本vneg作為輸入,訓練得到匹配模型M0;
步驟三,以所述初始訓練數據集D0中的文本數量為基數,按特定比例Pnew從所述大數據集D中抽取未標注數據集D1,new;使用所述匹配模型M0將未標注數據集D1,new中的每個文本矢量化,并使用所述匹配模型M0,對未標注數據集D1,new中的每個文本矢量,在初始訓練數據集D0和未標注數據集D1,new中分別檢索近似詞組,完成對D1,new的語義聚類;將聚類得到的結果和初始訓練數據集D0共同作為標注數據集D1,annotated;
步驟四,對所述標注數據集D1,annotated中的每一組同義詞,分別計算每組同義詞的組內成員之間的相似度Sintra,以及計算各組同義詞之間的相似度Sinter;將每組同義詞的組內成員之間的相似度Sintra與預設組內成員相似度閾值Tintra進行比較,以及將各組同義詞之間的相似度Sinter與預設組間同義詞相似度Tinter進行比較;將Sintra低于Tintra并且Sinter高于Tinter的同義詞組作為不可靠標注數據集D1,todo,并將其余同義詞組作為可靠標注數據集D1,done;
步驟五,將所述不可靠標注數據集D1,todo中的數據提供給人工進行審核,用于審核標注的正確性;將不可靠標注數據集D1,todo中經人工審核為標注正確的數據、可靠標注數據集D1,done和初始訓練數據集D0合并為訓練數據集D1;
步驟六,使用訓練數據集D1作為新的訓練數據,多次依照步驟二至步驟五進行迭代訓練,直至得到的訓練數據集Dx包含所述大數據集D中的所有數據,得到最終的訓練數據集Dx和匹配模型Mx。
2.根據權利要求1所述的詞級別短文本語義匹配的迭代擴展方法,其特征在于,所述在所述初始訓練數據集D0中選取與樣本u語義相同的文本作為正樣本vpos,以及選擇與樣本u語義無關的文本作為負樣本vneg包括:
針對目標文本集合X中的目標樣本u,在所述初始訓練數據集D0中的樣本u所在的同語義文本組里遍歷選取正樣本vpos:
在目標文本集合X以外,在所述初始訓練數據集D0中搜索與目標樣本u距離最近的文本作為負樣本vneg,即負樣本vneg滿足:
其中:
d(u,v)=‖u-v‖。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于翼健(上海)信息科技有限公司;廈門翼方健數信息科技有限公司,未經翼健(上海)信息科技有限公司;廈門翼方健數信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210950247.4/1.html,轉載請聲明來源鉆瓜專利網。





