[發(fā)明專利]一種信息處理方法、裝置及計算機可讀存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 202010905735.4 | 申請日: | 2020-09-01 |
| 公開(公告)號: | CN112052320B | 公開(公告)日: | 2023-09-29 |
| 發(fā)明(設(shè)計)人: | 周輝陽;閆昭;李勤 | 申請(專利權(quán))人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/35;G06F16/36;G06F40/30 |
| 代理公司: | 深圳翼盛智成知識產(chǎn)權(quán)事務(wù)所(普通合伙) 44300 | 代理人: | 李漢亮 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 信息處理 方法 裝置 計算機 可讀 存儲 介質(zhì) | ||
本申請實施例公開了一種信息處理方法、裝置及計算機可讀存儲介質(zhì),本申請實施例通過根據(jù)目標(biāo)語料信息生成多個測試語料信息;對每一測試語料信息與目標(biāo)語料信息對應(yīng)的初始語料信息進行組合,生成測試語料信息對;通過第一預(yù)設(shè)模型對測試語料信息對的文字相似特征維度進行處理,得到第一測試分?jǐn)?shù);將第一測試分?jǐn)?shù)低于第一預(yù)設(shè)閾值的測試語料信息對輸入第二預(yù)設(shè)模型進行語義相似特征維度處理,得到第二測試分?jǐn)?shù);將第二測試分?jǐn)?shù)高于第二預(yù)設(shè)閾值的測試語料信息對輸入數(shù)據(jù)庫。以此,通過目標(biāo)語料信息生成多個測試語料信息,通過第一預(yù)設(shè)模型和第二預(yù)設(shè)模型組合篩選出文字不相似但語義相似的測試語料信息,語料覆蓋更全面,提升了信息處理的效率。
技術(shù)領(lǐng)域
本申請涉及計算機技術(shù)領(lǐng)域,具體涉及一種信息處理方法、裝置及計算機可讀存儲介質(zhì)。
背景技術(shù)
自然語言處理(NLP,Natural?Language?Processing)是使用自然語言同計算機進行通訊的技術(shù)。因為處理自然語言的關(guān)鍵是要讓計算機理解自然語言,所以自然語言處理又叫做自然語言理解(NLU,Natural?Language?Understanding)。
現(xiàn)有技術(shù)中,為了構(gòu)建更好的問答領(lǐng)域,需要獲取大量優(yōu)質(zhì)的語料信息,而語料信息的生成一般采用兩種途徑,一種是通過人力的搜索進行添加補全,在人力補全之后還需要開發(fā)進行審核后才能上線,另一種為通過日志挖掘,通過關(guān)鍵字去召回用戶的問句,然后人工審核標(biāo)注,判斷是否屬于目標(biāo)領(lǐng)域。
在對現(xiàn)有技術(shù)的研究和實踐過程中,本申請的發(fā)明人發(fā)現(xiàn),現(xiàn)有技術(shù)中,人工成本較大,語料信息處理速度慢,導(dǎo)致處理周期較長,且語料信息覆蓋不夠全面。
發(fā)明內(nèi)容
本申請實施例提供一種信息處理方法、裝置及計算機可讀存儲介質(zhì),可以提升信息處理的效率,且使得語料信息覆蓋更全面。
為解決上述技術(shù)問題,本申請實施例提供以下技術(shù)方案:
一種信息處理方法,包括:
根據(jù)目標(biāo)語料信息生成多個測試語料信息;
對每一測試語料信息與所述目標(biāo)語料信息對應(yīng)的初始語料信息進行組合,生成測試語料信息對;
通過第一預(yù)設(shè)模型對所述測試語料信息對的文字相似特征維度進行處理,得到第一測試分?jǐn)?shù);
將第一測試分?jǐn)?shù)低于第一預(yù)設(shè)閾值的測試語料信息對輸入第二預(yù)設(shè)模型進行語義相似特征維度處理,得到第二測試分?jǐn)?shù);
將所述第二測試分?jǐn)?shù)高于第二預(yù)設(shè)閾值的測試語料信息對輸入數(shù)據(jù)庫。
一種信息處理裝置,包括:
生成單元,用于根據(jù)目標(biāo)語料信息生成多個測試語料信息;
組合單元,用于對每一測試語料信息與所述目標(biāo)語料信息對應(yīng)的初始語料信息進行組合,生成測試語料信息對;
第一處理單元,用于通過第一預(yù)設(shè)模型對所述測試語料信息對的文字相似特征維度進行處理,得到第一測試分?jǐn)?shù);
第二處理單元,用于將第一測試分?jǐn)?shù)低于第一預(yù)設(shè)閾值的測試語料信息對輸入第二預(yù)設(shè)模型進行語義相似特征維度處理,得到第二測試分?jǐn)?shù);
輸入單元,用于將所述第二測試分?jǐn)?shù)高于第二預(yù)設(shè)閾值的測試語料信息對輸入數(shù)據(jù)庫。
在一些實施例中,所述處理子單元,用于:
將所述第一測試分?jǐn)?shù)低于第一預(yù)設(shè)閾值的測試語料信息對輸入BERT模型,使得BERT模型將輸入的測試語料信息對轉(zhuǎn)化為向量信息進行特征處理,輸出特征向量信息;
將輸出的特征向量信息連接全連接層分類器,得到第二測試分?jǐn)?shù)。
在一些實施例中,所述裝置還包括第二訓(xùn)練單元,用于:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010905735.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





