[發(fā)明專利]投訴預(yù)測方法及其模型建立方法、裝置以及相關(guān)設(shè)備在審
| 申請?zhí)枺?/td> | 202210107767.9 | 申請日: | 2022-01-28 |
| 公開(公告)號: | CN114676247A | 公開(公告)日: | 2022-06-28 |
| 發(fā)明(設(shè)計)人: | 王子奕;鞠劍勛;李健 | 申請(專利權(quán))人: | 上海攜旅信息技術(shù)有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/211;G06F40/289;G06F40/30;G06N3/04;G06N3/08;G06Q30/02;G06Q50/14 |
| 代理公司: | 上海隆天律師事務(wù)所 31282 | 代理人: | 潘一諾 |
| 地址: | 201803 上海市嘉*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 投訴 預(yù)測 方法 及其 模型 建立 裝置 以及 相關(guān) 設(shè)備 | ||
本發(fā)明提供一種投訴預(yù)測方法及其模型建立方法、裝置以及相關(guān)設(shè)備,方法包括:設(shè)置投訴預(yù)測模型的預(yù)測的標(biāo)簽集合;獲取歷史客服對話文本以及歷史客服對話文本的標(biāo)簽;使用LTP語言處理工具對歷史客服對話文本進行分詞;使用BERT分詞器生成字令牌id序列、字位置id序列、字片段id序列以及字掩碼序列;輸入模型編碼層,獲得字特征序列;獲得詞特征序列;將詞特征序列輸入至語法層的圖神經(jīng)網(wǎng)絡(luò),以感知語法特征;輸出歷史客服對話文本的句子表示;對句子表示執(zhí)行仿射變換以及歸一化處理,獲得標(biāo)簽概率分布;將句子表示輸入至標(biāo)簽混淆層,計算偽標(biāo)簽概率分布;計算損失函數(shù);迭代訓(xùn)練投訴預(yù)測模型。本發(fā)明實現(xiàn)線上旅行社的投訴預(yù)測。
技術(shù)領(lǐng)域
本發(fā)明涉及計算機應(yīng)用技術(shù)領(lǐng)域,尤其涉及一種投訴預(yù)測方法及其模型建立方法、裝置以及相關(guān)設(shè)備。
背景技術(shù)
隨著深度學(xué)習(xí)相關(guān)技術(shù)的飛速發(fā)展,神經(jīng)網(wǎng)絡(luò)模型在自然語言處理 (NaturalLanguage Processing,NLP)領(lǐng)域的地位愈發(fā)重要。相較于傳統(tǒng)的樸素貝葉斯、支持向量機、N-gram等機器學(xué)習(xí)算法,神經(jīng)網(wǎng)絡(luò)在自動提取特征構(gòu)建高層抽象方面的巨大優(yōu)勢使之能有效克服手動特征工程耗時費力、依賴專家經(jīng)驗的局限。
識別線上旅行社行業(yè)中的客戶投訴內(nèi)容,是文本分類在旅游場景下的一個主要應(yīng)用方向,該任務(wù)難點在于:
1.中文存在大量同義詞、一詞多義現(xiàn)象,加上用戶在即時通信(Instant Message,IM)表達中的非正式性、模糊性和多樣性,都給分類帶來了很大挑戰(zhàn);
2.標(biāo)注數(shù)據(jù)量通常較少,標(biāo)注成本高,難以學(xué)習(xí)出一個泛化能力足夠強的分類器;
3.各預(yù)警標(biāo)簽之間的界限不一定十分清晰,有些內(nèi)容按照語義甚至可劃分至多個類別,標(biāo)注噪聲嚴重。
與計算機視覺(Computer Vision,CV)相比,盡管NLP領(lǐng)域的有監(jiān)督數(shù)據(jù)集往往很小,導(dǎo)致深度學(xué)習(xí)模型容易過擬合,但NLP領(lǐng)域的優(yōu)勢在于,存在大量無監(jiān)督語料,如果能夠充分利用這類數(shù)據(jù)進行非監(jiān)督、自監(jiān)督學(xué)習(xí),那么就有提升模型在下游任務(wù)表現(xiàn)的可能,這便是預(yù)訓(xùn)練語言模型產(chǎn)生的動機。自2018年Google提出的BERT模型刷新各項自然語言理解任務(wù)的SOTA 起,預(yù)訓(xùn)練語言模型的研究迎來了熱潮。BERT以Transformer編碼器作為主要結(jié)構(gòu),通過多頭自注意力機制的并行計算替代了循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent NeuralNetworks,RNNs)在序列處理上的地位,為編碼文本表征提供了新范式。
BERT采用的WordPiece分詞算法應(yīng)用到中文文本處理時,通常只將句子簡單轉(zhuǎn)換為字符序列,這種做法忽視了詞級信息以及能獨立作為句子成分的漢語單詞間的依存關(guān)系。此外,由于到標(biāo)簽one-hot編碼方式假設(shè)過強,忽視了標(biāo)簽之間的相互重疊關(guān)系,容易丟失標(biāo)簽包含的大量語義信息,造成模型無法處理標(biāo)簽混淆或有噪聲的情況。
由此,如何能夠捕獲詞級聯(lián)系,同時避免丟失標(biāo)簽包含的大量語義信息,造成模型無法處理標(biāo)簽混淆或有噪聲的情況,從而實現(xiàn)線上旅行社的投訴預(yù)測,是本領(lǐng)域亟待解決的技術(shù)問題。
發(fā)明內(nèi)容
本發(fā)明為了克服上述現(xiàn)有技術(shù)存在的缺陷,提供一種投訴預(yù)測方法及其模型建立方法、裝置以及相關(guān)設(shè)備,能夠捕獲詞級聯(lián)系,同時避免丟失標(biāo)簽包含的大量語義信息,造成模型無法處理標(biāo)簽混淆或有噪聲的情況,從而實現(xiàn)線上旅行社的投訴預(yù)測。
根據(jù)本發(fā)明的一個方面,提供一種投訴預(yù)測模型建立方法,包括:
設(shè)置所述投訴預(yù)測模型的預(yù)測的標(biāo)簽集合;
獲取歷史客服對話文本以及歷史客服對話文本的標(biāo)簽;
使用LTP語言處理工具對所述歷史客服對話文本進行分詞,生成詞掩碼序列以及句法依存關(guān)系圖;
使用BERT分詞器基于所述歷史客服對話文本,生成字令牌id序列、字位置id序列、字片段id序列以及字掩碼序列;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海攜旅信息技術(shù)有限公司,未經(jīng)上海攜旅信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210107767.9/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 圖像編碼裝置、圖像編碼方法、圖像譯碼裝置、圖像譯碼方法、程序以及記錄介質(zhì)
- 圖像編碼裝置、圖像編碼方法、圖像譯碼裝置、圖像譯碼方法
- 圖像編碼裝置、圖像編碼方法、圖像譯碼裝置、圖像譯碼方法
- 基于時間序列預(yù)測模型適用性量化的預(yù)測模型選擇方法
- 圖像編碼裝置、圖像編碼方法、圖像譯碼裝置、圖像譯碼方法
- 分類預(yù)測方法及裝置、預(yù)測模型訓(xùn)練方法及裝置
- 幀內(nèi)預(yù)測的方法及裝置
- 圖像預(yù)測方法及裝置、電子設(shè)備和存儲介質(zhì)
- 文本預(yù)測方法、裝置以及電子設(shè)備
- 模型融合方法、預(yù)測方法、裝置、設(shè)備及存儲介質(zhì)





