[發明專利]語料文本的處理方法、裝置及電子設備有效
| 申請號: | 202011009875.X | 申請日: | 2020-09-23 |
| 公開(公告)號: | CN112148877B | 公開(公告)日: | 2023-07-04 |
| 發明(設計)人: | 浦嘉澍;毛曉曦;范長杰;胡志鵬 | 申請(專利權)人: | 網易(杭州)網絡有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/36;G06F18/2411;G06F18/21 |
| 代理公司: | 北京超成律師事務所 11646 | 代理人: | 張芮 |
| 地址: | 310052 浙江省杭州*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語料 文本 處理 方法 裝置 電子設備 | ||
本發明提供了語料文本的處理方法、裝置及電子設備。其中,該方法包括:將待處理的語料文本集合輸入語言模型,得到語料文本的特征向量;基于聚類算法和語料文本的特征向量,對語料文本集合進行聚類處理,得到語料分類信息;修改目標語料文本標注的意圖類別標注信息,得到目標語料文本;并將目標語料文本添加至原始訓練樣本中,以訓練語言模型,得到優化的語言模型。本發明中,通過語言模型和聚類算法對語料文本集合進行聚類處理,并修正語料分類信息中目標語料信息標注的意圖類別標注信息,以訓練語言模型,使語言模型在使用過程中能夠迭代優化,提升了語言模型和聚類算法的泛化能力,以及語料文本對應意圖類別標注信息的標注準確度。
技術領域
本發明涉及自然語言處理技術領域,尤其是涉及一種語料文本的處理方法、裝置及電子設備。
背景技術
隨著計算機的飛速發展,數字化的文本數量在不斷地增長,互聯網的發展更加加劇了數字化文本的膨脹速度。在此背景下,聚類技術可以用于簡化文本的表示,并對信息檢索進行重新表示,以加速信息檢索速度;或者實現一系列的個性化信息的整合和推送,比如目前流行的APP(Application,手機軟件)今日頭條、知乎等等。然而,大部分場景下聊天機器人仍然需要定制特定的問答對,也就是意圖與回答的配對,這種模式在任務型對話中十分常見,比如訂機票等。但是在開放域的回答中,識別高頻意圖也有很高的價值,因為對話的第一步就是聽懂人類在說什么,文本聚類可以用于在海量的數據(比如游戲中玩家的私聊數據,數據量在千萬輪以上)中尋找高頻的意圖,并對相似的表述進行聚類操作,比如找到“我去睡覺了”、“我現在真的要去睡了”等相似表述時,可以把他們歸類為“玩家想去睡覺了”這個意圖,以便后續可以定制特定的回答。
現有的語料文本主要通過聚類算法和度量學習進行意圖類別標注信息的標注,其中,度量學習的模型為傳統的序列模型,對語料文本的表示能力有限,導致意圖類別標注信息的標注準確度較低。
發明內容
有鑒于此,本發明的目的在于提供語料文本的處理方法、裝置及電子設備,以緩解上述問題。
第一方面,本發明實施例提供了一種語料文本的處理方法,該方法包括:將待處理的語料文本集合輸入語言模型,得到語料文本集合中的語料文本的特征向量;其中,特征向量用于表征語料文本的語義信息;語言模型為經過原始訓練樣本訓練得到的模型;基于聚類算法和語料文本的特征向量,對語料文本集合進行聚類處理,得到語料分類信息;其中,語料分類信息包括語料文本標注的意圖類別標注信息;響應針對于目標語料文本的意圖類別標注信息的修正操作,修改目標語料文本標注的意圖類別標注信息,得到目標語料文本;將目標語料文本添加至原始訓練樣本中,得到更新樣本;應用更新樣本繼續訓練語言模型,得到優化的語言模型。
上述語料分類信息還包括語料文本對應的置信度,置信度用于表征語料文本對應的意圖類別標注信息的可信程度;上述響應針對于目標語料文本的意圖類別標注信息的修正操作的步驟之前,該方法還包括:將置信度低于預設閾值的語料文本作為目標語料文本。
上述語言模型為BERT語言模型,上述語料文本集合中的語料文本均標注有開始標識和結束標識。
上述聚類算法為多個;基于聚類算法和語料文本的特征向量,對語料文本集合進行聚類處理的步驟,包括:根據語料文本集合對應的任務類型確定目標聚類算法;其中,任務類型包括語料文本集合的類別總數已知或語料文本集合的類別總數未知;應用目標聚類算法和語料文本的特征向量,對語料文本集合進行聚類處理。
上述根據語料文本集合對應的任務類型確定目標聚類算法的步驟,包括:如果語料文本集合的類別總數已知,確定目標聚類算法為K-means算法;如果語料文本集合的類別總數未知,確定目標聚類算法為DBscan算法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于網易(杭州)網絡有限公司,未經網易(杭州)網絡有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011009875.X/2.html,轉載請聲明來源鉆瓜專利網。





