[發明專利]一種文本匹配優化方法及裝置有效
| 申請號: | 202110611429.4 | 申請日: | 2021-06-02 |
| 公開(公告)號: | CN113051374B | 公開(公告)日: | 2021-08-31 |
| 發明(設計)人: | 李偉 | 申請(專利權)人: | 北京沃豐時代數據科技有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/332;G06F16/35;G06F16/36;G06N3/04;G06N3/08 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 郭亮 |
| 地址: | 100160 北京市豐臺區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 匹配 優化 方法 裝置 | ||
本發明提供一種文本匹配優化方法及裝置,該方法包括:獲取待匹配的問題文本內容;將所述問題文本內容輸入到訓練好的文本匹配模型,得到所述問題文本內容的相似問文本,所述訓練好的文本匹配模型是由客服領域的樣本語料數據和所述樣本語料數據對應的樣本知識圖譜,對預訓練的語言模型進行訓練得到的。本發明針對特定的客服領域環境,生成訓練語料和知識圖譜,并基于該訓練語料和知識圖譜,應用深度學習模型訓練得到文本匹配模型,對客服領域的問題文本進行匹配,從而提高文本匹配準確率。
技術領域
本發明涉及自然語言處理技術領域,尤其涉及一種文本匹配優化方法及裝置。
背景技術
在客服領域的智能問答系統中,需要對客戶投訴或客戶咨詢等問題的文本內容,與現有文本語料知識庫中已存儲的標準問題內容進行匹配,從而根據匹配結果,從這些標準問題內容中分析得到該文本內容對應的回答方案。
現有客服領域在進行文本問題匹配時,主要是基于自然語言處理中的預訓練語言模型進行微調,從而實現文本匹配,該模型是學習詞語的分布式表示,也就是詞語的嵌入(Embedding)過程。這個分布式表示將作為輸入,提供給上層特定任務的模型中,根據特定的任務,在訓練中調整上層應用模型的參數。預訓練語言模型作為自然語言處理的基礎模型,在各類應用場景中都發揮巨大的作用,當前主流的預訓練模型,包括Bert模型,XLNet模型和Albert模型等。
預訓練語言模型的目標是獲得一個通用的模型表示,之后根據特定的任務去進行調優。而客服領域的文本匹配,和通用的文本匹配不一樣,某些在通用的文本表達里面認為不匹配的內容,在客服領域可以是匹配的,如:“快遞為什么還沒有發出來”和“快遞發貨太慢了”,這兩句都表示客戶在質問快遞的發貨速度,但是從文本的詞語上,這兩句話的交集很小,因此,現有客服領域的文本匹配準確率還有待進一步提升。
發明內容
針對現有技術存在的問題,本發明提供一種文本匹配優化方法及裝置。
本發明提供一種文本匹配優化方法,包括:
獲取待匹配的問題文本內容;
將所述問題文本內容輸入到訓練好的文本匹配模型,得到所述問題文本內容的相似問文本,所述訓練好的文本匹配模型是由客服領域的樣本語料數據和所述樣本語料數據對應的樣本知識圖譜,對預訓練的語言模型進行訓練得到的。
根據本發明提供的一種文本匹配優化方法,所述訓練好的文本匹配模型通過以下步驟得到:
根據客服領域的樣本語料數據,獲取客服與客戶之間歷史對話記錄產生的客戶樣本問句;
根據所述客戶樣本問句和預設文本語料知識庫,構建訓練樣本集;
根據所述訓練樣本集中的樣本數據,生成客服領域的樣本知識圖譜;
根據所述訓練樣本集和所述樣本知識圖譜,對預訓練的語言模型進行訓練,得到訓練好的文本匹配模型。
根據本發明提供的一種文本匹配優化方法,所述根據所述客戶樣本問句和預設文本語料知識庫,構建訓練樣本集,包括:
根據預設文本語料知識庫的知識庫樣本問句和所述客戶樣本問句,構建樣本問句對,并為所述樣本問句對標記匹配類型和實體關系,得到第一訓練樣本;
根據所述知識庫樣本問句,從所述預設文本語料知識庫中獲取對應的樣本相似問,并根據所述知識庫樣本問句和所述樣本相似問,得到第二訓練樣本;
根據客戶歷史問答反饋數據,對所述樣本問句對標注正負樣本標簽,得到第三訓練樣本;
根據所述第一訓練樣本、所述第二訓練樣本和所述第三訓練樣本,構建訓練樣本集。
根據本發明提供的一種文本匹配優化方法,所述根據所述訓練樣本集中的樣本數據,生成客服領域的樣本知識圖譜,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京沃豐時代數據科技有限公司,未經北京沃豐時代數據科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110611429.4/2.html,轉載請聲明來源鉆瓜專利網。





