[發明專利]文本編碼方法、裝置、設備及計算機可讀存儲介質在審
| 申請號: | 202110033100.4 | 申請日: | 2021-01-11 |
| 公開(公告)號: | CN112749530A | 公開(公告)日: | 2021-05-04 |
| 發明(設計)人: | 陳文斌;王騰飛;魏幫國 | 申請(專利權)人: | 北京光速斑馬數據科技有限公司 |
| 主分類號: | G06F40/126 | 分類號: | G06F40/126;G06F16/35;G06F16/33;G06N3/04;G06N20/10 |
| 代理公司: | 北京天方智力知識產權代理事務所(普通合伙) 11719 | 代理人: | 賈耀梅 |
| 地址: | 100027 北京市朝陽區東直門*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 編碼 方法 裝置 設備 計算機 可讀 存儲 介質 | ||
本申請提供了一種文本編碼方法,包括:將目標文本進行規則匹配,若匹配成功,則生成目標文本的第一編碼結果;利用至少兩個文本分類模型對目標文本進行分類,若至少兩個文本分類模型對目標文本進行分類的分類結果相同、且各分類結果的置信度大于預設閾值,則將目標文本的模型編碼結果作為第二編碼結果;根據第一編碼結果與第二編碼結果,生成目標文本的最終編碼結果。本申請基于自然語言處理技術的相關算法對目標文本進行處理,可以使最終編碼結果的查準率和查全率大大提升。
技術領域
本申請涉及控制技術領域,特別涉及一種文本編碼方法、裝置、設備及計算機可讀存儲介質。
背景技術
汽車行業存在大量的客戶反饋,涉及產品評價及體驗評價等,由于汽車廠商和經銷商都非常注重提高客戶的整體體驗,所以,讓計算機理解海量客戶反饋,并從客戶反饋中提煉有價值的信息,幫助汽車廠商和經銷商提升產品與服務的水平變得尤為重要。
目前,針對客戶反饋文本的編碼方式,主要是采用人工編碼的方式,但人工編碼成本高、處理海量數據效率低且基于個人理解的編碼結果不穩定,信息提煉有偏差。
此外,現有文本編碼的技術主要是規則編碼,規則編碼主要是依據關鍵詞或者關鍵表達式結構提取文本信息,但規則編碼的查準率較高、但查全率非常低;而且,一種意思常常有多種表達方式且文本存在感情色彩,單純的利用規則編碼很難精準把握文本涵義;同時,關鍵詞和關鍵表達式編碼也會導致文本大量漏編。并且,僅用規則編碼對于文本信息的處理效率是不高的。
發明內容
本申請提供了一種文本編碼方法、裝置、設備及計算機可讀存儲介質,能夠提升編碼結果的準確性以及全面性。
第一方面,本申請提供了一種文本編碼方法,包括:
將目標文本進行規則匹配,若匹配成功,則生成所述目標文本的第一編碼結果,所述匹配成功是指從所述目標文本中匹配到至少一個預設關鍵詞和/或至少一個預設正則表達式;
利用至少兩個文本分類模型對所述目標文本進行分類,若所述至少兩個文本分類模型對所述目標文本進行分類的分類結果相同、且各分類結果的置信度大于預設閾值,則將所述目標文本的模型編碼結果作為第二編碼結果;
根據所述第一編碼結果與所述第二編碼結果,生成所述目標文本的最終編碼結果。
第二方面,本申請提供了一種文本編碼裝置,包括:
第一編碼單元,用于將目標文本進行規則匹配,若匹配成功,則生成所述目標文本的第一編碼結果,所述匹配成功是指從所述目標文本中匹配到至少一個預設關鍵詞和/或至少一個預設關鍵表達式;
第二編碼單元,用于利用至少兩個文本分類模型對所述目標文本進行分類,若所述至少兩個文本分類模型對所述目標文本進行分類的分類結果相同、且各分類結果的置信度大于預設閾值,則將所述目標文本的模型編碼結果作為第二編碼結果;
第三編碼單元,用于根據所述第一編碼結果與所述第二編碼結果,生成所述目標文本的最終編碼結果。
第三方面,本申請提供了一種電子設備,包括:處理器、存儲器;
所述存儲器,用于存儲計算機程序;
所述處理器,用于通過調用所述計算機程序,執行上述文本編碼方法。
第四方面,本申請提供了一種計算機可讀存儲介質,其上存儲有計算機程序,該程序被處理器執行時實現上述文本編碼方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京光速斑馬數據科技有限公司,未經北京光速斑馬數據科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110033100.4/2.html,轉載請聲明來源鉆瓜專利網。





