[發明專利]基于圖神經網絡的文本糾錯方法、裝置、設備及存儲介質在審
| 申請號: | 202010926425.0 | 申請日: | 2020-09-07 |
| 公開(公告)號: | CN112016303A | 公開(公告)日: | 2020-12-01 |
| 發明(設計)人: | 顏澤龍;王健宗;吳天博;程寧 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F40/216 | 分類號: | G06F40/216;G06F40/166;G06N3/02 |
| 代理公司: | 北京市京大律師事務所 11321 | 代理人: | 姚維 |
| 地址: | 518033 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 神經網絡 文本 糾錯 方法 裝置 設備 存儲 介質 | ||
本發明涉及人工智能領域,應用于智慧醫療領域,公開了基于圖神經網絡的文本糾錯方法、裝置、設備及存儲介質,用于避免在醫療業務系統進行待測文本語料的文本糾錯時進行大量的數據計算,提高了文本糾錯效率。基于圖神經網絡的文本糾錯方法包括:根據醫療業務預料建立形近混淆語料集合與近音混淆語料集合;基于預置的圖神經網絡建立形近混淆結構圖譜以及近音混淆結構圖譜;對形近混淆結構圖譜以及近音混淆結構圖譜依次進行圖卷積操作與圖注意力計算,得到混淆語料結構圖譜;利用預置的向量提取器提取待測文本語料的字符向量,根據字符向量與混淆語料結構圖譜之間的基礎相似概率對待測文本語料進行更改處理,得到目標文本語料。
技術領域
本發明涉及人工智能領域,尤其涉及一種基于圖神經網絡的文本糾錯方法、裝置、設備及存儲介質。
背景技術
在人工智能領域中,中文糾錯是自然語言處理中的一個糾察優化步驟,中文糾錯的能力越高說明自然語言處理系統的處理準確性越高。中文糾錯具體為從包含各種錯誤的文本中進行錯誤糾正,還原出正確的標準文本。隨著科學技術的發展,中文糾錯廣泛應用于語音識別和社交網絡等場景。在醫療場景下,醫生在使用計算機外接鍵盤或外接語音接收器錄入患者信息時,通過外接鍵盤打字錄入文字時會出現拼音錯誤或相鄰鍵盤按鍵敲擊錯誤的情況,通過外接語音接收器進行語音轉化文本的過程中會出現形近字或近音字轉化錯誤的情況,這些錯誤在醫療場景下存在一定風險,特別是醫生在記錄關于患者病情或者治療方案時產生的錯誤,不僅不利于患者的治療和病情追蹤,也容易加劇醫患關系的緊張,阻礙著醫療系統的完善和醫療技術的進步。在現有的技術中,通過計算機大量的計算與排查,對文本文字進行糾錯。
但利用現有的技術進行待測文本語料的文本糾錯時,計算機需要進行大量的數據計算,耗費大量的時間,進而導致待測文本語料的文本糾錯效率低下。
發明內容
本發明提供一種基于圖神經網絡的文本糾錯方法、裝置、設備及存儲介質,用于避免在醫療業務系統進行待測文本語料的文本糾錯時,進行大量的數據計算,提高了待測文本語料的文本糾錯效率。
本發明第一方面提供了一種基于圖神經網絡的文本糾錯方法,包括:獲取醫療業務語料,根據所述醫療業務語料以及預置的字典建立形近混淆語料集合與近音混淆語料集合;基于預置的圖神經網絡建立所述形近混淆語料集合的形近混淆結構圖譜以及所述近音混淆語料集合的近音混淆結構圖譜;對所述形近混淆結構圖譜以及所述近音混淆結構圖譜依次進行圖卷積操作與圖注意力計算,得到混淆語料結構圖譜;獲取待測文本語料,利用預置的向量提取器提取所述待測文本語料的字符向量,計算所述字符向量與所述混淆語料結構圖譜之間的基礎相似概率,根據所述基礎相似概率對所述待測文本語料進行更改處理,得到目標文本語料。
可選的,在本發明第一方面的第一種實現方式中,所述獲取醫療業務語料,根據所述醫療業務語料以及預置的字典建立形近混淆語料集合與近音混淆語料集合包括:獲取醫療業務語料,利用預置的相似度函數計算所述醫療業務語料與預置的字典中的標準語料之間的基礎字形相似度;篩選出所述基礎字形相似度大于相似閾值的目標字形相似度,將所述目標字形相似度對應的標準語料作為所述醫療業務語料的形近混淆語料,將所述醫療業務語料與所述形近混淆語料組合為形近混淆組合,通過所述形近混淆組合生成形近混淆語料集合;利用預置的模糊匹配算法將所述醫療業務語料轉化為語料音標,篩選出所述語料音標中的目標音標,所述目標音標包括具有易混淆的韻母和/或聲母;將目標音標轉化為近音音標,并在所述預置的字典中查詢標準音標與所述近音音標相同的標準語料,將所述標準音標與所述近音音標相同的標準語料作為所述醫療業務語料的近音混淆語料,將所述醫療業務語料與所述近音混淆語料組合為近音混淆組合,通過所述近音混淆組合生成近音混淆語料集合。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010926425.0/2.html,轉載請聲明來源鉆瓜專利網。





