[發明專利]文本的標準化處理方法、裝置、電子設備及計算機介質在審
| 申請號: | 202010773099.4 | 申請日: | 2020-08-04 |
| 公開(公告)號: | CN111881680A | 公開(公告)日: | 2020-11-03 |
| 發明(設計)人: | 柯昆 | 申請(專利權)人: | 醫渡云(北京)技術有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/247;G06F40/232;G06F16/35 |
| 代理公司: | 北京律智知識產權代理有限公司 11438 | 代理人: | 王輝;闞梓瑄 |
| 地址: | 100191 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 標準化 處理 方法 裝置 電子設備 計算機 介質 | ||
1.一種文本的標準化處理方法,其特征在于,包括:
獲取待處理的原始文本,并對所述原始文本進行拆分,得到所述原始文本中的各個待識別文本成分;
獲取通過標準文本成分集合預先訓練的文本成分識別模型,并通過所述文本成分識別模型確定所述待識別文本成分中的第一可識別文本成分和未識別文本成分;
對所述未識別文本成分進行標準化校正;
通過所述文本成分識別模型確定校正后的所述未識別文本成分中的第二可識別文本成分;其中,所述第一可識別文本成分和所述第二可識別文本成分屬于所述標準文本成分集合;
根據所述第一可識別文本成分和所述第二可識別文本成分,得到所述原始文本的標準化文本。
2.根據權利要求1所述的文本的標準化處理方法,其特征在于,所述文本成分識別模型的訓練過程包括:
獲取標準文本集合,并對所述標準文本集合中的各個標準文本進行拆分,得到所述標準文本中的各個標準文本成分;
對所述標準文本成分添加對應的類型標簽,并獲取各個所述標準文本成分對應的同義文本成分;
根據所述標準文本成分和各個所述標準文本成分對應的同義文本成分,得到所述標準文本成分集合;
根據所述標準文本成分集合中帶有所述類型標簽的所述標準文本成分和對應的同義文本成分,訓練所述文本成分識別模型。
3.根據權利要求1所述的文本的標準化處理方法,其特征在于,所述通過所述文本成分識別模型確定所述待識別文本成分中的第一可識別文本成分和未識別文本成分,包括:
將所述待識別文本成分添加對應的類型標簽后,輸入所述文本成分識別模型;
通過所述文本成分識別模型判斷所述待識別文本成分是否屬于所述標準文本成分集合中的所述類型標簽中對應的標準文本成分或同義文本成分;
若所述待識別文本成分屬于所述類型標簽中對應的標準文本成分或同義文本成分,則將所述待識別文本成分確定為第一可識別文本成分;
若所述待識別文本成分不屬于所述類型標簽中對應的標準文本成分或同義文本成分,則將所述待識別文本成分確定為未識別文本成分。
4.根據權利要求3所述的文本的標準化處理方法,其特征在于,在所述通過所述文本成分識別模型確定所述待識別文本成分中的第一可識別文本成分和未識別文本成分之后,所述方法還包括:
若所述第一可識別文本成分為所述同義文本成分,則將所述第一可識別文本成分轉換為與所述同義文本成分對應的標準文本成分。
5.根據權利要求1所述的文本的標準化處理方法,其特征在于,所述對所述未識別文本成分進行標準化校正,包括:
若所述未識別文本成分為錯誤文本成分,則對所述錯誤文本成分進行拆分,得到所述錯誤文本成分的各個子文本成分;
根據所述子文本成分與所述標準文本成分和同義文本成分的相似度,從所述標準文本成分集合中確定與所述錯誤文本成分對應的正確文本成分;
根據所述正確文本成分對所述錯誤文本成分進行校正,得到校正后的所述未識別文本成分。
6.根據權利要求1所述的文本的標準化處理方法,其特征在于,所述對所述未識別文本成分進行標準化校正,包括:
若所述未識別文本成分為縮寫文本成分,則根據所述縮寫文本成分與所述標準文本成分和同義文本成分進行匹配,從所述標準文本成分集合中確定與所述縮寫文本成分對應的完整文本成分;
根據所述完整文本成分對所述縮寫文本成分進行校正,得到校正后的所述未識別文本成分。
7.根據權利要求1所述的文本的標準化處理方法,其特征在于,所述根據所述第一可識別文本成分和所述第二可識別文本成分,得到所述原始文本的標準化文本,包括:
獲取所述原始文本的應用需求,并根據所述應用需求從所述第一可識別文本成分和所述第二可識別文本成分中獲取目標文本成分;
根據所述目標文本成分按照預設文本順序得到所述原始文本的標準化文本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于醫渡云(北京)技術有限公司,未經醫渡云(北京)技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010773099.4/1.html,轉載請聲明來源鉆瓜專利網。





