[發明專利]文本的標準化處理方法、裝置、電子設備及計算機介質在審
| 申請號: | 202010773099.4 | 申請日: | 2020-08-04 |
| 公開(公告)號: | CN111881680A | 公開(公告)日: | 2020-11-03 |
| 發明(設計)人: | 柯昆 | 申請(專利權)人: | 醫渡云(北京)技術有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/247;G06F40/232;G06F16/35 |
| 代理公司: | 北京律智知識產權代理有限公司 11438 | 代理人: | 王輝;闞梓瑄 |
| 地址: | 100191 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 標準化 處理 方法 裝置 電子設備 計算機 介質 | ||
本公開涉及一種文本的標準化處理方法、裝置、電子設備及計算機可讀介質,屬于數據處理技術領域。該方法包括:獲取待處理的原始文本,并對原始文本進行拆分,得到原始文本中的各個待識別文本成分;獲取通過標準文本成分集合預先訓練的文本成分識別模型,并通過文本成分識別模型確定待識別文本成分中的第一可識別文本成分和未識別文本成分;對未識別文本成分進行標準化校正;通過文本成分識別模型確定校正后的未識別文本成分中的第二可識別文本成分;根據第一可識別文本成分和第二可識別文本成分得到原始文本的標準化文本。本公開通過將不同的原始文本歸一化為統一格式和寫法的標準化文本,可以提高文本數據統計和處理的效率。
技術領域
本公開涉及數據處理技術領域,具體而言,涉及一種文本的標準化處理方法、文本的標準化處理裝置、電子設備及計算機可讀介質。
背景技術
隨著新型冠狀病毒肺炎疫情在全球的爆發,對于密切接觸者的追蹤在控制疫情擴散的方面尤為重要,而病人的地理位置信息在追蹤其密切接觸者的時候則是一項關鍵數據。
然而,這些收集到的地址文本數據通常不夠規范,沒有一個統一的格式和寫法,很難進行進一步的統計與管理。
鑒于此,本領域亟需一種能夠將不同寫法的地址文本轉換為統一標準化格式的文本的標準化處理方法。
需要說明的是,在上述背景技術部分公開的信息僅用于加強對本公開的背景的理解,因此可以包括不構成對本領域普通技術人員已知的現有技術的信息。
發明內容
本公開的目的在于提供一種文本的標準化處理方法、文本的標準化處理裝置、電子設備及計算機可讀介質,進而至少在一定程度上提高文本數據統計和處理的效率。
根據本公開的第一個方面,提供一種文本的標準化處理方法,包括:
獲取待處理的原始文本,并對所述原始文本進行拆分,得到所述原始文本中的各個待識別文本成分;
獲取通過標準文本成分集合預先訓練的文本成分識別模型,并通過所述文本成分識別模型確定所述待識別文本成分中的第一可識別文本成分和未識別文本成分;
對所述未識別文本成分進行標準化校正;
通過所述文本成分識別模型確定校正后的所述未識別文本成分中的第二可識別文本成分;其中,所述第一可識別文本成分和所述第二可識別文本成分屬于所述標準文本成分集合;
根據所述第一可識別文本成分和所述第二可識別文本成分,得到所述原始文本的標準化文本。
在本公開的一種示例性實施例中,所述文本成分識別模型的訓練過程包括:
獲取標準文本集合,并對所述標準文本集合中的各個標準文本進行拆分,得到所述標準文本中的各個標準文本成分;
對所述標準文本成分添加對應的類型標簽,并獲取各個所述標準文本成分對應的同義文本成分;
根據所述標準文本成分和各個所述標準文本成分對應的同義文本成分,得到所述標準文本成分集合;
根據所述標準文本成分集合中帶有所述類型標簽的所述標準文本成分和對應的同義文本成分,訓練所述文本成分識別模型。
在本公開的一種示例性實施例中,所述通過所述文本成分識別模型確定所述待識別文本成分中的第一可識別文本成分和未識別文本成分,包括:
將所述待識別文本成分添加對應的類型標簽后,輸入所述文本成分識別模型;
通過所述文本成分識別模型判斷所述待識別文本成分是否屬于所述標準文本成分集合中的所述類型標簽中對應的標準文本成分或同義文本成分;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于醫渡云(北京)技術有限公司,未經醫渡云(北京)技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010773099.4/2.html,轉載請聲明來源鉆瓜專利網。





