[發明專利]文本信息處理方法、系統、介質和設備有效

申請號：	202110765335.2	申請日：	2021-07-07
公開（公告）號：	CN113254658B	公開（公告）日：	2021-12-21
發明（設計）人：	姚娟娟;鐘南山;樊代明	申請（專利權）人：	明品云（北京）數據科技有限公司
主分類號：	G06F16/35	分類號：	G06F16/35;G06F16/335;G06N3/04;G06N3/08
代理公司：	上海漢之律師事務所 31378	代理人：	馮華
地址：	102400 北京市***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	文本信息處理方法系統介質設備
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明提出一種文本信息處理方法、系統、介質和設備，在所述文本信息處理方法中，在對文本信息進行預處理得到數據預處理集合的基礎上，根據數據參考集合，基于關鍵詞匹配對數據預處理集合進行第一次篩選，基于深度學習對數據預處理集合進行第二次篩選，結合前后兩次篩選的數據集合生成處理后的文本信息，能有效防止文本信息的誤篩，提高了文本信息的處理準確率和處理效率；每個數據集合均包括相互之間存在映射關系的專業名詞集合、形容詞集合以及參數集合，在每個子集合單獨對比篩選的基礎上，結合存在映射關系的其他子集合的篩選結果的輔助驗證，能進一步提高文本信息的篩選效率和準確率。

技術領域

本發明涉及自然語言處理技術領域，尤其涉及一種文本信息處理方法、系統、介質和設備。

背景技術

在自然語言處理中，通常會涉及多種輸入途徑和多種用途的文本，就以醫療數據而言，檔案室老舊的紙質文本信息，各個醫院或者平臺的電子病歷信息，現有的醫療數據越來越繁雜，且不同醫院或者平臺對醫療數據的定義、記載方式等存在差異，對應的診斷文本存在著特定用語、同義詞表達、縮略語以及拼寫和打字錯誤等造成診斷文本不一致的問題。

因此，如何對繁復的醫學文本信息進行有效地歸納總結，提高醫學文本信息的處理效率與準確率是目前亟需解決的問題。

發明內容

鑒于以上現有技術存在的問題，本發明提供一種文本信息的處理技術方案，用于解決據上述技術問題。

為了實現上述目的及其他目的，本發明采用的技術方案如下。

一種文本信息處理方法，包括：

獲取待處理的文本信息；

對所述文本信息進行預處理，生成多個詞語及參數；

對多個所述詞語及所述參數進行分類提取，獲取對應的數據預處理集合，所述數據預處理集合包括相互之間存在映射關系的專業名詞預處理集合、專業名詞描述預處理集合以及參數預處理集合；

獲取相關領域的數據參考集合，所述數據參考集合包括相互之間存在映射關系的專業名詞參考集合、專業名詞描述參考集合以及參數參考集合；

根據所述數據參考集合，基于關鍵詞匹配，對所述數據預處理集合進行第一次篩選，獲取第一數據集合，所述第一數據集合包括相互之間存在映射關系的第一專業名詞集合、第一專業名詞描述集合以及第一參數集合；

根據所述數據參考集合，基于深度學習，對所述數據預處理集合進行第二次篩選，獲取第二數據集合，所述第二數據集合包括相互之間存在映射關系的第二專業名詞集合、第二專業名詞描述集合以及第二參數集合；

根據所述第一數據集合與所述第二數據集合，輸出處理后的文本信息。