[發明專利]文本信息處理方法、系統、介質和設備有效
| 申請號: | 202110765335.2 | 申請日: | 2021-07-07 |
| 公開(公告)號: | CN113254658B | 公開(公告)日: | 2021-12-21 |
| 發明(設計)人: | 姚娟娟;鐘南山;樊代明 | 申請(專利權)人: | 明品云(北京)數據科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/335;G06N3/04;G06N3/08 |
| 代理公司: | 上海漢之律師事務所 31378 | 代理人: | 馮華 |
| 地址: | 102400 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 信息處理 方法 系統 介質 設備 | ||
本發明提出一種文本信息處理方法、系統、介質和設備,在所述文本信息處理方法中,在對文本信息進行預處理得到數據預處理集合的基礎上,根據數據參考集合,基于關鍵詞匹配對數據預處理集合進行第一次篩選,基于深度學習對數據預處理集合進行第二次篩選,結合前后兩次篩選的數據集合生成處理后的文本信息,能有效防止文本信息的誤篩,提高了文本信息的處理準確率和處理效率;每個數據集合均包括相互之間存在映射關系的專業名詞集合、形容詞集合以及參數集合,在每個子集合單獨對比篩選的基礎上,結合存在映射關系的其他子集合的篩選結果的輔助驗證,能進一步提高文本信息的篩選效率和準確率。
技術領域
本發明涉及自然語言處理技術領域,尤其涉及一種文本信息處理方法、系統、介質和設備。
背景技術
在自然語言處理中,通常會涉及多種輸入途徑和多種用途的文本,就以醫療數據而言,檔案室老舊的紙質文本信息,各個醫院或者平臺的電子病歷信息,現有的醫療數據越來越繁雜,且不同醫院或者平臺對醫療數據的定義、記載方式等存在差異,對應的診斷文本存在著特定用語、同義詞表達、縮略語以及拼寫和打字錯誤等造成診斷文本不一致的問題。
因此,如何對繁復的醫學文本信息進行有效地歸納總結,提高醫學文本信息的處理效率與準確率是目前亟需解決的問題。
發明內容
鑒于以上現有技術存在的問題,本發明提供一種文本信息的處理技術方案,用于解決據上述技術問題。
為了實現上述目的及其他目的,本發明采用的技術方案如下。
一種文本信息處理方法,包括:
獲取待處理的文本信息;
對所述文本信息進行預處理,生成多個詞語及參數;
對多個所述詞語及所述參數進行分類提取,獲取對應的數據預處理集合,所述數據預處理集合包括相互之間存在映射關系的專業名詞預處理集合、專業名詞描述預處理集合以及參數預處理集合;
獲取相關領域的數據參考集合,所述數據參考集合包括相互之間存在映射關系的專業名詞參考集合、專業名詞描述參考集合以及參數參考集合;
根據所述數據參考集合,基于關鍵詞匹配,對所述數據預處理集合進行第一次篩選,獲取第一數據集合,所述第一數據集合包括相互之間存在映射關系的第一專業名詞集合、第一專業名詞描述集合以及第一參數集合;
根據所述數據參考集合,基于深度學習,對所述數據預處理集合進行第二次篩選,獲取第二數據集合,所述第二數據集合包括相互之間存在映射關系的第二專業名詞集合、第二專業名詞描述集合以及第二參數集合;
根據所述第一數據集合與所述第二數據集合,輸出處理后的文本信息。
可選地,對所述文本信息進行預處理時,至少對所述文本信息依次進行數據清洗、標點符號去除、切詞、停用詞去除以及重復詞去除。
可選地,對多個所述詞語及所述參數進行分類提取的步驟包括:
對所述詞語進行詞性標注;
根據所述詞語的詞性和上下文關系,對多個所述詞語及所述參數進行分類提取,獲取所述數據預處理集合。
可選地,根據所述數據參考集合,基于關鍵詞匹配,對所述數據預處理集合進行第一次篩選的步驟包括:
針對所述專業名詞預處理集合中的第a個元素,依次計算其與所述專業名詞參考集合中的第b個元素之間的第一詞串距離S1(a,b),得到第一詞串距離集合S1(a);
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于明品云(北京)數據科技有限公司,未經明品云(北京)數據科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110765335.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種CDN自適應帶寬突發處理方法
- 下一篇:一種光模塊散熱系統、光模塊





