[發明專利]一種文本中近義詞判別方法、系統、設備和介質在審
| 申請號: | 202110374994.3 | 申請日: | 2021-04-08 |
| 公開(公告)號: | CN112800758A | 公開(公告)日: | 2021-05-14 |
| 發明(設計)人: | 姚娟娟;柴洪峰;鐘南山 | 申請(專利權)人: | 明品云(北京)數據科技有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06K9/62 |
| 代理公司: | 上海漢之律師事務所 31378 | 代理人: | 馮華 |
| 地址: | 102400 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 中近義詞 判別 方法 系統 設備 介質 | ||
本發明提出一種文本中近義詞判別方法、系統、設備和介質,包括:獲取指定領域范圍的待判別文本,構建文本數據集;獲取所述文本數據集中每個詞對應的詞序列,根據所述詞序列之間的相似度,得到近義詞集合,所述近義詞集合為多個;構建標準詞庫,根據所述近義詞集合中詞序列與所述標準詞庫中標準詞序列之間的距離,更新標準詞對應的詞集合;本發明可在無標注情況下獲取文本中的近義詞,提供文本標準化詞庫,保障各類專業領域的文本識別準確性。
技術領域
本發明涉及自然語言處理領域,尤其涉及一種文本中近義詞判別方法、系統、設備和介質。
背景技術
在自然語言處理中,通常會設計一些專業詞語。如醫學數據中,存在各種輸入途徑,各種用途的文本,比如電子病歷,不同團隊定義的結構化數據等,其中會涉及患者住院期間的完整診療信息,通常包含多個疾病診斷。然而,這些診斷文本存在著領域和醫生特定的用語、同義詞表達、縮略語以及拼寫和打字錯誤等造成診斷文本不一致問題。這些問題嚴重影響了醫學臨床文本處理與分析的準確性。現有的近義詞識別主要基于詞庫,而專業領域詞庫稀缺,難以解決數據源頭的詞義識別與命名標準化問題,目前的相關近義詞獲得方法給予訓練數據,需人工標注,耗費大量資源。
發明內容
鑒于以上現有技術存在的問題,本發明提出一種文本中近義詞判別方法、系統、設備和介質,主要解決現有專業性較強的自然語言處理缺乏標準化的數據對照,識別困難、處理效率低的問題。
為了實現上述目的及其他目的,本發明采用的技術方案如下。
一種文本中近義詞判別方法,包括:
獲取指定領域范圍的待判別文本,構建文本數據集;
獲取所述文本數據集中每個詞對應的詞序列,根據所述詞序列之間的相似度,得到近義詞集合,所述近義詞集合為多個;
構建標準詞庫,根據所述近義詞集合中詞序列與所述標準詞庫中標準詞序列之間的距離,更新標準詞對應的詞集合。
可選地,獲取所述文本數據集中每個詞對應的詞序列,包括:
對所述待判別文本進行預處理,其中預處理包括數據清洗和特殊標點符號處理;
對經過預處理的文本進行分詞,并去除重復詞;
將每個詞拆分成單個字作為序列元素,構建每個詞對應的詞序列。
可選地,計算所述詞序列之間的相似度之前,還包括:
根據詞序列長度設置判別閾值,當兩詞序列長度差達到所述判別閾值時,計算對應詞序列間的相似度,反之,則不計算相似度。
可選地,所述判別閾值的計算方式包括:len(S)*(1-pl)≤G≤len(S)*(1+pl)
其中,G表示判別閾值,len(S)表示序列S的長度;pl表示判別閾值系數可選地,計算詞序列間的相似度包括:
計算兩個詞序列的交集和并集,并根據詞序列的交并比計算相似度值;
當兩個詞序列間有一個詞序列為另一個詞序列的子集時,相似度值為1。
可選地,更新標準詞對應的詞集合,包括:
獲取每個近義詞集合中的頻繁詞序列,作為對應近義詞集合的中心詞序列;
當所述中心詞序列與所述標準詞庫中的標準詞序列相似度達到設定閾值時,中心詞序列對應的近義詞集合與標準詞序列對應的詞集合合并;
當所述標準詞庫中沒有與所述中心詞序列匹配的標準詞序列時,標注所述中心詞序列,并將標注后的中心詞序列作為新的標準詞序列錄入所述標準詞庫,對應的近義詞集合作為所述新的標準詞序列對應的詞集合。
一種文本中近義詞判別系統,包括:
數據獲取模塊,用于獲取指定領域范圍的待判別文本,構建文本數據集;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于明品云(北京)數據科技有限公司,未經明品云(北京)數據科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110374994.3/2.html,轉載請聲明來源鉆瓜專利網。





