[發明專利]一種文本中近義詞判別方法、系統、設備和介質在審
| 申請號: | 202110374994.3 | 申請日: | 2021-04-08 |
| 公開(公告)號: | CN112800758A | 公開(公告)日: | 2021-05-14 |
| 發明(設計)人: | 姚娟娟;柴洪峰;鐘南山 | 申請(專利權)人: | 明品云(北京)數據科技有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06K9/62 |
| 代理公司: | 上海漢之律師事務所 31378 | 代理人: | 馮華 |
| 地址: | 102400 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 中近義詞 判別 方法 系統 設備 介質 | ||
1.一種文本中近義詞判別方法,其特征在于,包括:
獲取指定領域范圍的待判別文本,構建文本數據集;
獲取所述文本數據集中每個詞對應的詞序列,根據所述詞序列之間的相似度,得到近義詞集合,所述近義詞集合為多個;
構建標準詞庫,根據所述近義詞集合中詞序列與所述標準詞庫中標準詞序列之間的距離,更新標準詞對應的詞集合。
2.根據權利要求1所述的文本中近義詞判別方法,其特征在于,獲取所述文本數據集中每個詞對應的詞序列,包括:
對所述待判別文本進行預處理,其中預處理包括數據清洗和特殊標點符號處理;
對經過預處理的文本進行分詞,并去除重復詞;
將每個詞拆分成單個字作為序列元素,構建每個詞對應的詞序列。
3.根據權利要求1所述的文本中近義詞判別方法,其特征在于,計算所述詞序列之間的相似度之前,還包括:
根據詞序列長度設置判別閾值,當兩詞序列長度差達到所述判別閾值時,計算對應詞序列間的相似度,反之,則不計算相似度。
4.根據權利要求3所述的文本中近義詞判別方法,其特征在于,所述判別閾值的計算方式包括:len(S)*(1-pl)≤G≤len(S)*(1+pl)
其中,G表示判別閾值,len(S)表示序列S的長度;pl表示判別閾值系數。
5.根據權利要求3所述的文本中近義詞判別方法,其特征在于,計算詞序列間的相似度包括:
計算兩個詞序列的交集和并集,并根據詞序列的交并比計算相似度值;
當兩個詞序列間有一個詞序列為另一個詞序列的子集時,相似度值為1。
6.根據權利要求1所述的文本中近義詞判別方法,其特征在于,更新標準詞對應的詞集合,包括:
獲取每個近義詞集合中的頻繁詞序列,作為對應近義詞集合的中心詞序列;
當所述中心詞序列與所述標準詞庫中的標準詞序列相似度達到設定閾值時,中心詞序列對應的近義詞集合與標準詞序列對應的詞集合合并;
當所述標準詞庫中沒有與所述中心詞序列匹配的標準詞序列時,標注所述中心詞序列,并將標注后的中心詞序列作為新的標準詞序列錄入所述標準詞庫,對應的近義詞集合作為所述新的標準詞序列對應的詞集合。
7.一種文本中近義詞判別系統,其特征在于,包括:
數據獲取模塊,用于獲取指定領域范圍的待判別文本,構建文本數據集;
近義詞集合獲取模塊,用于獲取所述文本數據集中每個詞對應的詞序列,根據所述詞序列之間的相似度,得到近義詞集合,所述近義詞集合為多個;
標準詞庫更新模塊,用于構建標準詞庫,根據所述近義詞集合中詞序列與所述標準詞庫中標準詞序列之間的距離,更新標準詞對應的詞集合。
8.根據權利要求7所述的文本中近義詞判別系統,其特征在于,所述近義詞集合獲取模塊包括閾值判別單元,用于根據詞序列長度設置判別閾值,當兩詞序列長度差達到所述判別閾值時,計算對應詞序列間的相似度,反之,則不計算相似度。
9.一種文本中近義詞判別設備,其特征在于,包括:
一個或多個處理器;和
其上存儲有指令的一個或多個機器可讀介質,當所述一個或多個處理器執行時,使得所述設備執行如權利要求1-6中任一所述的方法。
10.一個或多個機器可讀介質,其特征在于,其上存儲有指令,當由一個或多個處理器執行時,使得設備執行如權利要求1-6中任一所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于明品云(北京)數據科技有限公司,未經明品云(北京)數據科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110374994.3/1.html,轉載請聲明來源鉆瓜專利網。





