[發(fā)明專利]一種從文本中獲取目標詞匯的方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201910152477.4 | 申請日: | 2019-02-28 |
| 公開(公告)號: | CN109918658B | 公開(公告)日: | 2023-04-07 |
| 發(fā)明(設計)人: | 曾俊瑀;張文斌;賈顯伏;喬詠田;邢毅帆 | 申請(專利權)人: | 云孚科技(北京)有限公司 |
| 主分類號: | G06F40/216 | 分類號: | G06F40/216;G06F40/289 |
| 代理公司: | 北京世譽鑫誠專利代理有限公司 11368 | 代理人: | 孫國棟 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 獲取 目標 詞匯 方法 系統(tǒng) | ||
1.一種從文本中獲取目標詞匯的方法,其特征在于,包括:
刪除文本中的空白符號,其中,所述空白符號包括換行符;
將所述文本中的標點符號設置為空格符號;
在所述文本的首部及尾部添加空格符號;
設定文本片段的最大長度為K,根據(jù)所述最大長度K對所述文本進行分割,生成多個長度不大于K的文本片段;
分別計算各個文本片段的聚合度、左熵及右熵,其中,所述聚合度的計算公式分別為:
其中,p(a1)、p(a1a2)…p(a1a2...ak)及p(a1a2...ak)分別為文本片段a1、a1a2…a1a2...ak在文本中所占的比例;所述左熵及所述右熵的計算公式均為:其中,當entropy代表左熵時,假設當前文本片段左鄰字構成的集合為D,將每個相同的字歸為一類,總的類別數(shù)目為N,pi為第i類文字所占的比例為(i=1,2,……,N);
根據(jù)公式
Score=(left_entropy+right_entropy)×aggregation×frequence,分別計算各個文本片段的綜合分數(shù),Score、left_entropy、right_entropy、aggregation及frequence分別代表各個文本片段的綜合分數(shù)、左熵、右熵及各個文本片段在文本中的出現(xiàn)次數(shù);
選取綜合分數(shù)大于設定閾值的文本片段,得到候選詞匯;
將所述候選詞匯與通用詞表進行對比,識別所述候選詞匯與所述通用詞表之間存在的不同的詞匯并將所述詞匯作為目標詞匯。
2.根據(jù)權利要求1所述的從文本中獲取目標詞匯的方法,其特征在于,在分別設定文本片段的最大長度為K,根據(jù)所述長度對所述文本進行分割,生成多個長度不大于K的文本片段之后,所述方法還包括:
分別獲取各個文本片段的包含數(shù)詞的左鄰字集合并統(tǒng)計所述左鄰字集合的個數(shù),若所述個數(shù)大于設定的閾值,則過濾掉所述文本片段。
3.根據(jù)權利要求1所述的從文本中獲取目標詞匯的方法,其特征在于,在分別計算各個文本片段的聚合度、左熵及右熵之后,所述方法還包括:
識別聚合度、左熵及右熵大于設定閾值的文本片段;
分別獲取各個文本片段的左鄰字集合及右鄰字集合,判斷所述左鄰字集合及所述左鄰字集合中是否存在停用詞,若是,則過濾掉所述文本片段。
4.根據(jù)權利要求1所述的從文本中獲取目標詞匯的方法,其特征在于,分別計算各個文本片段的聚合度、左熵及右熵包括:
若兩個或多個文本片段的首位字符相同,則確定所述兩個或多個文本片段具有相同的左熵;
若兩個或多個文本片段的末位字符相同,則確定所述兩個或多個文本片段具有相同的右熵。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于云孚科技(北京)有限公司,未經(jīng)云孚科技(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910152477.4/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。





