[發(fā)明專利]一種從文本中獲取目標詞匯的方法及系統(tǒng)有效

申請?zhí)枺?/td>	201910152477.4	申請日：	2019-02-28
公開（公告）號：	CN109918658B	公開（公告）日：	2023-04-07
發(fā)明（設計）人：	曾俊瑀;張文斌;賈顯伏;喬詠田;邢毅帆	申請（專利權）人：	云孚科技（北京）有限公司
主分類號：	G06F40/216	分類號：	G06F40/216;G06F40/289
代理公司：	北京世譽鑫誠專利代理有限公司 11368	代理人：	孫國棟
地址：	100085 北京市***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種文本獲取目標詞匯方法系統(tǒng)
鉆瓜網(wǎng) 技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種從文本中獲取目標詞匯的方法，其特征在于，包括：

刪除文本中的空白符號，其中，所述空白符號包括換行符；

將所述文本中的標點符號設置為空格符號；

在所述文本的首部及尾部添加空格符號；

設定文本片段的最大長度為K，根據(jù)所述最大長度K對所述文本進行分割，生成多個長度不大于K的文本片段；

分別計算各個文本片段的聚合度、左熵及右熵，其中，所述聚合度的計算公式分別為：

其中，p(a₁)、p(a₁a₂)…p(a₁a₂...a_k)及p(a₁a₂...a_k)分別為文本片段a₁、a₁a₂…a₁a₂...a_k在文本中所占的比例；所述左熵及所述右熵的計算公式均為：其中，當entropy代表左熵時，假設當前文本片段左鄰字構成的集合為D，將每個相同的字歸為一類，總的類別數(shù)目為N，p_i為第i類文字所占的比例為(i＝1,2,……,N)；

根據(jù)公式

Score＝(left_entropy+right_entropy)×aggregation×frequence，分別計算各個文本片段的綜合分數(shù)，Score、left_entropy、right_entropy、aggregation及frequence分別代表各個文本片段的綜合分數(shù)、左熵、右熵及各個文本片段在文本中的出現(xiàn)次數(shù)；

選取綜合分數(shù)大于設定閾值的文本片段，得到候選詞匯；

將所述候選詞匯與通用詞表進行對比，識別所述候選詞匯與所述通用詞表之間存在的不同的詞匯并將所述詞匯作為目標詞匯。

2.根據(jù)權利要求1所述的從文本中獲取目標詞匯的方法，其特征在于，在分別設定文本片段的最大長度為K，根據(jù)所述長度對所述文本進行分割，生成多個長度不大于K的文本片段之后，所述方法還包括：

分別獲取各個文本片段的包含數(shù)詞的左鄰字集合并統(tǒng)計所述左鄰字集合的個數(shù)，若所述個數(shù)大于設定的閾值，則過濾掉所述文本片段。

3.根據(jù)權利要求1所述的從文本中獲取目標詞匯的方法，其特征在于，在分別計算各個文本片段的聚合度、左熵及右熵之后，所述方法還包括：

識別聚合度、左熵及右熵大于設定閾值的文本片段；

分別獲取各個文本片段的左鄰字集合及右鄰字集合，判斷所述左鄰字集合及所述左鄰字集合中是否存在停用詞，若是，則過濾掉所述文本片段。

4.根據(jù)權利要求1所述的從文本中獲取目標詞匯的方法，其特征在于，分別計算各個文本片段的聚合度、左熵及右熵包括：

若兩個或多個文本片段的首位字符相同，則確定所述兩個或多個文本片段具有相同的左熵；

若兩個或多個文本片段的末位字符相同，則確定所述兩個或多個文本片段具有相同的右熵。

下載完整專利技術內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載