[發明專利]一種主題詞的提取方法、裝置、設備及存儲介質有效
| 申請號: | 201911349731.6 | 申請日: | 2019-12-24 |
| 公開(公告)號: | CN111126060B | 公開(公告)日: | 2023-04-25 |
| 發明(設計)人: | 郎鵬飛;崔朝輝;趙立軍;張霞 | 申請(專利權)人: | 東軟集團股份有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 柳欣 |
| 地址: | 110179 遼*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 主題詞 提取 方法 裝置 設備 存儲 介質 | ||
1.一種主題詞的提取方法,其特征在于,所述方法包括:
確定目標文本的候選詞集合,所述候選詞集合中包括所述目標文本的多個分詞;
根據所述候選詞集合所包括的候選詞總數以及目標候選詞在所述目標文本的不同位置處分別對應的權重值,計算出所述目標候選詞的詞頻,每個位置處的目標候選詞所對應的權重值基于所述目標候選詞的影響因子進行確定,所述影響因子包括所述目標候選詞在所述目標文本中的位置,和/或,所述目標候選詞與所述目標候選詞對應的關鍵詞之間的位置關系,所述目標候選詞對應的關鍵詞為在所述目標文本包括的關鍵詞中距離所述目標候選詞最近的關鍵詞,所述目標候選詞為所述候選詞集合中的任意一個候選詞,所述目標候選詞與所述關鍵詞為不同的分詞;
根據所述目標候選詞在文本庫的所有文本中對應的權重值總和以及所述文本庫中所有候選詞對應的權重總和,計算出所述目標候選詞的逆文本頻率;
根據所述目標候選詞的詞頻與逆文本頻率的乘積,從所述候選詞集合中確定出所述目標文本的主題詞。
2.根據權利要求1所述的方法,其特征在于,所述目標候選詞在所述目標文本中的位置,包括段首、段中、段尾、文章首段、文章尾段以及文章中間段中的任意一種或多種。
3.根據權利要求1所述的方法,其特征在于,所述目標候選詞與所述目標候選詞對應的關鍵詞之間的位置關系,包括所述目標候選詞與所述目標候選詞對應的關鍵詞是否位于同一段落、所述目標候選詞與所述目標候選詞對應的關鍵詞是否位于同一語句、所述目標候選詞與所述目標候選詞對應的關鍵詞之間的距離。
4.根據權利要求1所述的方法,其特征在于,所述方法還包括:
獲取影響因子對應的權重值的多個取值以及每個取值所對應的主題詞提取精度;
根據所述多個取值以及每個取值對應的主題詞提取精度構建線性函數;
確定所述線性函數中使得主題詞提取精度為極大值時所對應的極值點,并將所述極值點作為所述影響因子對應的權重值的目標值。
5.根據權利要求1至4任一項所述的方法,其特征在于,所述方法還包括:
對所述目標文本進行分詞,得到所述目標文本的初始分詞結果;
對所述初始分詞結果所包含的各個詞進行詞性標注;
根據分詞的詞性對所述初始分詞結果進行分詞過濾,得到所述候選詞集合,所述候選詞集合中候選詞的詞性為名詞、動詞或副詞。
6.一種主題詞的提取裝置,其特征在于,所述裝置包括:
第一確定模塊,用于確定目標文本的候選詞集合,所述候選詞集合中包括所述目標文本的多個分詞;
第一計算模塊,用于根據所述候選詞集合所包括的候選詞總數以及目標候選詞在所述目標文本的不同位置處分別對應的權重值,計算出所述目標候選詞的詞頻,每個位置處的目標候選詞所對應的權重值基于所述目標候選詞的影響因子進行確定,所述影響因子包括所述目標候選詞在所述目標文本中的位置,和/或,所述目標候選詞與所述目標候選詞對應的關鍵詞之間的位置關系,所述目標候選詞對應的關鍵詞為在所述目標文本包括的關鍵詞中距離所述目標候選詞最近的關鍵詞,所述目標候選詞為所述候選詞集合中的任意一個候選詞,所述目標候選詞與所述關鍵詞為不同的分詞;
第二計算模塊,用于根據所述目標候選詞在文本庫的所有文本中對應的權重值總和以及所述文本庫中所有候選詞對應的權重總和,計算出所述目標候選詞的逆文本頻率;
第二確定模塊,用于根據所述目標候選詞的詞頻與逆文本頻率的乘積,從所述候選詞集合中確定出所述目標文本的主題詞。
7.根據權利要求6所述的裝置,其特征在于,所述目標候選詞在所述目標文本中的位置,包括段首、段中、段尾、文章首段、文章尾段以及文章中間段中的任意一種或多種。
8.根據權利要求6所述的裝置,其特征在于,所述目標候選詞與所述目標候選詞對應的關鍵詞之間的位置關系,包括所述目標候選詞與所述目標候選詞對應的關鍵詞是否位于同一段落、所述目標候選詞與所述目標候選詞對應的關鍵詞是否位于同一語句、所述目標候選詞與所述目標候選詞對應的關鍵詞之間的距離。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東軟集團股份有限公司,未經東軟集團股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911349731.6/1.html,轉載請聲明來源鉆瓜專利網。





