[發明專利]特征詞提取方法及裝置在審
| 申請號: | 201711446082.2 | 申請日: | 2017-12-27 |
| 公開(公告)號: | CN108132930A | 公開(公告)日: | 2018-06-08 |
| 發明(設計)人: | 郭慶;張建磊;宋懷明 | 申請(專利權)人: | 曙光信息產業(北京)有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 北京德恒律治知識產權代理有限公司 11409 | 代理人: | 章社杲;盧軍峰 |
| 地址: | 100193 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 特征詞提取 權重 加權 同義詞 詞語 同義詞集合 文本 詞語集合 候選特征 權重計算 合并 詞集合 特征詞 優化 分析 | ||
1.一種特征詞提取方法,其特征在于,包括:
利用TF-IDF加權方法對文本的詞語集合中的詞語進行權重計算得到詞語權重;
根據文本中的同義詞生成同義詞集合,并根據所述詞語權重對所述同義詞集合中的同義詞進行合并加權;
根據合并加權后的權重值生成候選特征詞集合以選取特征詞。
2.根據權利要求1所述的特征詞提取方法,其特征在于,在生成候選特征詞集合之后,還包括:
判斷候選特征詞是否在關聯詞詞庫中;
若所述候選特征詞在所述關聯詞詞庫中,則判斷所述候選特征詞的關聯詞中是否存在非候選特征詞;
若所述候選特征詞的關聯詞中存在非候選特征詞,則根據所述候選特征詞和所述非候選特征詞的關聯度對所述權重值進行調整。
3.根據權利要求2所述的特征詞提取方法,其特征在于,其中,
若所述候選特征詞不在所述關聯詞詞庫中,則不對所述權重值進行調整;
若所述候選特征詞的關聯詞中不存在非候選特征詞,則不對所述權重值進行調整。
4.根據權利要求2所述的特征詞提取方法,其特征在于,在對所述權重值進行調整之后還包括選取特征詞,選取特征詞具體包括:
對調整后的權重值由高至低進行排序,并將調整后的所述權重值大于設定閾值的候選特征詞作為文本的所述特征詞。
5.根據權利要求1所述的特征詞提取方法,其特征在于,根據合并加權后的權重值生成候選特征詞集合,具體包括:
將所述權重值大于設定閾值的詞語作為候選特征詞,并將所述候選特征詞的集合作為特征候選詞集合。
6.一種特征詞提取裝置,其特征在于,包括:
權重計算模塊,利用TF-IDF加權方法對文本的詞語集合中的詞語進行權重計算得到詞語權重;
合并模塊,用于根據文本中的同義詞生成同義詞集合,并根據所述詞語權重對所述同義詞集合中的同義詞進行合并加權;
選取模塊,用于根據合并加權后的權重值生成候選特征詞集合以選取特征詞。
7.根據權利要求6所述的特征詞提取裝置,其特征在于,還包括:
判斷模塊,用于判斷候選特征詞是否在關聯詞詞庫中;若所述候選特征詞在所述關聯詞詞庫中,則判斷所述候選特征詞的關聯詞中是否存在非候選特征詞;
權重調整模塊,用于在所述候選特征詞的關聯詞中存在非候選特征詞時,根據所述候選特征詞和所述非候選特征詞的關聯度對所述權重值進行調整。
8.根據權利要求7所述的特征詞提取裝置,其特征在于,其中,
所述判斷模塊若判斷所述候選特征詞不在所述關聯詞詞庫中,則所述權重調整模塊不對所述權重值進行調整;
所述判斷模塊若判斷所述候選特征詞的關聯詞中不存在非候選特征詞,則所述權重調整模塊不對所述權重值進行調整。
9.根據權利要求7所述的特征詞提取裝置,其特征在于,還包括:
特征詞確定模塊,用于對調整后的權重值由高至低進行排序,并將調整后的所述權重值大于設定閾值的候選特征詞作為文本的特征詞。
10.根據權利要求6所述的特征詞提取裝置,其特征在于,所述選取模塊包括:
選取子模塊,用于將所述權重值大于設定閾值的詞語作為候選特征詞,并將所述候選特征詞的集合作為特征候選詞集合。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于曙光信息產業(北京)有限公司,未經曙光信息產業(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711446082.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種海量非結構化文本的相似性計算方法
- 下一篇:一種文本語義匹配的方法及裝置





