[發明專利]一種提取關鍵詞的方法及裝置無效
| 申請號: | 201310092403.9 | 申請日: | 2013-03-21 |
| 公開(公告)號: | CN103150388A | 公開(公告)日: | 2013-06-12 |
| 發明(設計)人: | 韓建波 | 申請(專利權)人: | 天脈聚源(北京)傳媒科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100007 北京市東城區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 提取 關鍵詞 方法 裝置 | ||
技術領域
本發明涉及文本檢索技術領域,尤其涉及一種提取關鍵詞的方法及裝置。
背景技術
隨著計算機及互聯網技術的發展,文本的數據規模越來越大,信息量的增長速度也越來越快。人們面對海量的文本信息,如何在浩如煙海的文本信息中獲取需要的文本,是我們在日常學習工作中經常遇到的問題。
要在海量的文本中找到用戶需求的信息,提取關鍵詞是非常重要的方法,提取關鍵詞,是指利用計算機在文本中提取出與文本內容相關程度較高的一些詞語。提取關鍵詞的精度直接影響到文本內容獲取的效率和關鍵詞的置信度。
本申請的發明人發現,目前,提取關鍵詞一般通過詞頻、位置、詞性、長度等因素對文本中每個詞進行線性加權,權重最高的幾個詞為關鍵詞。但是,如果在文本中的某個詞出現的頻率比較低,但與主題非常相關,則無法將該詞作為關鍵詞。
發明內容
本發明實施例提供一種提取關鍵詞的方法及裝置,能夠將出現頻率低但與主題非常相關的詞確定為關鍵詞,并且提高了文本內容獲取的效率和關鍵詞的置信度。
一種提取關鍵詞的方法,包括以下步驟:獲取對應有權重值的詞語;根據預設的詞語與義原的對應關系,獲取對應有權重值的詞語對應的義原;利用義原對各詞語的權重值進行校正;根據校正后的權重值從詞語中提取關鍵詞。在本實施例中,通過義原的比較對各詞語的權重值進行校正,提高了提取出的關鍵詞的置信度,能夠將出現頻率低但與主題非常相關的詞確定為關鍵詞。
優選的,所述利用義原對各詞語的權重值進行校正的步驟包括:根據義原的重復程度對各詞語的權重值進行校正,重復程度越高對權重值提高的幅度越大。在本實施例中,根據義原的重復程度對各詞語的權重值進行平滑,可以使校正后各詞語的權重值更能體現文本中所要突出展現的內容,極大地提高了關鍵詞的置信度。
優選的,所述利用義原對各詞語的權重值進行校正的步驟包括:將對應有權重值的詞語進行兩兩比較;判斷進行比較的兩個詞語之間是否有相同的義原,若是,按照相同義原的數量提高這兩個詞語的權重值。在本實施例中,直接按照相同義原的數量提高進行比較的兩個詞語的權重值,這樣使校正權重值的過程更加簡單明了,并提高了提取關鍵詞的效率。
優選的,所述利用義原對各詞語的權重值進行校正的步驟包括:對有權重值的詞語的義原進行聚類分析;通過聚類分析將文本中的詞語劃分為不同的類別;提高聚合度最高的M個類別對應的詞語的權重值,M為預設參數。在本實施例中,通過聚類分析的方式將各詞語的義原分類,這樣可以更加全面的展現文本的核心所在,突破現有的通過詞頻、位置、詞性、長度等因素得到各詞權重的壁壘,通過本方法將出現頻率低但與主題非常相關的詞確定為關鍵詞。
優選的,所述利用義原對各詞語的權重值進行校正的方法還包括:將聚合度最高的N個類別對應的詞語直接提取為關鍵詞,N為預設參數。在本實施例中,通過聚類分析后,直接提取關鍵詞的方法,提高了提取關鍵詞的效率,省去了對對各詞語權重值進行平滑的時間。
優選的,所述利用義原對各詞語的權重值進行校正的步驟包括:將候選詞與預設關鍵詞進行兩兩比較;判斷進行比較的兩個詞語之間是否有相同的義原,若是,按照相同義原的數量提高候選詞的權重值。在本實施例中,通過有針對性地對候選詞的權重值進行平滑,可以將更符合文本核心所在的詞語提取為關鍵詞,使最終提取出的關鍵詞的置信度有所保證。
本實施例提供一種提取關鍵詞的裝置,包括:
獲取模塊,用于獲取對應有權重值的詞語,并根據預設的詞語與義原的對應關系,獲取對應有權重值的詞語對應的義原;
校正模塊,用于利用義原對各詞語的權重值進行校正;
提取模塊,用于根據校正后的權重值從詞語中提取關鍵詞。
優選的,校正模塊根據義原的重復程度對各詞語的權重值進行校正,重復程度越高對權重值提高的幅度越大。
優選的,校正模塊將對應有權重值的詞語進行兩兩比較;判斷進行比較的兩個詞語之間是否有相同的義原,若是,按照相同義原的數量提高這兩個詞語的權重值。
優選的,校正模塊對有權重值的詞語的義原進行聚類分析;通過聚類分析將文本中的詞語劃分為不同的類別;提高聚合度最高的M個類別對應的詞語的權重值,M為預設參數。
優選的,提取模塊將聚合度最高的N個類別對應的詞語直接提取為關鍵詞,N為預設參數。
優選的,校正模塊將候選詞與預設關鍵詞進行兩兩比較;判斷進行比較的兩個詞語之間是否有相同的義原,若是,按照相同義原的數量提高候選詞的權重值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天脈聚源(北京)傳媒科技有限公司,未經天脈聚源(北京)傳媒科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310092403.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:高蹺輪
- 下一篇:一種斷路器操作機構和斷路器





