[發明專利]一種關鍵詞抽取方法有效
| 申請號: | 201310316483.1 | 申請日: | 2013-07-25 |
| 公開(公告)號: | CN103399901A | 公開(公告)日: | 2013-11-20 |
| 發明(設計)人: | 周進華;熊張亮;胡永;張濤 | 申請(專利權)人: | 三星電子(中國)研發中心;三星電子株式會社 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京德琦知識產權代理有限公司 11018 | 代理人: | 蔣歡;王琦 |
| 地址: | 210061 江蘇省*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 關鍵詞 抽取 方法 | ||
技術領域
本申請涉及文本處理中的關鍵詞抽取技術領域,特別涉及一種關鍵詞抽取方法。
背景技術
隨著計算機和網絡技術的發展,數字化的文件正以驚人的速度在瘋狂增長。人們每天要花費大量的時間和精力去閱讀和查找文件。為了節省時間和提高人們工作的效率,于是原始文檔的各種簡潔表示,比如摘要和關鍵詞等形式應運而生。
關鍵詞被定義成壓縮表示了原始文本重要信息和核心內容的詞。人們可以通過它快速了解文本的大致內容,而不需要通讀全文。在信息檢索中,關鍵詞常被我們用來查找內容相關的文檔。此外,關鍵詞在話題探測和跟蹤、文本分類和聚類等任務中都有重要的應用。目前,除了形式規范的科技論文提供了關鍵詞外,大部分文檔都沒有作者或讀者分配的關鍵詞。傳統的依靠人工去閱讀文本,然后抽取關鍵詞的方法在文檔數量劇增的今天越來越不能滿足實際應用的需要。因此,如何自動抽取關鍵詞成了時下文本處理領域的一個研究熱點。
從人工選擇關鍵詞的過程可以知道,關鍵詞可以是預定義的類別,也可以是從文本中抽取的反映核心內容和重要信息的詞。第一種方法可以看成是一個文本分類的問題,它將現成的文本分配到預定義的一個或幾個類別中,從而可以采用文本分類的思路和技術進行關鍵詞的抽取。第二種方法就是本申請所涉及的方法,它從原始文本中抽取反映文檔主要內容的詞,而不需要預先建立一個相關領域的類別體系。
目前關鍵詞自動抽取的技術可以分為簡單統計的方法、語言分析的方法和機器學習的方法。
語言分析的方法采用自然語言處理中詞法、句法及語義分析等技術,在對文檔進行深入理解的基礎上抽取文檔中反映其主要內容的詞。雖然該類方法有很大的潛力提高抽取的關鍵詞的質量,但是目前自然語言處理技術還在發展過程中,暫時還沒有成熟到可以有效應用到關鍵詞抽取的各種場合。
基于機器學習的方法需要提供大規模特定的樣例進行學習。不同領域的應用需要采用相應領域的樣例,而且訓練模型需要花費大量的時間。該類方法對authoring(文本創作)及網頁等不確定領域環境中關鍵詞抽取的應用,效果較差。
簡單統計的方法不依賴于特定語言和特定領域,僅通過對文本中各種語言單元進行統計分析以自動產生關鍵詞。這種方法簡單、快速,幾乎可以應用于所有需要關鍵詞的任務中。
在簡單統計的方法中,詞頻和詞語共現關系等常被用于關鍵詞的抽取。統計方法tf*idf中的tf就表示詞頻,它常用于評估一個詞對一個文檔集或語料庫中某個文檔的重要性。下面簡要介紹現有技術中幾種典型的簡單統計方法。
Yukio?Ohsawa等人在1998年提出的KeyGraph方法利用文檔中詞間的共現關系構造一個圖,圖中的每個節點表示一個詞項。KeyGraph方法將共現圖切割成多個涵蓋了作者觀點的互相連通的最大子圖(簇),然后統計詞項和這些簇的關系,并將排名靠前的若干個詞返回做關鍵詞。
TextRank是Rada?Mihalcea和Paul?Tarau在2004年提出的又一個基于圖的關鍵詞抽取算法。該算法利用長度為n的窗口中詞項的共現關系構建詞共現圖,然后通過節點的出度、入度及邊的權重計算詞項的重要性,并選取最重要的若干個詞作為文檔的關鍵詞。
2004年,Yutaka?Matsuo等人采用χ2計算單文本中詞項的共現分布對高頻詞集的偏置程度決定詞的重要性。該方法還通過對共現矩陣中高頻列的聚類來改善算法的準確性。
Stuart?Rose等人在2010年提出的RAKE算法利用詞度對詞頻的比例從文本摘要中抽取關鍵詞。其中,詞度為詞頻和該詞的所有共現次數之和。
雖然目前有很多優秀的方法可用于關鍵詞的抽取,特別是基于機器學習的方法和基于語言分析的方法,但是這些方法要么需要帶標注的大規模語料用于學習,要么需要復雜的自然語言處理技術對文本進行深入分析,這些要求對許多應用都不可行或很難滿足。具體來說,現有技術有如下需要改善的地方:
1.現有基于機器學習和基于語言分析的方法都需要特定語言或領域的知識,對于多語言或多領域的應用,需要針對每種語言或領域單獨訓練模型或制定語言規則,然而對任何團隊來說,在短時間內獲取各種語言的語料和領域知識都是一件十分困難的事情。
2.目前簡單統計的方法大多是針對摘要等語言表達緊湊的短文進行關鍵詞抽取,這些算法對篇幅較長的文本的處理效果較差。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于三星電子(中國)研發中心;三星電子株式會社,未經三星電子(中國)研發中心;三星電子株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310316483.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:無刷直流電機的CAN總線控制系統
- 下一篇:電網空間數據智能采集系統





