[發明專利]基于詞分布的詞語局部權重計算方法無效
| 申請號: | 200910198890.0 | 申請日: | 2009-11-17 |
| 公開(公告)號: | CN101710317A | 公開(公告)日: | 2010-05-19 |
| 發明(設計)人: | 夏天 | 申請(專利權)人: | 上海第二工業大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 上海天翔知識產權代理有限公司 31224 | 代理人: | 朱妙春 |
| 地址: | 201209 上*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 分布 詞語 局部 權重 計算方法 | ||
技術領域:
本發明涉及一種自然語言的處理方法,特別涉及一種詞語權重的計算方法。
背景技術:
90年代以來,隨著網絡信息的爆炸,人們需要精準地在網絡上獲取信息。這促使自然語言處理迅速發展,信息檢索、信息過濾、文本分類、自動文摘、問答系統等自然語言處理應用技術的研究就成為近年來研究的熱點。支持向量機、向量空間模型、潛在語義分析模型等新模型層出不窮。
這些新模型都以詞語權重的計算為基礎,詞語權重計算是否準確直接影響著自然語言處理的最終結果,如圖1。文檔中每一個詞語所表達的文檔的信息量是不同的,我們用詞語權重來表示詞語的重要程度,只有準確地計算出每個詞語的權重,才能使文檔中的語義信息表現得更加明顯。
常見的權重算法,布爾權重,特征頻度,TF-IDF,熵等,都考慮了能夠描述詞語包含信息量的某個因素,如:詞頻、文檔頻、詞的位置等。有的權重計算方法根據詞語在單一文檔中的規律計算出權重,稱之為詞語局部權重;還有的根據詞語在文檔集中的規律計算出權重,稱之為詞語全局權重。
現有的詞語權重計算方法得到的結果不夠精確,這將直接影響以詞語權重算法為基礎的自然語言處理模型的處理結果。
發明內容:
本發明針對現有詞語權重計算方法不夠準確的問題,而提供一種基于詞分布的詞語局部權重計算方法,該方法能夠提高計算詞語權重的準確性,從而有效的提高相應自然語言處理模型的準確率。
為了達到上述目的,本發明采用如下的技術方案:
基于詞分布的詞語局部權重計算方法,該方法包括如下步驟:
(1)計算詞語局部權重前,必須將待分析的文檔進行中文分詞、詞性標注、去停用詞、信息抽取等預處理操作,從而使待分析文檔成為包含文檔主要內容的詞序列;
(2)計算詞序列中詞語的分布均勻度系數;
(3)計算詞序列中詞語的分布廣度系數;
(4)計算基于詞分布的詞語局部權重。
根據上述技術方案得到的本發明能有效優化目前詞語權重計算方法,提高其準確率,推動自然語言處理的研究和應用。本發明能夠使得以詞語權重算法為基礎的自然語言處理應用,如信息檢索、文本分類、垃圾郵件過濾等獲得更佳的處理結果。本發明在實際應用中可與其他權重算法組合,能夠獲得更高的準確率。
附圖說明:
以下結合附圖和具體實施方式來進一步說明本發明。
圖1為詞語權重計算方法與自然語言領域各技術的關系示意圖。
圖2為在文檔中詞語分布均勻度與詞語權重的關系示意圖。
圖3為在文檔中詞語分布均勻度與詞語權重的關系示意圖。
圖4為本發明的流程圖。
具體實施方式:
為了使本發明實現的技術手段、創作特征、達成目的與功效易于明白了解,下面結合具體圖示,進一步闡述本發明。
詞語局部權重根據詞語在一篇文檔中的統計規律進行權重計算,它考慮一篇文檔中影響詞語權重的一些因素,如:詞頻、詞長、詞的位置等等。在一篇文檔中,大范圍均勻分布的詞語蘊含更多的信息量,更有可能和文檔的內容相關;小范圍集中分布的詞語,蘊含較少信息量,更可能和文中某段的內容相關。
本專利對文檔中詞語的分布進行研究,根據“K.Pearson定理”設計分布均勻度系數及其計算方法,來衡量詞的分布情況。文檔中不同的詞對應著不同的分布均勻度系數,分布均勻度系數的值越大,詞的分布越均勻,對于局部權重而言,其權重就越大。
另一方面,該統計量僅僅描述了詞語分布的均勻程度,本專利還利用詞語分布廣度,來適當提高相應詞的權重。
基于上述原理,本發明提供的一種基于詞分布的詞語局部權重算法通過如下步驟實現(參見圖4):
(1)計算詞語局部權重前,必須將待分析的文檔進行中文分詞、詞性標注、去停用詞、信息抽取等預處理操作,從而使待分析文檔成為包含文檔主要內容的詞序列(其為本領域較為成熟的技術,此處不加以贅述)。
(2)計算詞序列中詞語的分布均勻度系數;
設某一文檔共有m段、Cm個字,對其執行步驟(1)后,得到了詞序列。下面對詞序列中的第j個詞語求分布均勻度系數:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海第二工業大學,未經上海第二工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910198890.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:土坡坡面銑平機
- 下一篇:用于封閉窨井口的裝置





