[發明專利]一種基于隱含狄利克雷模型的關鍵詞抽取方法在審
| 申請號: | 201410088252.4 | 申請日: | 2014-03-11 |
| 公開(公告)號: | CN103870447A | 公開(公告)日: | 2014-06-18 |
| 發明(設計)人: | 陳里波;胡子揚;祁點點 | 申請(專利權)人: | 北京優捷信達信息科技有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 蘇州市中南偉業知識產權代理事務所(普通合伙) 32257 | 代理人: | 李廣 |
| 地址: | 100123 北京市朝陽*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 隱含 狄利克雷 模型 關鍵詞 抽取 方法 | ||
技術領域
本發明涉及文字處理領域,更具體的說,涉及一種基于隱含狄利克雷模型的關鍵詞抽取方法 。?
背景技術
統計和分析大量文本信息的一種常用技術就是關鍵詞提取。通常情況下,受制于人力和時間資源,人們無法逐字閱讀海量的文本庫。關鍵詞抽取技術的目標,就是找出文本里最能體現文本主旨的詞匯,方便快速瀏覽,甄選信息。?
為了準確地找到這些詞匯,通常需要對文本進行預處理;基于預處理后的文本,統計詞頻和詞對的共現信息;將詞頻大于或等于預設閾值的詞作為候選關鍵詞;根據詞對的共現信息,計算各候選關鍵詞對文本的重要性;根據計算結果,對候選關鍵詞進行排序,將前N個候選關鍵詞作為文本的關鍵詞,其中,N大于等于1。?
中國專利?CN101872363A于2010年10月27日公開了一種抽取關鍵詞的方法,先在現有技術選取的關鍵詞集的基礎上,疊加所有相鄰的候選關鍵詞,作為候選詞集。然后依照各個候選關鍵詞在文本中的關聯度,抽取關聯程度較高的關鍵詞。這種方法生成的關鍵詞長度較長,故而能涵蓋更全面的信息。位置相鄰的詞通常是用于描述同一事物/觀點的,相鄰的關鍵詞則可能已經橫跨了不同事物/觀點的表述了。常以相鄰位置共現的關鍵詞,可能隱含相對固定的表述次序,無法確知一定是語義上的關聯。?
中國專利CN101196904A于2008年6月11日公開了一種基于詞頻和多元文法的新聞關鍵詞抽取方法通過挖掘文本中潛在關鍵詞的多元文法的詞性模式,將其作為關鍵詞抽取算法的依據。在進行新聞關鍵詞抽取時,首先根據潛在詞性模式挖掘文本中的多元詞組,抽取關鍵詞的候選詞集,然后從標題中挖掘未登錄的潛在關鍵詞,將潛在關鍵詞也加入候選關鍵詞集中。這種方法可以抽取符合詞性模式的多元詞組,通常這樣的詞組表述是連貫的、有意義的。為了保證潛在詞性模式的準確性和完備性,這種方法在應用中,需要首先挖掘一個有相當數量的自然語言語料庫,得到的詞性模式才能被用在真正的關鍵詞提取技術中。這提高了應用的復雜度。另一方面,此專利方案默認,待處理的文本詞性模式與語料庫中的相近。這一點在實際應用中無法得到保證。譬如,語料庫中的文本多是科技論文,那么以科技論文中常出現的詞性模式為依據抽取出的小說散文關鍵詞組,則可能存在偏漏。?
發明內容
本發明所要解決的技術問題是提供一種既不需要額外語料庫,又能夠挖掘出文本中描述的各個“事物”或“觀點”,并依據挖掘出的話題分別抽取關鍵詞的基于隱含狄利克雷模型的關鍵詞抽取方法。?
本發明的目的是通過以下技術方案來實現的:?
一種基于隱含狄利克雷模型的關鍵詞抽取方法 ,包括步驟,
詞匯預處理:先進行詞性標注和分詞,跟進待分析文本構建詞匯表,然后對詞匯表進行修訂。
話題聚類:構建隱含狄利克雷模型,把一篇待分析文本看作若干個隱含話題的分布。每個隱含話題被定義為詞的分布;?
一篇文檔可以包含多個主題,文檔中每一個詞都由其中的一個主題生成。
輸出話題和關鍵詞:預設一個閾值,依據每個詞匯出現在某話題中的條件概率,對詞匯表重新排序,概率大于給定閾值的詞,作為關鍵詞輸出。?
進一步的,所述輸出話題和關鍵詞步驟后,還包括:指定話題和詞匯的強關聯規則,在給定的場景中,優先按照強關聯規則來匹配話題和關鍵詞。?
進一步的,所述詞匯預處理步驟包括:?
把自然語言中的每一句話當作是一個隱馬爾科夫鏈(Hidden?Markov?Chain),使用維特比算法,求出對于觀測到的數據,概率最大的詞性標記序列;運算過程中隱含分詞;
文本中每出現的一個新詞,都會被插入到一張詞匯表里。創建的詞匯表中包含文本中所有詞,且無重復詞;
把自定義詞庫中的詞設置為強相關,加入隱馬爾科夫鏈模型,該模型在標記詞性序列的時候,優先將自定義詞結合為一個詞;
得到了分詞結果和詞性標注序列之后,算法會根據給定的詞性列表對分詞結果進行過濾。
進一步的,所述生成型概率模型為隱含狄利克雷分布(LDA)模型;所述話題聚類步驟包括初始化LDA模型的方法:待分析的文本集?含有篇文檔,。把文檔表示成長度為的詞的序列,。把詞表示成維向量,其中為詞匯表的長度。假定待分析的文檔集共包含個隱含話題,,為根據經驗設定的常數;?
文檔中第個詞所對應的隱含話題服從以為參數的多項式分
布,其中參數向量服從以為參數的狄利克雷分布。初始化使其服從均勻分布。
定義為話題生成詞的概率:,?
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京優捷信達信息科技有限公司,未經北京優捷信達信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410088252.4/2.html,轉載請聲明來源鉆瓜專利網。





