[發明專利]一種基于隱含狄利克雷模型的關鍵詞抽取方法在審
| 申請號: | 201410088252.4 | 申請日: | 2014-03-11 |
| 公開(公告)號: | CN103870447A | 公開(公告)日: | 2014-06-18 |
| 發明(設計)人: | 陳里波;胡子揚;祁點點 | 申請(專利權)人: | 北京優捷信達信息科技有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 蘇州市中南偉業知識產權代理事務所(普通合伙) 32257 | 代理人: | 李廣 |
| 地址: | 100123 北京市朝陽*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 隱含 狄利克雷 模型 關鍵詞 抽取 方法 | ||
1.?一種基于隱含狄利克雷模型的關鍵詞抽取方法 ,包括步驟,
詞匯預處理:先進行詞性標注和分詞,跟進待分析文本構建詞匯表,然后對詞匯表進行修訂;
話題聚類:構建隱含狄利克雷模型,把一篇待分析文本看作若干個隱含話題的分布;每個隱含話題被定義為詞的分布;一篇文檔可以包含多個主題,文檔中每一個詞都由其中的一個主題生成;
輸出話題和關鍵詞:預設一個閾值,依據每個詞匯出現在某話題中的條件概率,對詞匯表重新排序,概率大于給定閾值的詞,作為關鍵詞輸出。
2.?如權利要求1所述的基于隱含狄利克雷模型的關鍵詞抽取方法 ,其特征在于,所述輸出話題和關鍵詞步驟后,還包括:指定話題和詞匯的強關聯規則,在給定的場景中,優先按照強關聯規則來匹配話題和關鍵詞。
3.如權利要求1所述的基于隱含狄利克雷模型的關鍵詞抽取方法 ,其特征在于,所述詞匯預處理步驟包括:
把自然語言中的每一句話當作是一個隱馬爾科夫鏈(Hidden?Markov?Chain),使用維特比算法,求出對于觀測到的數據,概率最大的詞性標記序列;運算過程中隱含分詞;
文本中每出現的一個新詞,都會被插入到一張詞匯表里;創建的詞匯表中包含文本中所有詞,且無重復詞;
把自定義詞庫中的詞設置為強相關,加入隱馬爾科夫鏈模型,該模型在標記詞性序列的時候,優先將自定義詞結合為一個詞;
得到了分詞結果和詞性標注序列之后,算法會根據給定的詞性列表對分詞結果進行過濾。
4.如權利要求1所述的基于隱含狄利克雷模型的關鍵詞抽取方法 ,其特征在于,所述生成型概率模型為隱含狄利克雷分布(LDA)模型;所述話題聚類步驟包括初始化LDA模型的方法:待分析的文本集????????????????????????????????????????????????含有篇文檔,;把文檔表示成長度為的詞的序列,;把詞表示成維向量,其中為詞匯表的長度;假定待分析的文檔集共包含個隱含話題,,為根據經驗設定的常數;
文檔中第個詞所對應的隱含話題服從以為參數的多項式分
布,其中參數向量服從以為參數的狄利克雷分布;初始化使其服從均勻分布;
定義為話題生成詞的概率:,
;其中參數向量服從以為參數的狄利克雷分布;初始化所有,即話題生成詞匯表中的每個詞的初始概率相同,構建該概率矩陣;進而,對文檔中詞而言,它是詞匯表里第個詞的概率為:
完整的概率模型為:
初始化后,一個詞由任一話題生成的概率相等,且一個話題生成任一詞的概率也相等。
5.如權利要求4所述的基于隱含狄利克雷模型的關鍵詞抽取方法 ,其特征在于,所述話題聚類步驟包括參數估計的方法:
采用吉布斯采樣法(Gibbs?Sampling),給定當前詞之外的所有其它詞和話題,重新計算當前詞屬于哪一個話題,更新后逐一對構成文本的詞更新歸屬話題,直至結果穩定。
6.?如權利要求5所述的基于隱含狄利克雷模型的關鍵詞抽取方法 ,其特征在于,所述吉布斯采樣法概率更新公式為:
其中,?是除了當前詞以外,詞被分配到話題的頻率,是除了當前詞以外,所有被分配到話題的總頻率;為平滑系數,具體根據數據集調整,為歸一化系數;?是在當前文檔中除了當前詞以外的所有詞的總頻率;為平滑系數,具體根據數據集調整,為歸一化系數。
7.如權利要求6所述的基于隱含狄利克雷模型的關鍵詞抽取方法 ,其特征在于,采用馬爾科夫蒙特卡洛法(Markov?chain?Monte?Carlo)計算話題聚類的結果;
先初始化馬爾科夫鏈(Markov?chain),初始狀態為,生成概率為,轉移概率為;重新用吉布斯采樣法估計隱含狄利克雷模型的參數,反復迭代馬爾科夫鏈,直至結果穩定。
8.如權利要求7所述的基于隱含狄利克雷模型的關鍵詞抽取方法 ,其特征在于,所述條件概率為。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京優捷信達信息科技有限公司,未經北京優捷信達信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410088252.4/1.html,轉載請聲明來源鉆瓜專利網。





