[發明專利]面向多源信息的混合文本話題發現方法有效
| 申請號: | 201910403543.0 | 申請日: | 2019-05-15 |
| 公開(公告)號: | CN110263153B | 公開(公告)日: | 2021-04-30 |
| 發明(設計)人: | 吳旭;頡夏青;王昕喆;許晉;方濱興;陸月明 | 申請(專利權)人: | 北京郵電大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/247;G06F40/289 |
| 代理公司: | 北京辰權知識產權代理有限公司 11619 | 代理人: | 劉廣達 |
| 地址: | 100876 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 面向 信息 混合 文本 話題 發現 方法 | ||
1.一種面向多源信息的混合文本話題發現方法,具體包括以下步驟:
步驟一、對原始數據進行特征融合,得到特征均勻的結果集D;
步驟二、對步驟一中得到特征均勻的結果集D,基于狄利克雷多項式混合模型的聚類方法進行聚類;其特征在于,
所述步驟一中,對原始數據進行特征融合,具體包括以下子步驟:
步驟1.1定義長文本和短文本;
步驟1.2對每一個長文本,基于TextRank算法對長文本進行摘要提取;
步驟1.3對每一個短文本,基于哈工大同義詞詞林來對短文本進行同義詞拓展;
所述步驟二中,具體包括以下子步驟:
2.1初始化,設置α、β、K的值,將所有文檔劃分為K個簇,對每一個簇z,初始化mz,nz,nz(w)計數為0,其中mz表示簇z中所有文檔的總數目,nz代表在簇z中所有文檔內所有詞語的個數,nz(w)表示詞語w在簇z中出現的總次數;
2.2對于結果集D中每一篇文檔d,隨機為所有文檔d初始化一個簇,對于加入的簇,每加入一個文檔,將mz的計數加1,將nz的計數加Nd,Nd表示文檔d中所有詞語的個數,對每一個單詞,nz(w)的計數加Nd(w),Nd(w)為文檔d中,詞語w的個數;
2.3每篇文檔d的重新分配,依次對于每一個簇中的每一篇文檔d重新分配,且通過坍塌吉布斯采樣算法進行重新分配,通過坍塌吉布斯采樣算法,得到概率分布;
2.4根據所求得的概率分布,最終每個文本被分配給一個特定的簇,即每個文本屬于一個話題,那么第z個簇中w詞語出現的概率為:
其中nz(w)表示詞語w在簇z中出現的總次數;φz(w)可以理解為詞語w對于簇z的重要程度,根據φz(w)的次序可以得到每個簇的代表詞。
2.如權利要求1所述的一種面向多源信息的混合文本話題發現方法,其特征在于,所述步驟1.2,具體包括以下子步驟:
1.2.a)預處理,將長文本內容按標點符號分割成句子,形成句子集V,對每個句子進行分詞、去除停用詞操作;
1.2.b)句子間相似度計算,基于句子間的相似度,構建邊集E,通過句子集V和邊集E構建出圖G,G=(V,E);每個句子Si可以表示為Ni個詞語的集合,即
給定兩個句子Si,Sj采用如下公式計算兩個句子間的相似度wij:
公式中,分子的意義是同時出現在兩個句子中的詞語的個數,|Si|表示句子Si中詞語的個數,|Sj|表示句子Sj中詞語的個數;
如果兩個句子之間的相似度大于某個設定的閾值,就認定這兩個句子語義關聯并將它們在圖G中連接起來,wij作為邊的權值;
1.2.c)基于該句子對相鄰句子的貢獻程度對句子重要程度計算;根據TextRank算法的計算公式,句子的權重WS(Vi)可以迭代表示為:
其中,d是阻尼系數,Vi表示句子集中的句子,In(Vi)代表在圖G中指向句子Vi的所有句子的集合,Out(Vj)代表在圖G中句子Vj指向的所有句子的集合,wij代表由句子Si和sj所連接的邊的權值,wjk代表由句子Sj和Sk所連接的邊的權值;根據上述公式,迭代傳播計算各個句子節點的權值;
1.2.d)選取候選摘要句:對1.2.c)中的句子權值進行倒序排序,選取權值最高的前N個句子作為候選摘要句;
1.2.e)形成摘要,根據設置的字數或句子數要求,從候選摘要句中選擇句子組成摘要;輸入的長文本經過步驟1.2.a)至步驟1.2.d)后,輸出為該長文本的摘要,即得到文檔d,其中文檔d屬于結果集D。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京郵電大學,未經北京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910403543.0/1.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





