[發明專利]基于句間關聯圖的文本主題挖掘方法在審
| 申請號: | 201410451862.6 | 申請日: | 2014-09-05 |
| 公開(公告)號: | CN104298709A | 公開(公告)日: | 2015-01-21 |
| 發明(設計)人: | 陶余會;吳康寧;孫煦峰;趙亮 | 申請(專利權)人: | 上海中和軟件有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 上海華工專利事務所(普通合伙) 31104 | 代理人: | 繆利明 |
| 地址: | 200433 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 關聯 文本 主題 挖掘 方法 | ||
1.一種基于句間關聯圖的文本主題挖掘方法,其特征在于,具體步驟如下:
1)目標文本預處理
對目標文本按句劃分,獲得文本的句子序列表S,并對句子序列表S中的各個句子進行詞匯分析,提取各個句子中的詞匯,將各句子中的詞匯作為特征詞;
2)構建目標文本的句子關聯矩陣為:
A=[Aij]m×m
其中,A為目標文本的句子關聯矩陣,A為m×m的矩陣,m為句子序列表S中的句子數量,Aij為A中的第i行第j列元素,1≤i≤m,1≤j≤m,Si為句子序列表S中的第i個句子,Sj為句子序列表S中的第j個句子,|Si|為Si中的特征詞數量,|Sj|為Sj中的特征詞數量,Cij為Si與Sj中共同出現的特征詞的數量;
3)計算句子序列表S中各元素的權值,具體計算公式為:
其中,W(i)為句子序列表S中的第i個句子的權值;
4)將句子序列表S中權值最大的句子設定為主題句;
5)計算所有主題句的字符長度之和,如果所有主題句的字符長度之和達到主題長度,則轉至步驟8),反之則轉至步驟6);
其中,主題長度為預先設定的字符數量閾值;
6)調整句子序列表S中各個非主題句的權值,非主題句的權值調整公式為:
其中,Wnew(i)為句子序列表S中的第i個句子調整后的權值,Wold(i)為句子序列表S中的第i個句子調整前的權值,Si為句子序列表S中的第i個句子,Sc為句子序列表S中最新選出的主題句,|Si|為Si中的特征詞數量,|Sc|為Sc中的特征詞數量,Cic為Si與Sc中共同出現的特征詞的數量;
7)將句子序列表S的非主題句中權值最大的句子設定為主題句,再轉至步驟5);
8)將句子序列表S中所有主題句作為從目標文本中挖掘到的主題內容。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海中和軟件有限公司,未經上海中和軟件有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410451862.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:車載免提電話
- 下一篇:用于控制機動車輛前車前燈的光分布的方法





