[發明專利]一種粒度可量化的話題提取方法無效
| 申請號: | 200910195458.6 | 申請日: | 2009-09-10 |
| 公開(公告)號: | CN101655838A | 公開(公告)日: | 2010-02-24 |
| 發明(設計)人: | 曾劍平;吳承榮 | 申請(專利權)人: | 復旦大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30 |
| 代理公司: | 上海正旦專利代理有限公司 | 代理人: | 陸 飛;盛志范 |
| 地址: | 20043*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 粒度 量化 話題 提取 方法 | ||
1.一種粒度可量化的話題提取方法,其特征在于具體步驟如下::
(1)通過網絡爬蟲技術,從互聯網上下載與某個話題相關的文本記錄,從而構成一 個包含多個文本的文本數據集;
(2)采用現有的分詞方法將所有文本記錄分割成獨立的詞序列,同時去除停用詞, 從而將整個文本集中的文本用單個詞語來描述;
(3)為文本集構造詞語頻率矩陣,矩陣的行表示詞語,列表示文檔,矩陣中的元素 表示詞語在該文檔中出現的頻率;矩陣的大小為詞語的總數×文檔總數;
(4)對詞語頻率矩陣進行分割,得到若干個小的矩陣,對每個小的矩陣執行如下過 程:
(a)進行離散余弦變換變換,得到變換矩陣;
(b)根據用戶提供的話題粒度參數值,對變換后的矩陣進行量化,從而得到量化矩 陣;
(c)對量化矩陣進行離散余弦變換逆變換;
(5)對這些逆變換結果所得到的矩陣進行組合,得到與原始詞頻矩陣對應的詞頻矩 陣,從而得到與粒度對應的特征詞空間;
(6)對變換后的詞頻矩陣,運用現有的話題提取算法,進行話題提取,從而得到與 該粒度相對應的話題描述;
(7)根據用戶不同的粒度分析需求,重復執行步驟(4)-(6),直到用戶粒度話題 都提取完成;
步驟(4)中所述對變換矩陣進行量化的步驟為:將變換矩陣放在一個二維坐標系中 處理,并運用粒度特征線進行量化,采用的量化原則為:將落入量化特征線下方的矩陣元 素設置為0,而處于量化特征線上方的元素保持不變;而量化特征線定義為:
f(x)=x+b(M+N)
其中,b是由用戶提供的量化因子,是[0,1]區間中的一個數;M,N分別為詞語頻率 矩陣經分割后的小矩陣的行數和列數。
2.如權利要求1所述的粒度可量化的話題提取方法,其特征在于構造詞語頻率矩陣 的步驟如下:
(1)對文本集中的每一個文檔di,構造一個行向量vi={ci1,ci2,ci3,...,ciX},這里X 表示詞語表T中的所有詞個數,cij的計算方法如下:
其中,TCij表示文檔i中詞j出現的次數;
(2)構造整個文本集的詞頻矩陣M1={v1T,v2T,...vYT},其中Y表示文本集的文檔 數。
3.如權利要求2所述的粒度可量化的話題提取方法,其特征在于:步驟(6)中,在 變換后的詞頻矩陣中選擇詞頻非0的詞作為該粒度話題的描述空間,使用隱狄利克雷分配 模型在這個空間中對這個文本集進行話題提取,從而得到話題描述。
4.如權利要求3所述的粒度可量化的話題提取方法,其特征在于:用戶直接通過指 定粒度參數b,而得到相應的粒度話題描述,而不需要構造話題的層次結構再進行話題粗 細程度的分析。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于復旦大學,未經復旦大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910195458.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:顯示測試圖形在線時鐘更新方法
- 下一篇:一種曲面全位置爬行式移動機器人機構





