[發(fā)明專利]一種面向微博的非分詞突發(fā)話題檢測(cè)方法有效

申請(qǐng)?zhí)枺?/td>	201410416127.1	申請(qǐng)日：	2014-08-22
公開（公告）號(hào)：	CN104216964A	公開（公告）日：	2014-12-17
發(fā)明（設(shè)計(jì)）人：	楊武;伸國(guó)偉;王巍;苘大鵬;宣世昌	申請(qǐng)（專利權(quán)）人：	哈爾濱工程大學(xué)
主分類號(hào)：	G06F17/30	分類號(hào)：	G06F17/30
代理公司：	暫無信息	代理人：	暫無信息
地址：	150001 黑龍江省哈爾濱市南崗區(qū)***	國(guó)省代碼：	黑龍江;23
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種面向分詞突發(fā) 話題檢測(cè) 方法
鉆瓜網(wǎng) 技術(shù)展會(huì) 專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種面向微博的非分詞突發(fā)話題檢測(cè)方法，其特征在于：包括以下步驟：

步驟1：語料預(yù)處理，構(gòu)建動(dòng)態(tài)的微博檢測(cè)窗口；

步驟2：將微博內(nèi)容切分成單個(gè)漢字，并構(gòu)建字典；

步驟3：計(jì)算突發(fā)特征字集合；

步驟4：計(jì)算由特征字組成的突發(fā)話題；

步驟5：生成有意義詞或串，形成由詞或串表示的突發(fā)話題。

2.根據(jù)權(quán)利要求1所述的一種面向微博的非分詞突發(fā)話題檢測(cè)方法，其特征是：所述語料預(yù)處理的步驟為：

步驟1.1：依據(jù)微博發(fā)布時(shí)間序抽取微博消息元素；

步驟1.2：微博窗口劃分，基于小波分析思想將微博消息流動(dòng)態(tài)劃分微博窗口。

3.根據(jù)權(quán)利要求1所述的一種面向微博的非分詞突發(fā)話題檢測(cè)方法，其特征是：所述將微博內(nèi)容切分成單個(gè)漢字，并構(gòu)建字典步驟為：

步驟2.1，直接將每一條微博消息以字為單元進(jìn)行切分，無需去除停用詞；

步驟2.2，按照字典序進(jìn)行存儲(chǔ)，支持高效查找和動(dòng)態(tài)更新。

4.根據(jù)權(quán)利要求1所述的一種面向微博的非分詞突發(fā)話題檢測(cè)方法，其特征是：所述計(jì)算突發(fā)特征字集合步驟為：

步驟3.1，遍歷字典，依據(jù)歷史特征權(quán)值和檢測(cè)窗口中的突發(fā)特征權(quán)值判定當(dāng)前檢測(cè)窗口是否發(fā)生突發(fā)；

步驟3.2，更新歷史窗口中字的特征權(quán)值，依據(jù)生命周期模型中的老化理論，更新字的特征權(quán)值；

步驟33，計(jì)算當(dāng)前檢測(cè)窗口中字的突發(fā)特征權(quán)值，在考慮用戶的粉絲數(shù)、消息的轉(zhuǎn)發(fā)數(shù)和評(píng)論數(shù)基礎(chǔ)上計(jì)算字的影響力，并將字的影響力作為突發(fā)特征權(quán)值。

5.根據(jù)權(quán)利要求1所述的一種面向微博的非分詞突發(fā)話題檢測(cè)方法，其特征是：所述計(jì)算由特征字組成的突發(fā)話題步驟為：

步驟4.1，構(gòu)建突發(fā)特征字與消息、用戶之間的關(guān)系矩陣；

步驟4.2，通過聯(lián)合聚類算法對(duì)關(guān)系矩陣進(jìn)行計(jì)算，得到實(shí)體、消息、用戶的聚類指示矩陣。

6.根據(jù)權(quán)利要求1所述的一種面向微博的非分詞突發(fā)話題檢測(cè)方法，其特征是：所述生成有意義詞或串，形成由詞或串表示的突發(fā)話題的步驟為：

步驟5.1，對(duì)于每一個(gè)話題中的漢字以及對(duì)應(yīng)的消息作為樣本集合，計(jì)算話題中任意兩個(gè)字之間的聚合程度；

步驟5.2，計(jì)算話題中左右邊界字的熵；

步驟5.3，依據(jù)聚合程度和左右邊界字的熵值判定是否可生產(chǎn)一個(gè)有意義詞或串。

7.根據(jù)權(quán)利要求1或4所述的一種面向微博的非分詞突發(fā)話題檢測(cè)方法，其特征是：所述生成字典步驟包括：

步驟2.2.1，字典為空，則根據(jù)漢字的字典序插入到字典中；

步驟2.2.2，若字典不為空并已存在字典中，則直接將該字在當(dāng)前檢測(cè)窗口中的關(guān)聯(lián)信息增加到字典中；

步驟2.2.3，若字典不為空且不存在字典中，基于字典序?qū)崿F(xiàn)二分查找，依據(jù)查找返回結(jié)果得到字典序號(hào)，將該字插入字典，字典當(dāng)前序號(hào)后面的字依次后移。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會(huì)員可以免費(fèi)下載。

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于哈爾濱工程大學(xué)，未經(jīng)哈爾濱工程大學(xué)許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請(qǐng)聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201410416127.1/1.html，轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G06 計(jì)算；推算；計(jì)數(shù)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索；及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)

免登錄下載普通用戶下載升級(jí)VIP會(huì)員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級(jí)中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級(jí)為極速版,下載速度顯著提升！歡迎使用！

請(qǐng)您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊(cè)】