[發(fā)明專利]一種從文檔集中挖掘特征詞的系統(tǒng)和方法有效
| 申請(qǐng)?zhí)枺?/td> | 201510017522.7 | 申請(qǐng)日: | 2015-01-13 |
| 公開(kāi)(公告)號(hào): | CN104573027B | 公開(kāi)(公告)日: | 2018-07-24 |
| 發(fā)明(設(shè)計(jì))人: | 屠守中;黃民烈;朱小燕 | 申請(qǐng)(專利權(quán))人: | 清華大學(xué) |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30;G06F17/27 |
| 代理公司: | 北京漢昊知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11370 | 代理人: | 朱海波 |
| 地址: | 100084 北*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 文檔 集中 挖掘 特征 系統(tǒng) 方法 | ||
本發(fā)明公開(kāi)了一種從文檔集中挖掘特征詞的系統(tǒng)和方法,其中所述方法包括:對(duì)所述文檔集中的每個(gè)分句進(jìn)行分詞處理,得到分詞結(jié)果表;計(jì)算分詞結(jié)果表中每?jī)蓚€(gè)分詞結(jié)果之間的正相關(guān)似然比統(tǒng)計(jì)量;對(duì)于給定的來(lái)自分詞結(jié)果表的種子詞,對(duì)它與分詞結(jié)果表中的各分詞結(jié)果之間的正相關(guān)似然比統(tǒng)計(jì)量進(jìn)行排序,基于排序從分詞結(jié)果表中提取一定數(shù)量的分詞結(jié)果作為特征詞輸出。本發(fā)明所提供的系統(tǒng)和方法,可以更有效地挖掘出能夠更強(qiáng)地表現(xiàn)文檔集旨意的特征詞。
技術(shù)領(lǐng)域
本發(fā)明主要涉及數(shù)據(jù)挖掘領(lǐng)域,尤其涉及一種從文檔集中挖掘特征詞的系統(tǒng)和方法。
背景技術(shù)
當(dāng)今社會(huì),信息呈爆炸式增長(zhǎng)。對(duì)于大量涌現(xiàn)的信息,如何準(zhǔn)確而迅速地抽取信息中具有話題代表性的詞(即特征詞),以幫助人們快速了解新聞時(shí)事、社會(huì)動(dòng)態(tài),更能夠幫助政府把握當(dāng)前社會(huì)輿論傾向,并作出正確的價(jià)值觀導(dǎo)向。以我們經(jīng)常使用的信息媒介——微博,話題“霧霾”為例,如何從大量微博評(píng)論中準(zhǔn)確而迅速地抽取中具有話題代表性的詞,諸如“PM2.5”、“致癌”、“口罩”等特征詞,以幫助人們快速了解與霧霾有關(guān)的社會(huì)動(dòng)態(tài);仍以微博為例,對(duì)于話題“吸毒”,如何從大量微博評(píng)論中準(zhǔn)確而迅速地抽取中具有話題代表性的詞,諸如“吸毒正常”、“不礙事”、“支持”等特征詞,以幫助政府迅速把握當(dāng)前社會(huì)輿論傾向,以采取有效措施作出正確的價(jià)值觀導(dǎo)向。
現(xiàn)有技術(shù)中,為了解決上述問(wèn)題,有學(xué)者提出了自舉學(xué)習(xí)的方法,其中有Likelihood Ratio Test for Bootstrapping方法(簡(jiǎn)稱“LRTBOOT”),即基于似然比檢驗(yàn)的自舉學(xué)習(xí)方法。但是該方法通常在數(shù)據(jù)量巨大的時(shí)候,挖掘出的特征詞與話題相關(guān)度不高,也即文檔旨意代表性不強(qiáng)。
發(fā)明內(nèi)容
本發(fā)明提出了一種從文檔集中挖掘特征詞的系統(tǒng)和方法,可以更有效地挖掘出能夠更強(qiáng)地表現(xiàn)文檔集旨意的特征詞。
根據(jù)本發(fā)明的一個(gè)方面,提供了一種從文檔集中挖掘特征詞的方法,該方法包括步驟:
對(duì)所述文檔集中的每個(gè)分句進(jìn)行分詞處理,得到分詞結(jié)果表;
計(jì)算分詞結(jié)果表中每?jī)蓚€(gè)分詞結(jié)果之間的正相關(guān)似然比統(tǒng)計(jì)量;
對(duì)于給定的來(lái)自分詞結(jié)果表的種子詞,對(duì)它與分詞結(jié)果表中的各分詞結(jié)果之間的正相關(guān)似然比統(tǒng)計(jì)量進(jìn)行排序,基于排序從分詞結(jié)果表中提取一定數(shù)量的分詞結(jié)果作為特征詞輸出。
優(yōu)選地,所述對(duì)所述文檔集中的每個(gè)分句進(jìn)行分詞處理,得到分詞結(jié)果表的步驟具體包括:
對(duì)所述文檔集中的每個(gè)分句進(jìn)行分詞處理,得到初步分詞結(jié)果表;
統(tǒng)計(jì)長(zhǎng)度為1~N的、由所述初步分詞結(jié)果表中的詞連續(xù)組成的組合詞語(yǔ)分別出現(xiàn)在所述文檔集中的分句頻次,其中N是正整數(shù),表示詞的個(gè)數(shù);
基于對(duì)所述組合詞語(yǔ)的點(diǎn)互信息統(tǒng)計(jì)量的計(jì)算對(duì)所述組合詞語(yǔ)進(jìn)行排序,基于排序至少抽取一部分的組合詞語(yǔ),形成分詞結(jié)果表。
優(yōu)選地,所述基于排序至少抽取一部分的組合詞語(yǔ),形成分詞結(jié)果表的步驟具體包括:
基于排序至少抽取一部分的組合詞語(yǔ),形成候選分詞結(jié)果表;
基于對(duì)所述候選分詞結(jié)果表中各組合詞語(yǔ)的左信息熵和右信息熵的計(jì)算并與相應(yīng)閾值比較,保留左信息熵和右信息熵均大于相應(yīng)閾值的組合詞語(yǔ),形成分詞結(jié)果表。
優(yōu)選地,所述計(jì)算分詞結(jié)果表中每?jī)蓚€(gè)分詞結(jié)果之間的正相關(guān)似然比統(tǒng)計(jì)量的步驟還包括:
基于每?jī)蓚€(gè)分詞結(jié)果之間的正相關(guān)似然比統(tǒng)計(jì)量,得到與所述分詞結(jié)果表對(duì)應(yīng)的正相關(guān)矩陣;
其中,正相關(guān)矩陣的每一行或每一列的各個(gè)值表示分詞結(jié)果表中的每個(gè)分詞結(jié)果對(duì)應(yīng)的該分詞結(jié)果與分詞結(jié)果表中的各分詞結(jié)果之間的正相關(guān)似然比統(tǒng)計(jì)量。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于清華大學(xué),未經(jīng)清華大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510017522.7/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 一種電子文檔識(shí)別方法及裝置
- 文檔匹配方法和文檔匹配裝置
- 復(fù)雜文檔分離組織方法以及復(fù)雜文檔自動(dòng)生成方法
- 一種文檔流程控制方法及裝置
- 云文檔加密及解密方法、加密及解密裝置、以及處理系統(tǒng)
- 一種將Markdown文檔轉(zhuǎn)換為PDF文檔的方法、裝置
- 文檔類型識(shí)別方法、裝置、設(shè)備和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 基于文檔編輯軟件的文檔處理方法、裝置、設(shè)備及介質(zhì)
- 一種引用文檔的更新方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 文檔操作錄制方法、文檔操作動(dòng)畫生成方法、裝置及設(shè)備





