[發(fā)明專利]一種基于預(yù)分類的短文本關(guān)鍵詞提取方法及系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 201710053710.4 | 申請(qǐng)日: | 2017-01-22 |
| 公開(kāi)(公告)號(hào): | CN106886576B | 公開(kāi)(公告)日: | 2018-04-03 |
| 發(fā)明(設(shè)計(jì))人: | 蔡禹;紀(jì)曉陽(yáng);孔祥明;張一帆;林成創(chuàng) | 申請(qǐng)(專利權(quán))人: | 廣東廣業(yè)開(kāi)元科技有限公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30;G06F17/27 |
| 代理公司: | 廣州嘉權(quán)專利商標(biāo)事務(wù)所有限公司44205 | 代理人: | 譚英強(qiáng) |
| 地址: | 510623 廣東省廣州市天*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 分類 文本 關(guān)鍵詞 提取 方法 系統(tǒng) | ||
技術(shù)領(lǐng)域
本發(fā)明涉及文本關(guān)鍵詞挖掘分析技術(shù),尤其涉及一種基于預(yù)分類的短文本關(guān)鍵詞提取方法及系統(tǒng)。
背景技術(shù)
技術(shù)詞解釋:
TF-IDF值:即詞頻-逆文檔頻率值,結(jié)合一個(gè)詞在文本中出現(xiàn)的次數(shù)以及包含該詞的文本數(shù)而計(jì)算出來(lái)的一個(gè)權(quán)重;TF-IDF值與一個(gè)詞在文檔中的出現(xiàn)次數(shù)成正比,與包含該詞的文本數(shù)成反比。
隨著社交媒體的興起,移動(dòng)短信、Tweet和微博等短文本層出不窮,并且由于短文本發(fā)布的參與者多以及發(fā)布頻率快,短文本的規(guī)模更是飛速增長(zhǎng)。對(duì)于短文本,其在搜索引擎、自動(dòng)問(wèn)答和話題跟蹤等領(lǐng)域發(fā)揮著重要的作用,而且隨著電子政務(wù)建設(shè)的推行和不斷深化,政府部門(mén)也面臨著對(duì)大量短文本的處理問(wèn)題。因此由此可見(jiàn),在短文本數(shù)據(jù)的處理中,如何實(shí)現(xiàn)對(duì)大量短文本數(shù)據(jù)進(jìn)行簡(jiǎn)便、有效的關(guān)鍵詞提取具有重要的意義。
目前常用的一種海量文本關(guān)鍵詞提取方式是,首先對(duì)每個(gè)文本文件進(jìn)行分詞處理,統(tǒng)計(jì)并計(jì)算每個(gè)單詞的詞頻-逆文檔頻率值,然后將每個(gè)單詞的詞頻-逆文檔頻率值從大到小排列,并提取排名靠前的結(jié)果,最后將該提取結(jié)果保存在Hadoop平臺(tái)上的SequenceFile這一原始文件中,以供查詢。然而傳統(tǒng)關(guān)鍵詞提取方式卻存有不少的問(wèn)題,例如:1、在短文本中,文本特征較少,而且在應(yīng)用TF-IDF算法提取文本特征時(shí),短文本數(shù)據(jù)集中具有相同關(guān)鍵詞的文本會(huì)相互干擾,使得這些關(guān)鍵詞計(jì)算出來(lái)的TF-IDF值大大降低,弱化了這些詞語(yǔ)對(duì)同類的短文本特征表達(dá)效果,進(jìn)而影響了關(guān)鍵詞提取的效果;2、無(wú)法拓展到分布式系統(tǒng)并提升計(jì)算效率,大部分現(xiàn)有的技術(shù)解決方案都無(wú)法有效地拓展到分布式系統(tǒng),若需要處理海量數(shù)據(jù)同時(shí)又有較高的效率要求,則現(xiàn)有的技術(shù)解決方案均無(wú)法取得一個(gè)較好的解決效果。
發(fā)明內(nèi)容
為了解決上述技術(shù)問(wèn)題,本發(fā)明的目的是提供一種可拓展適用于分布式系統(tǒng)、提高處理效率、效果好的基于預(yù)分類的短文本關(guān)鍵詞提取方法。
本發(fā)明的另一目的是提供一種可拓展適用于分布式系統(tǒng)、提高處理效率、效果好的基于預(yù)分類的短文本關(guān)鍵詞提取系統(tǒng)。
本發(fā)明所采用的技術(shù)方案是:一種基于預(yù)分類的短文本關(guān)鍵詞提取方法,該方法包括的步驟有:
將短文本全量數(shù)據(jù)集劃分為多個(gè)短文本子數(shù)據(jù)集;
采用短文本預(yù)分類方式以及通用條數(shù)最優(yōu)值,對(duì)多個(gè)短文本子數(shù)據(jù)集分別進(jìn)行關(guān)鍵詞特征詞典的生成處理,從而生成得到每一個(gè)短文本子數(shù)據(jù)集所對(duì)應(yīng)的關(guān)鍵詞特征詞典;
利用每一個(gè)關(guān)鍵詞特征詞典分別相對(duì)應(yīng)對(duì)每一個(gè)短文本子數(shù)據(jù)集進(jìn)行關(guān)鍵詞權(quán)重系數(shù)的累計(jì)計(jì)算;
根據(jù)每一個(gè)短文本子數(shù)據(jù)集的關(guān)鍵詞權(quán)重系數(shù)累計(jì)計(jì)算結(jié)果,對(duì)短文本全量數(shù)據(jù)集進(jìn)行關(guān)鍵詞提取處理。
進(jìn)一步,所述短文本子數(shù)據(jù)集所對(duì)應(yīng)的關(guān)鍵詞特征詞典,其生成步驟包括有:
從短文本子數(shù)據(jù)集中選取出一個(gè)包含有s條短文本的短文本微數(shù)據(jù)集,其中,s的數(shù)值為通用條數(shù)最優(yōu)值;
對(duì)短文本微數(shù)據(jù)集中所包含的短文本進(jìn)行分類,然后將屬于同一類別的短文本拼接成相對(duì)應(yīng)的長(zhǎng)文本;
采用TF-IDF算法對(duì)每一條長(zhǎng)文本中的詞語(yǔ)進(jìn)行TF-IDF值計(jì)算,計(jì)算出每一條長(zhǎng)文本中詞語(yǔ)的TF-IDF值;
根據(jù)預(yù)設(shè)的第一閾值,對(duì)每一條長(zhǎng)文本的詞語(yǔ)的TF-IDF值進(jìn)行閾值判斷,然后將每一條長(zhǎng)文本中TF-IDF值大于第一閾值的詞語(yǔ)提取出來(lái);
將提取出來(lái)的詞語(yǔ)及其對(duì)應(yīng)的TF-IDF值存儲(chǔ)至關(guān)鍵詞特征詞典中時(shí),判斷關(guān)鍵詞特征詞典中是否已存儲(chǔ)有該詞語(yǔ),若否,則將該詞語(yǔ)及其對(duì)應(yīng)的TF-IDF值存儲(chǔ)至關(guān)鍵詞特征詞典中;反之,則判斷該待存儲(chǔ)的詞語(yǔ)所對(duì)應(yīng)的TF-IDF值是否大于已存儲(chǔ)在關(guān)鍵詞特征詞典中的該詞語(yǔ)所對(duì)應(yīng)的TF-IDF值,若是,則采用該待存儲(chǔ)的詞語(yǔ)所對(duì)應(yīng)的TF-IDF值替換已存儲(chǔ)在關(guān)鍵詞特征詞典中的該詞語(yǔ)所對(duì)應(yīng)的TF-IDF值,反之,則不改變已存儲(chǔ)在關(guān)鍵詞特征詞典中的該詞語(yǔ)所對(duì)應(yīng)的TF-IDF值。
進(jìn)一步,所述通用條數(shù)最優(yōu)值,其確定獲取步驟包括有:
計(jì)算每一個(gè)短文本子數(shù)據(jù)集所對(duì)應(yīng)的條數(shù)最優(yōu)值,然后從計(jì)算得出的所有條數(shù)最優(yōu)值中選取數(shù)值最大的條數(shù)最優(yōu)值作為通用條數(shù)最優(yōu)值。
進(jìn)一步,所述短文本子數(shù)據(jù)集所對(duì)應(yīng)的條數(shù)最優(yōu)值,其計(jì)算步驟包括有:
從短文本子數(shù)據(jù)集中選取出一個(gè)包含有n條短文本的短文本微數(shù)據(jù)集,其中,n值小于等于s0,s0表示為短文本子數(shù)據(jù)集所包含的短文本的總條數(shù);
根據(jù)選取出的短文本微數(shù)據(jù)集,生成該短文本子數(shù)據(jù)集所對(duì)應(yīng)的關(guān)鍵詞特征詞典;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣東廣業(yè)開(kāi)元科技有限公司,未經(jīng)廣東廣業(yè)開(kāi)元科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710053710.4/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 關(guān)鍵詞輸出設(shè)備和關(guān)鍵詞輸出方法
- 用于選擇用于網(wǎng)絡(luò)發(fā)布的關(guān)鍵詞的方法和設(shè)備
- 關(guān)鍵詞質(zhì)量度的檢測(cè)方法和裝置
- 關(guān)鍵詞排名的檢測(cè)方法和裝置
- 關(guān)鍵詞相似度獲取方法、裝置及服務(wù)器
- 關(guān)鍵詞推薦方法及裝置
- 一種關(guān)鍵詞檢索管理系統(tǒng)
- 一種信息推薦方法、電子設(shè)備、存儲(chǔ)介質(zhì)及系統(tǒng)
- 關(guān)鍵詞廣告投放自動(dòng)化否定關(guān)鍵詞方法及裝置
- 一種長(zhǎng)尾關(guān)鍵詞識(shí)別方法、關(guān)鍵詞搜索方法及計(jì)算機(jī)設(shè)備





