[發(fā)明專(zhuān)利]一種詞匯分類(lèi)的方法、系統(tǒng)和實(shí)現(xiàn)方法有效
| 申請(qǐng)?zhí)枺?/td> | 201110456676.8 | 申請(qǐng)日: | 2011-12-30 |
| 公開(kāi)(公告)號(hào): | CN103186612A | 公開(kāi)(公告)日: | 2013-07-03 |
| 發(fā)明(設(shè)計(jì))人: | 徐萌;何洪凌;鄧超;羅治國(guó);孫少陵;陶濤 | 申請(qǐng)(專(zhuān)利權(quán))人: | 中國(guó)移動(dòng)通信集團(tuán)公司 |
| 主分類(lèi)號(hào): | G06F17/30 | 分類(lèi)號(hào): | G06F17/30;G06F17/27 |
| 代理公司: | 北京中譽(yù)威圣知識(shí)產(chǎn)權(quán)代理有限公司 11279 | 代理人: | 郭振興;彭曉玲 |
| 地址: | 100032 *** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 詞匯 分類(lèi) 方法 系統(tǒng) 實(shí)現(xiàn) | ||
技術(shù)領(lǐng)域
本發(fā)明涉及文檔分析技術(shù)領(lǐng)域,尤其涉及一種詞匯分類(lèi)的方法、系統(tǒng)和實(shí)現(xiàn)方法。
背景技術(shù)
在文檔分析技術(shù)領(lǐng)域中,分類(lèi)詞庫(kù)是一個(gè)比較重要的技術(shù),可以用于多種用途和領(lǐng)域。例如,用戶(hù)行為分析里面,利用用戶(hù)對(duì)關(guān)鍵詞的輸入,可以判斷用戶(hù)的基本類(lèi)別。收集用戶(hù)輸入的搜索關(guān)鍵詞,可以通過(guò)分類(lèi)詞庫(kù)獲取關(guān)鍵詞的類(lèi)別,進(jìn)而對(duì)用戶(hù)類(lèi)別標(biāo)示。
表1
如表1,詞匯分類(lèi)可以用于詞典編輯、語(yǔ)義分析等等領(lǐng)域。分類(lèi)詞庫(kù)描述了詞匯與類(lèi)別的關(guān)系,其中,置信概率為可選項(xiàng),詞匯可以同時(shí)屬于多個(gè)類(lèi)別。
在詞匯分類(lèi)中,TF-IDF(Term?Frequency-Inverse?Document?Frequency)是一種用于資訊檢索與資訊探勘的常用加權(quán)技術(shù)。TF-IDF是一種統(tǒng)計(jì)方法,用以評(píng)估一個(gè)字詞對(duì)于一個(gè)文件集或一個(gè)語(yǔ)料庫(kù)中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會(huì)隨著它在語(yǔ)料庫(kù)中出現(xiàn)的頻率成反比下降。
在一份給定的文件里,詞頻(Term?Frequency,TF)指的是某一個(gè)給定的詞匯在該文件中出現(xiàn)的次數(shù)。這個(gè)數(shù)字通常會(huì)被歸一化,以防止它偏向長(zhǎng)的文件。(同一個(gè)詞匯在長(zhǎng)文件里可能會(huì)比短文件有更高的詞頻,而不管該詞匯重要與否。)
逆向文件頻率(Inverse?Document?Frequency,IDF)是一個(gè)詞匯普遍重要性的度量。某一特定詞匯的IDF,可以由總文件數(shù)目除以包含該詞匯之文件的數(shù)目,再將得到的商取對(duì)數(shù)得到。
某一特定文件內(nèi)的高詞匯頻率,以及該詞匯在整個(gè)文件集合中的低文件頻率,可以產(chǎn)生出高權(quán)重的TF-IDF。因此,TF-IDF傾向于過(guò)濾掉常見(jiàn)的詞匯,保留重要的詞匯。
現(xiàn)有技術(shù)的TF-IDF表示了一個(gè)詞匯對(duì)一個(gè)文檔的重要程度,但是對(duì)于目前現(xiàn)狀來(lái)講,還有以下問(wèn)題:
1、TF-IDF僅表示了詞匯統(tǒng)計(jì)結(jié)果,及詞匯個(gè)數(shù)對(duì)某個(gè)文檔的重要程度,而現(xiàn)狀訓(xùn)練集多來(lái)自于網(wǎng)頁(yè),即網(wǎng)頁(yè)內(nèi)容與分類(lèi)的對(duì)應(yīng)。網(wǎng)頁(yè)中信息不僅僅為文本,還有更豐富的信息,如文本出現(xiàn)的位置,文本字體大小,pagerank值(某個(gè)網(wǎng)頁(yè)被引用的次數(shù)可以表示網(wǎng)頁(yè)重要程度)等,這些信息TF-IDF沒(méi)有用到。
2、TF-IDF現(xiàn)有的對(duì)應(yīng)文檔關(guān)系,某個(gè)文檔與類(lèi)別對(duì)應(yīng)是一一對(duì)應(yīng)關(guān)系,而現(xiàn)有訓(xùn)練集中,往往一個(gè)網(wǎng)頁(yè)對(duì)應(yīng)不同分類(lèi),即同時(shí)存在于多個(gè)分類(lèi)。例如,新浪的分類(lèi)中,一級(jí)分類(lèi)為體育,二級(jí)分類(lèi)隨著時(shí)事變更,足球和世界杯這兩個(gè)分類(lèi)會(huì)同時(shí)存在,那里面會(huì)有部分網(wǎng)頁(yè)是重復(fù)的,這種情況,現(xiàn)有技術(shù)沒(méi)有解決方法。
3、現(xiàn)有的網(wǎng)頁(yè)對(duì)分類(lèi)的貢獻(xiàn)程度沒(méi)有明確表示,而網(wǎng)頁(yè)對(duì)分類(lèi)的重要程度是可以獲得且具有很大的應(yīng)用價(jià)值。
發(fā)明內(nèi)容
本發(fā)明的目的是針對(duì)現(xiàn)有技術(shù)中TF-IDF存在的問(wèn)題而提出的一種詞匯分類(lèi)的方法、系統(tǒng)和實(shí)現(xiàn)方法,能夠自動(dòng)完成詞匯分類(lèi),而且投入很少,效果更加準(zhǔn)確。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于中國(guó)移動(dòng)通信集團(tuán)公司,未經(jīng)中國(guó)移動(dòng)通信集團(tuán)公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110456676.8/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 詞匯關(guān)聯(lián)系統(tǒng)及其方法
- 關(guān)聯(lián)詞匯搜索系統(tǒng)及方法
- 一種基于黑白灰詞匯的學(xué)習(xí)系統(tǒng)及方法
- 文字詞匯匯評(píng)量測(cè)驗(yàn)的方法
- 詞向量訓(xùn)練方法及裝置
- 詞向量訓(xùn)練方法和裝置
- 基于會(huì)員搜索喜好的商品宣傳畫(huà)冊(cè)生成方法
- 意見(jiàn)詞匯擴(kuò)充系統(tǒng)及意見(jiàn)詞匯擴(kuò)充方法
- 一種詞匯圖譜搭建方法及電子設(shè)備
- 文本關(guān)鍵字識(shí)別方法、裝置、計(jì)算機(jī)設(shè)備及可讀存儲(chǔ)介質(zhì)
- 數(shù)據(jù)分類(lèi)的方法和裝置
- 一種圖像分類(lèi)方法及裝置
- 報(bào)文分類(lèi)方法及網(wǎng)絡(luò)設(shè)備
- 一種短文本多標(biāo)簽分類(lèi)方法及裝置
- 一種高正確率的自然語(yǔ)言分類(lèi)器系統(tǒng)
- 多分類(lèi)模型優(yōu)化方法、裝置、存儲(chǔ)介質(zhì)及電子設(shè)備
- 一種回收部件的分類(lèi)回收箱和分類(lèi)驗(yàn)收裝置
- 一種回收部件的分類(lèi)回收箱和分類(lèi)驗(yàn)收裝置
- 一種基于神經(jīng)網(wǎng)絡(luò)的文本分類(lèi)方法和裝置
- 一種塑料大小分類(lèi)機(jī)
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線(xiàn)程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





