[發明專利]互聯網熱詞挖掘方法及裝置在審
| 申請號: | 201310607937.0 | 申請日: | 2013-11-27 |
| 公開(公告)號: | CN104679738A | 公開(公告)日: | 2015-06-03 |
| 發明(設計)人: | 肖詩斌;孫麗華 | 申請(專利權)人: | 北京拓爾思信息技術股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 無 | 代理人: | 無 |
| 地址: | 100088 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 互聯網 挖掘 方法 裝置 | ||
技術領域
本發明涉及自然語言處理技術,尤其涉及一種互聯網熱詞挖掘方法及裝置。
背景技術
熱詞是指在某段時間內使用頻率較高的詞語,往往具有時代特征,反映一個時期的熱點話題及民生問題?;ヂ摼W熱詞除了詞典已收錄詞外,還存在一些網絡熱詞,這類詞來源于、流傳于網絡空間,并被廣泛應用于日常交流之中,如“何棄療”、“不明覺厲”、“陳歐體”等,分詞系統通常很難識別這類詞語,而網絡熱詞卻作為一種新的重要傳播現象出現在當今互聯網中,并且隨著時代的變化,發生著演化和變遷。
互聯網熱詞與社會事件或現象聯系緊密,成為民意表達與輿論監督的工具,準確、高效抽取互聯網熱詞是當下輿情監管、互聯網研究等重要事宜的發展基礎。
熱詞挖掘目前所使用的技術有,基于文檔聚類的熱詞挖掘,這類方法通常容易出現聚類復雜度高,無法滿足互聯網熱詞挖掘的實時性需求;另外一種是,根據字串的成詞邊界、時間分布等特征,采用機器學習模型,進行熱詞與否的分類學習,這類方法一方面需要知識庫支持,另一方面所選取特征基本是字串公有特征,沒有對特殊字串做特殊處理,導致噪音詞較大,熱詞發現的準確率不高。
由于各實體串具有獨特的成詞規律,如人名串由有限的姓氏+高頻名字用詞組成,且目前有大量實體串知識庫,便于機器學習模型學習。為此,本發明將互聯網熱詞分為實體串與非實體串,提出一種互聯網熱詞挖掘方法和裝置,以解決互聯網熱詞挖掘效率瓶頸。
發明內容
鑒于此,本發明主要目的是提供一種互聯網熱詞挖掘方法和裝置,以提高熱詞挖掘的準確率和效率。
本發明提供了一種互聯網熱詞挖掘方法,該方法包括。
步驟A?構建詞圖Words和背景庫Corpus,并初始化。
詞圖Words,存儲每一步驟中抽取的詞的結果。
背景庫Corpus,存放互聯網采集來的源數據,同時記錄每一個時間單位里各統計指標結果,如標題串頻、正文串頻、總串頻等。
步驟B?實體串識別。
以句子終結符為標準,將互聯網原始數據切分為一個個原始字串序列。
對字串序列進行分詞原子切分,對原子單元進行兩兩組合,實現字串序列的二元粗切分,抽取最優的N個粗分結果加入到詞圖Words中。
構建三級互聯的隱馬爾科夫模型,自底向上依次為人名識別HMM,地名識別HMM和機構名識別HMM,每一級以隱馬爾科夫模型作為基本的算法模型,構建層疊隱馬爾科夫模型(Cascaded?Hidden?Markov?Model,簡稱Cascaded?HMM)。
每一層隱馬爾科夫模型采用N-Best策略,將產生的最好的N個結果送到詞圖Words中,供高層模型使用。
低層隱馬爾科夫模型通過詞語的生成模型為高層隱馬爾科夫模型的參數估計提供支持。
第一層人名識別的輸入為二元粗切分序列,每一層隱馬爾科夫模型都采用改進的Viterbi算法,將最好的N個結果送入詞圖中,供高一級模型使用。
最高級隱馬模型在人名和地名識別的基礎之上進行機構名識別。
步驟C?非實體串識別。
采用Nagao算法統計字串中長度為L的子串串頻,抽取串頻大于一定閾值的子串,進行子串歸并。
采用通用度過濾、IWP過濾、互信度過濾及首尾字過濾等策略進行垃圾串過濾,得到候選串,從候選串中過濾掉實體串,即為非實體串。
步驟D?字串統計指標更新。
字串分為候選實體串和非實體串,即為以上步驟抽取的串。
字串統計指標這里指服務于字串熱度計算的統計值,如字串在標題、正文中出現的頻次,字串出現的頻次總和,字串出現的文檔數,某時間單位下字串的頻次等指標的值。
背景庫Corpus中記錄源數據更新時間單位下的字串統計指標值,隨后時間單位的互聯網數據到來時,對背景庫Corpus中的語料進行增量更新,同時增量更新記錄中的指標。
步驟E?字串熱度計算。
字串熱度權值分為:基礎權值和波動權值,根據背景庫中實時更新的統計指標計算字串熱度。
其中,基礎權值由串出現的位置信息、頻率、逆文檔頻率確定。
波動權值,用字串的時間衰減度來描述。
熱詞被定義為某一時間段內頻繁、大量使用的詞,為此采用詞條的時間衰減度來表征字串頻率隨時間的變化,簡稱衰減度。
更進一步地,基礎權值計算公式如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京拓爾思信息技術股份有限公司;,未經北京拓爾思信息技術股份有限公司;許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310607937.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:信息處理方法及裝置
- 下一篇:Word文件的排版方法和裝置





