[發明專利]面向領域的文本大數據快速分詞方法在審
| 申請號: | 201811143681.1 | 申請日: | 2018-09-25 |
| 公開(公告)號: | CN110956036A | 公開(公告)日: | 2020-04-03 |
| 發明(設計)人: | 李傳藝;葛季棟;喬洪波;姚林霞;周筱羽;駱斌 | 申請(專利權)人: | 南京大學 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/247 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 210093 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 面向 領域 文本 數據 快速 分詞 方法 | ||
本發明公開了一種面向領域的文本大數據快速分詞方法,涉及大數據和自然語言預處理領域,解決了目前對大量中文實時文本分詞速度慢且較難識別新詞的問題。本發明的關鍵步驟有二:(1)對語料中的鄰接字建立頻次模型;(2)查找合適的位置將待分詞句子切分為若干詞語片段。本發明所采用的方法和效果有如下特點:(1)基于統計,不需要預先建立詞典,和其他人工干預;(2)在專用領域的語料上有較強的新詞發現能力;(3)分詞時間復雜度為O(n),明顯快于其他分詞工具;(4)分詞的平均錯誤率在10%以下。
技術領域
本發明涉及大數據領域自然語言預處理領域,尤其是一種大數據環境下快速分詞方法。
技術背景
中文分詞技術是中文文本挖掘和自然語言處理的基礎環節。中文詞的劃分不能像西方語系一樣通過單詞間的空格來實現,也沒有非常規范的語言結構來支持詞的劃分。中文分詞技術的研究已經進行了幾十年,目前大體可以劃分為三大類:基于詞典的方法、基于語義的方法和基于統計的方法。
其中,基于詞典的方法是目前準確率最高的一類方法,但這種方法非常依賴于詞典,詞典的完整程度直接決定分詞結果的好壞。然而在一些數據流量大,實時性強的環境(如:社交媒體)下,常常會出現一些新的流行詞匯不能被詞典及時收錄的情況,這會導致分詞效果降低。詞典的建立與更新需要很強的人工干預,增加了人的工作量。此外,分詞時搜索詞典所帶來的開銷十分可觀,在對大規模的文本分詞時這種開銷變得更加明顯。
基于語義的分詞試圖模擬人對文本的理解來實現分詞,但受限于語言知識,以及自然語言理解本身的復雜性,該方法目前還沒有較大發展。
基于統計的方法是指使用統計學的方法對文本抽取一些特征作為分詞依據。隱馬爾可夫模型(HMM)和條件隨機場(CRF)是比較流行的模型。基于統計的方法不需要依賴于人工建立的詞典,極大地省去了人工勞動。
在數據量成指數形式增長的今天,各領域文本數據量極大的增長。本發明為面向領域的文本大數據快速分詞技術,面向領域的文本指的是有共同主題的文本,如面向某一個影視劇的點評、對于某一類數碼產品的交流等細分領域。在這些面向領域的文本中,常常出現一些領域專屬術語,這些術語由于只在特定圈子內流行,難以被及時發現和收錄進詞典。比如,美劇《絕命毒師》中,觀眾會以“老白”和“小粉”來稱呼劇中主人公Mr.White和Pinkman,在處理這些文本時,若不能正確識別這兩個稱呼則會造成嚴重的分詞錯誤。形如“老白”和“小粉”的詞語只在特定領域內成詞,在領域外則是無效詞,不能通過將其加入詞典而一勞永逸的解決問題,并且,在領域細分越來越劇烈的今天,不可能及時發現和更新所有領域專屬術語。因此,需要一種健壯和迅速的方法處理面向領域的文本,以獲得更好的新詞、領域專屬詞識別能力和更大的分詞吞吐量。
本發明屬于基于統計的分詞方法,結合了大數據技術以提高對大規模語料的建模能力,同時基于簡單的切分規則實現詞語分割,以達到在線性時間內對文本進行快速分詞的目的。
發明內容
本發明為一種基于統計的分詞方法,目的是針對如今文本數據量不斷增加,新詞和領域專用詞不斷涌現時,傳統基于詞典的分詞方法難以及時更新詞典和快速分詞的問題。
本發明采用的技術方案可分解為兩大步驟:
步驟一:預先對待分詞句子的集合進行相鄰字出現頻次的統計,形成<鄰接字對,頻次>映射表。保存這個映射表以備后續步驟使用。
步驟二:分詞時,得到待分詞的某個句子。該句子中每一對鄰接字所形成的字對稱為邊。依照步驟一中產生的映射表,將句子中每一個邊填入對應鄰接字對的頻次,稱為權重;然后,從第一條邊開始向后依次遍歷所有邊,并做如下操作:如果當前邊的權重與上一條邊權重的比值小于特定閾值,則將這一條邊切斷;如果上一條邊權重與當前邊權重的比值小于特定閾值,則將上一條邊切開。切邊操作會將原始句子劃分為多個片段,其中每一個片段就是一個詞。
本發明的有益效果是:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京大學,未經南京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811143681.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種電子傳輸材料及其應用
- 下一篇:一種水中絡合重金屬吸附劑制備方法
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





