[發(fā)明專利]一種面向社交網(wǎng)絡(luò)不規(guī)則短文本的粵語分詞方法在審
| 申請?zhí)枺?/td> | 202011236593.3 | 申請日: | 2020-11-09 |
| 公開(公告)號: | CN112307759A | 公開(公告)日: | 2021-02-02 |
| 發(fā)明(設(shè)計(jì))人: | 周亞東;高泱晗;邊策;劉曉明;沈超;管曉宏 | 申請(專利權(quán))人: | 西安交通大學(xué) |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/284;G06F40/242;G06F40/216;G06F40/126;G06F16/951;G06F16/955;G06Q50/00 |
| 代理公司: | 西安智大知識產(chǎn)權(quán)代理事務(wù)所 61215 | 代理人: | 段俊濤 |
| 地址: | 710049 陜*** | 國省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 面向 社交 網(wǎng)絡(luò) 不規(guī)則 文本 粵語 分詞 方法 | ||
本發(fā)明涉及一種面向社交網(wǎng)絡(luò)不規(guī)則短文本的粵語分詞方法,屬于自然語言處理領(lǐng)域。本發(fā)明的面向粵語語境的短文本清洗和分詞的方法,具體包括四個(gè)功能模塊,分別為支持用戶自定義的短文本清洗模塊、粵語聯(lián)合語料庫構(gòu)建模塊、短文本掃描和初步切分模塊、未登錄詞處理及分詞結(jié)果輸出模塊。本發(fā)明解決了現(xiàn)有技術(shù)中沒有考慮到面向社交網(wǎng)絡(luò)不規(guī)則短文本的粵語分詞方法,提出了滿足用戶自身不同應(yīng)用場景的個(gè)性化數(shù)據(jù)清洗模型,建立了面向社交網(wǎng)絡(luò)的粵語聯(lián)合語料庫,設(shè)計(jì)了基于構(gòu)建的聯(lián)合語料庫的分詞模型,同時(shí)綜合考慮了文本中出現(xiàn)未登錄詞的處理方案,提出對應(yīng)的綜合處理模型,最終在連登論壇平臺爬取的短文本數(shù)據(jù)中驗(yàn)證,分詞準(zhǔn)確率達(dá)87%。
技術(shù)領(lǐng)域
本發(fā)明屬于網(wǎng)絡(luò)信息以及自然語言處理技術(shù)領(lǐng)域,特別涉及一種面向社交網(wǎng)絡(luò)不規(guī)則短文本的粵語分詞方法。
背景技術(shù)
詞是自然語言中能夠獨(dú)立運(yùn)用的最小單位,是信息處理的基本單位。自然語言處理的對象是句子,拿到句子之后一般要對句子進(jìn)行分詞。分詞就是利用計(jì)算機(jī)識別出文本中詞的過程。大部分的印歐語言,詞與詞之間有空格之類的顯示標(biāo)志指示詞的邊界。因此,利用很容易切分出句子中的詞。而與大部分的印歐語言不同,中文語句中詞與詞之間沒有空格標(biāo)志指示,所以,需要專門的方法去實(shí)現(xiàn)中文分詞。分詞是文本挖掘的基礎(chǔ),通常用于自然語言處理、搜索引擎、推薦等領(lǐng)域中。中文文字博大精深,不僅有著普通漢語文字、繁體字,還有著粵語文本這類社交文本。
目前實(shí)際工作中對于中文數(shù)據(jù)清洗和分詞方法的研究,以面向普通漢語文字為主,缺少在粵語語境下,面向社交網(wǎng)絡(luò)不規(guī)則短文本的分詞方法,需要設(shè)計(jì)相對應(yīng)的數(shù)據(jù)清洗系統(tǒng)和粵語分詞系統(tǒng)來進(jìn)行實(shí)現(xiàn)。
發(fā)明內(nèi)容
為了克服上述現(xiàn)有技術(shù)的缺點(diǎn),本發(fā)明的目的在于提供一種面向社交網(wǎng)絡(luò)不規(guī)則短文本的粵語分詞方法,以實(shí)現(xiàn)基于用戶自定義需求進(jìn)行數(shù)據(jù)清洗和面向粵語語境的短文本分詞。
為了實(shí)現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案是:
一種面向社交網(wǎng)絡(luò)不規(guī)則短文本的粵語分詞方法,包括如下步驟:
步驟1,利用支持用戶自定義的短文本清洗模塊對原始語料進(jìn)行編碼統(tǒng)一,然后基于用戶文本清洗需求進(jìn)行后續(xù)的數(shù)據(jù)清洗;
步驟2,利用粵語聯(lián)合語料庫構(gòu)建模塊對語料庫進(jìn)行設(shè)計(jì)和更新,以得到適用于粵語語境的聯(lián)合語料庫;
步驟3,基于步驟2得到的聯(lián)合語料庫,利用短文本掃描和初步切分模塊對步驟1清洗后的文本進(jìn)行詞圖掃描尋找成詞情況,基于分詞構(gòu)造有向無環(huán)圖;并利用動(dòng)態(tài)規(guī)劃進(jìn)行逆向最大匹配,尋找最大概率路徑下的切分組合,形成初步分詞切分組合;
步驟4,利用未登錄詞處理及分詞結(jié)果輸出模塊對得到的初步分詞切分組合進(jìn)行判斷,若切分詞不為未登錄詞,則將其作為最終切分組合;若切分詞為未登錄詞,則構(gòu)建詞匯模型,利用所述聯(lián)合語料庫訓(xùn)練得到的概率表,對未登錄詞進(jìn)行序列標(biāo)注后利用Viterbi算法進(jìn)行求解,得到一個(gè)概率最大的分詞序列,對待分詞的句子重新組合,得到最終切分組合,最后根據(jù)用戶對于輸出結(jié)果形式的需求進(jìn)行輸出。
優(yōu)選地,所述步驟1中,對原始語料進(jìn)行編碼統(tǒng)一,選擇的編碼為“GBK”、“UTF-16”或“UTF-8”,所述數(shù)據(jù)清洗包括:TML字符轉(zhuǎn)換、移除標(biāo)點(diǎn)符號、移除表情符號或移除url鏈接,將移除的內(nèi)容用空格替代保證短文本的整齊。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西安交通大學(xué),未經(jīng)西安交通大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011236593.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 社交網(wǎng)絡(luò)裝置成員資格和應(yīng)用
- 一種社交對象搜索方法及裝置
- 針對嵌入式應(yīng)用上下文中的搜索的查詢意圖表達(dá)
- 一種關(guān)鍵社交信息的確定方法及裝置
- 社交網(wǎng)絡(luò)數(shù)據(jù)的可視化方法、裝置、設(shè)備及存儲介質(zhì)
- 動(dòng)態(tài)社交圈確定方法、裝置、設(shè)備及存儲介質(zhì)
- 控制社交分享信息在社交空間的呈現(xiàn)狀態(tài)的方法與設(shè)備
- 社交角色管理方法、計(jì)算機(jī)設(shè)備及存儲介質(zhì)
- 基于社交關(guān)系的社交屬性數(shù)據(jù)確定方法、裝置及設(shè)備
- 一種社交賬戶推薦方法、裝置、電子設(shè)備和存儲介質(zhì)
- 網(wǎng)絡(luò)和網(wǎng)絡(luò)終端
- 網(wǎng)絡(luò)DNA
- 網(wǎng)絡(luò)地址自適應(yīng)系統(tǒng)和方法及應(yīng)用系統(tǒng)和方法
- 網(wǎng)絡(luò)系統(tǒng)及網(wǎng)絡(luò)至網(wǎng)絡(luò)橋接器
- 一種電力線網(wǎng)絡(luò)中根節(jié)點(diǎn)網(wǎng)絡(luò)協(xié)調(diào)方法和系統(tǒng)
- 一種多網(wǎng)絡(luò)定位方法、存儲介質(zhì)及移動(dòng)終端
- 網(wǎng)絡(luò)裝置、網(wǎng)絡(luò)系統(tǒng)、網(wǎng)絡(luò)方法以及網(wǎng)絡(luò)程序
- 從重復(fù)網(wǎng)絡(luò)地址自動(dòng)恢復(fù)的方法、網(wǎng)絡(luò)設(shè)備及其存儲介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法、裝置及存儲介質(zhì)
- 網(wǎng)絡(luò)管理方法和裝置





