[發(fā)明專利]一種面向社交網(wǎng)絡(luò)不規(guī)則短文本的粵語分詞方法在審

申請?zhí)枺?/td>	202011236593.3	申請日：	2020-11-09
公開（公告）號：	CN112307759A	公開（公告）日：	2021-02-02
發(fā)明（設(shè)計(jì)）人：	周亞東;高泱晗;邊策;劉曉明;沈超;管曉宏	申請（專利權(quán)）人：	西安交通大學(xué)
主分類號：	G06F40/289	分類號：	G06F40/289;G06F40/284;G06F40/242;G06F40/216;G06F40/126;G06F16/951;G06F16/955;G06Q50/00
代理公司：	西安智大知識產(chǎn)權(quán)代理事務(wù)所 61215	代理人：	段俊濤
地址：	710049 陜***	國省代碼：	陜西;61
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	一種面向社交網(wǎng)絡(luò) 不規(guī)則文本粵語分詞方法
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【說明書】：

本發(fā)明涉及一種面向社交網(wǎng)絡(luò)不規(guī)則短文本的粵語分詞方法，屬于自然語言處理領(lǐng)域。本發(fā)明的面向粵語語境的短文本清洗和分詞的方法，具體包括四個(gè)功能模塊，分別為支持用戶自定義的短文本清洗模塊、粵語聯(lián)合語料庫構(gòu)建模塊、短文本掃描和初步切分模塊、未登錄詞處理及分詞結(jié)果輸出模塊。本發(fā)明解決了現(xiàn)有技術(shù)中沒有考慮到面向社交網(wǎng)絡(luò)不規(guī)則短文本的粵語分詞方法，提出了滿足用戶自身不同應(yīng)用場景的個(gè)性化數(shù)據(jù)清洗模型，建立了面向社交網(wǎng)絡(luò)的粵語聯(lián)合語料庫，設(shè)計(jì)了基于構(gòu)建的聯(lián)合語料庫的分詞模型，同時(shí)綜合考慮了文本中出現(xiàn)未登錄詞的處理方案，提出對應(yīng)的綜合處理模型，最終在連登論壇平臺爬取的短文本數(shù)據(jù)中驗(yàn)證，分詞準(zhǔn)確率達(dá)87％。

技術(shù)領(lǐng)域

本發(fā)明屬于網(wǎng)絡(luò)信息以及自然語言處理技術(shù)領(lǐng)域，特別涉及一種面向社交網(wǎng)絡(luò)不規(guī)則短文本的粵語分詞方法。

背景技術(shù)

詞是自然語言中能夠獨(dú)立運(yùn)用的最小單位，是信息處理的基本單位。自然語言處理的對象是句子，拿到句子之后一般要對句子進(jìn)行分詞。分詞就是利用計(jì)算機(jī)識別出文本中詞的過程。大部分的印歐語言，詞與詞之間有空格之類的顯示標(biāo)志指示詞的邊界。因此，利用很容易切分出句子中的詞。而與大部分的印歐語言不同，中文語句中詞與詞之間沒有空格標(biāo)志指示，所以，需要專門的方法去實(shí)現(xiàn)中文分詞。分詞是文本挖掘的基礎(chǔ)，通常用于自然語言處理、搜索引擎、推薦等領(lǐng)域中。中文文字博大精深，不僅有著普通漢語文字、繁體字，還有著粵語文本這類社交文本。

目前實(shí)際工作中對于中文數(shù)據(jù)清洗和分詞方法的研究，以面向普通漢語文字為主，缺少在粵語語境下，面向社交網(wǎng)絡(luò)不規(guī)則短文本的分詞方法，需要設(shè)計(jì)相對應(yīng)的數(shù)據(jù)清洗系統(tǒng)和粵語分詞系統(tǒng)來進(jìn)行實(shí)現(xiàn)。

發(fā)明內(nèi)容

為了克服上述現(xiàn)有技術(shù)的缺點(diǎn)，本發(fā)明的目的在于提供一種面向社交網(wǎng)絡(luò)不規(guī)則短文本的粵語分詞方法，以實(shí)現(xiàn)基于用戶自定義需求進(jìn)行數(shù)據(jù)清洗和面向粵語語境的短文本分詞。

為了實(shí)現(xiàn)上述目的，本發(fā)明采用的技術(shù)方案是：

一種面向社交網(wǎng)絡(luò)不規(guī)則短文本的粵語分詞方法，包括如下步驟：

步驟1，利用支持用戶自定義的短文本清洗模塊對原始語料進(jìn)行編碼統(tǒng)一，然后基于用戶文本清洗需求進(jìn)行后續(xù)的數(shù)據(jù)清洗；

步驟2，利用粵語聯(lián)合語料庫構(gòu)建模塊對語料庫進(jìn)行設(shè)計(jì)和更新，以得到適用于粵語語境的聯(lián)合語料庫；

步驟3，基于步驟2得到的聯(lián)合語料庫，利用短文本掃描和初步切分模塊對步驟1清洗后的文本進(jìn)行詞圖掃描尋找成詞情況，基于分詞構(gòu)造有向無環(huán)圖；并利用動(dòng)態(tài)規(guī)劃進(jìn)行逆向最大匹配，尋找最大概率路徑下的切分組合，形成初步分詞切分組合；

步驟4，利用未登錄詞處理及分詞結(jié)果輸出模塊對得到的初步分詞切分組合進(jìn)行判斷，若切分詞不為未登錄詞，則將其作為最終切分組合；若切分詞為未登錄詞，則構(gòu)建詞匯模型，利用所述聯(lián)合語料庫訓(xùn)練得到的概率表，對未登錄詞進(jìn)行序列標(biāo)注后利用Viterbi算法進(jìn)行求解，得到一個(gè)概率最大的分詞序列，對待分詞的句子重新組合，得到最終切分組合，最后根據(jù)用戶對于輸出結(jié)果形式的需求進(jìn)行輸出。

優(yōu)選地，所述步驟1中，對原始語料進(jìn)行編碼統(tǒng)一，選擇的編碼為“GBK”、“UTF-16”或“UTF-8”，所述數(shù)據(jù)清洗包括：TML字符轉(zhuǎn)換、移除標(biāo)點(diǎn)符號、移除表情符號或移除url鏈接，將移除的內(nèi)容用空格替代保證短文本的整齊。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費(fèi)下載。

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西安交通大學(xué)，未經(jīng)西安交通大學(xué)許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202011236593.3/2.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：一種基于復(fù)合濾布的過濾袋
下一篇：一種玫瑰花護(hù)膚乳液及其生產(chǎn)方法

同類專利

專利分類

G 物理

G06 計(jì)算；推算；計(jì)數(shù)
G06F 電數(shù)字?jǐn)?shù)據(jù)處理

免登錄下載普通用戶下載升級VIP會員，免費(fèi)下載

專利文獻(xiàn)下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實(shí)用新型專利、外觀設(shè)計(jì)專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進(jìn)行下載，點(diǎn)擊【登陸】【注冊】