[發明專利]一種面向社交網絡不規則短文本的粵語分詞方法在審
| 申請號: | 202011236593.3 | 申請日: | 2020-11-09 |
| 公開(公告)號: | CN112307759A | 公開(公告)日: | 2021-02-02 |
| 發明(設計)人: | 周亞東;高泱晗;邊策;劉曉明;沈超;管曉宏 | 申請(專利權)人: | 西安交通大學 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/284;G06F40/242;G06F40/216;G06F40/126;G06F16/951;G06F16/955;G06Q50/00 |
| 代理公司: | 西安智大知識產權代理事務所 61215 | 代理人: | 段俊濤 |
| 地址: | 710049 陜*** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 社交 網絡 不規則 文本 粵語 分詞 方法 | ||
1.一種面向社交網絡不規則短文本的粵語分詞方法,其特征在于,包括如下步驟:
步驟1,利用支持用戶自定義的短文本清洗模塊對原始語料進行編碼統一,然后基于用戶文本清洗需求進行后續的數據清洗;
步驟2,利用粵語聯合語料庫構建模塊對語料庫進行設計和更新,以得到適用于粵語語境的聯合語料庫;
步驟3,基于步驟2得到的聯合語料庫,利用短文本掃描和初步切分模塊對步驟1清洗后的文本進行詞圖掃描尋找成詞情況,基于分詞構造有向無環圖;并利用動態規劃進行逆向最大匹配,尋找最大概率路徑下的切分組合,形成初步分詞切分組合;
步驟4,利用未登錄詞處理及分詞結果輸出模塊對得到的初步分詞切分組合進行判斷,若切分詞不為未登錄詞,則將其作為最終切分組合;若切分詞為未登錄詞,則構建詞匯模型,利用所述聯合語料庫訓練得到的概率表,對未登錄詞進行序列標注后利用Viterbi算法進行求解,得到一個概率最大的分詞序列,對待分詞的句子重新組合,得到最終切分組合,最后根據用戶對于輸出結果形式的需求進行輸出。
2.根據權利要求1所述面向社交網絡不規則短文本的粵語分詞方法,其特征在于,所述步驟1中,對原始語料進行編碼統一,選擇的編碼為“GBK”、“UTF-16”或“UTF-8”,所述數據清洗包括:TML字符轉換、移除標點符號、移除表情符號或移除url鏈接,將移除的內容用空格替代保證短文本的整齊。
3.根據權利要求2所述面向社交網絡不規則短文本的粵語分詞方法,其特征在于,將待處理的原始文本設為T,將其分為N個短文本序Si的集合,其中,0i≤N,T={S1,S2,S3…,SN,},所述TML字符轉換是用正則表達式將嵌入在原始數據中的大量html實體去掉;所述移除標點符號是當數據分析需要在單詞水平上被數據驅動時候,移除標點符號;所述移除表情符號是去除包含在社交網絡短文本中的表情符號;所述移除url鏈接是去除網絡短文本數據中在爬取過程中產生的大量URL數據;清洗操作基于N個短文本展開,對每一個短文本進行正則化匹配并實現文本清洗。
4.根據權利要求1所述面向社交網絡不規則短文本的粵語分詞方法,其特征在于,所述步驟2中,聯合語料庫的構建過程如下:
(1)對從報紙和書籍所收集的原始語料庫進行整理,并將其中的分詞轉化為粵語繁體字,作為官方文檔的原始語料庫;
(2)根據香港地區空間地點名稱、媒體名稱、人物名稱、機構名稱,組成的專有名詞,構建基于香港地區專有名詞的語料庫;
(3)添加香港社交網絡中常用的英文分詞,并根據香港社交平臺實時更新的網絡流行語以及網絡新詞,將其中出現的分詞整理并轉化為粵語繁體字,構建基于社交短文本的粵語分詞語料庫;
(4)將步驟(2)得到的語料庫和步驟(3)得到的粵語分詞語料庫進行拼接,并入步驟(1)所得到的原始語料庫,整合成為聯合語料庫。
5.根據權利要求4所述面向社交網絡不規則短文本的粵語分詞方法,其特征在于,所述(1)中,官方文檔的原始語料庫,整理為base語料庫;(2)中,空間地點名稱、媒體名稱、人物名稱、機構名稱分別整理為site、media、people、organization語料庫,(3)中,將粵語分詞語料庫整理為social語料庫。
6.根據權利要求1所述面向社交網絡不規則短文本的粵語分詞方法,其特征在于,所述步驟3包括以下步驟:
(1)對步驟1清洗后的文本進行詞圖掃描,生成句子中漢字所有可能成詞情況;
(2)在(1)中得到所有的成詞情況中,在句子中構造分詞的有向無環圖,對切分詞(a,b)進行記錄和標注,其中a代表分詞起始的字,b為可能的分詞終止的字;
(3)利用(2)切分好的詞語,對該詞語查找該詞語在聯合語料庫中出現的頻率,然后根據動態規劃查找最大概率路徑的方法,逆向匹配計算句子的最大概率,得到最大概率的切分組合,即初步分詞切分組合。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安交通大學,未經西安交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011236593.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于復合濾布的過濾袋
- 下一篇:一種玫瑰花護膚乳液及其生產方法





