[發(fā)明專利]基于音節(jié)切分和詞切分聯(lián)合學習的多任務泰語分詞方法有效
| 申請?zhí)枺?/td> | 202110079486.2 | 申請日: | 2021-01-21 |
| 公開(公告)號: | CN112883726B | 公開(公告)日: | 2021-12-28 |
| 發(fā)明(設計)人: | 線巖團;王悅寒;余正濤;相艷;毛存禮 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/129;G06F16/35;G06N3/08 |
| 代理公司: | 昆明人從眾知識產(chǎn)權代理有限公司 53204 | 代理人: | 何嬌 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 音節(jié) 切分 聯(lián)合 學習 任務 泰語 分詞 方法 | ||
本發(fā)明涉及基于音節(jié)切分和詞切分聯(lián)合學習的多任務泰語分詞方法。本發(fā)明包括:預處理泰語文本數(shù)據(jù)集;使用窗口化的方式選擇泰語字符特征和字符類別特征作為特征輸入;之后利用注意力機制獲得豐富的上下文特征;最后輸出層使用線性變換和Sigmoid函數(shù)去預測當前序列中的音節(jié)序列標簽和詞序列標簽。本發(fā)明采用多任務學習的方式,它能夠同時學習同一個句子在音節(jié)切分和詞切分的序列標簽,用音節(jié)切分輔助詞切分,以提高模型泛化能力。本發(fā)明在InterTEST2010數(shù)據(jù)集上有更高的準確性,與DeepCut泰語分詞模型相比,系統(tǒng)運行速度至少提高了1.6倍,為后續(xù)的文本分類、信息檢索和機器翻譯提供了支撐。
技術領域
本發(fā)明涉及基于音節(jié)切分和詞切分聯(lián)合學習的多任務泰語分詞方法,屬于自然語言處理領域。
背景技術
在自然語言處理中,泰語分詞是文本分類、信息檢索和機器翻譯等下游任務的基礎。主流的泰語分詞方法將泰語分詞視為基于字符的序列標注問題,其中為每個字符分配一個標簽以表示其邊界信息。
盡管已有的泰語分詞模型取得了很好的進展,但它們考慮的字符信息少,分詞準確率低等問題。Kittinaradorn等人針對以上問題提出了一種基于CNN的分詞模型-DeepCut,該模型利用字符和字符類別嵌入作為特征輸入,使用卷積核寬度為1-12的1d卷積層,進而使用最大池化(Max-pooling)提取來自卷積層特征,全連接層得出相應字符的標簽概率,盡管該分詞模型取得了較好的性能,但由于模型參數(shù)過多,導致分詞速度慢。Pattarawat等人在DeepCut的基礎上進行相關研究,分析了DeepCut模型缺陷,提出了AttaCut-C和AttaCut-SC泰語分詞模型,兩個模型在卷積層中都使用了擴張卷積,使分詞模型具有較高的并行度。此外,在AttaCut-SC模型中的嵌入層融入泰語音節(jié)。相較于DeepCut,AttaCut-SC模型在速度上有很大的提升,但是分詞性能有所下降。
發(fā)明內容
本發(fā)明提供了基于音節(jié)切分和詞切分聯(lián)合學習的多任務泰語分詞方法,以用于對泰語文本句子分詞,解決了由于模型提取的特征不夠豐富,模型參數(shù)過多導致泰語分詞性能較低和分詞速度慢的問題。
發(fā)明技術方案:基于音節(jié)切分和詞切分聯(lián)合學習的多任務泰語分詞方法,所述方法的具體步驟如下:
Step1、對從InterBEST2010的泰語語料庫中獲取的泰語文本進行預處理,為每一個字符匹配它對應的字符類別,給每個字符之間的邊界按照音節(jié)和詞結構特點打標簽。
Step2、通過滑動窗口的方式從經(jīng)過Step1預處理過的數(shù)據(jù)中依次得到包含21個字符信息的輸入,利用字符嵌入和位置嵌入對泰語字符進行特征編碼,將獲得的字符表征和字符類別表征進行拼接得到新的表征,將新的表征輸入Transformer的編碼器模型,確定每個字符組成音節(jié)或詞的概率。
所述步驟Step1的具體步驟為:
Step1.1、針對已經(jīng)進行詞切分的泰語語料,進行過濾篩選,刪除泰語文本中的'NE'、'/NE'、'AB'、'/AB'這些字符,之后依次遍歷泰語文本中的每一個字符,并為每一個字符匹配它對應的字符類別;
Step1.2、根據(jù)泰語文本中用“|”劃分的詞匯,結合字符在詞匯中的位置信息,給每一個字符標注切分標識,一個泰語詞匯中第一個字符,標注為1,其它位置的字符,標注為0;
Step1.3、調用PyThaiNLP中的syllable_tokenize方法對詞匯進行音節(jié)切分,結合字符在音節(jié)中的位置信息,給每一個字符標注切分標識,一個泰語音節(jié)中第一個字符,標注為1,其它位置的字符,標注為0;
Step1.4、以DataFrame的數(shù)據(jù)結構形式對Step1.1、Step1.2和Step1.3中得到的字符、字符類別、組成詞的字符標識和組成音節(jié)的字符標識信息進行存儲;
作為本發(fā)明的優(yōu)選方案,所述步驟Step2的具體步驟如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經(jīng)昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110079486.2/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 中繼網(wǎng)絡中的聯(lián)合方法、系統(tǒng)、中繼站及移動臺
- 中繼網(wǎng)絡中的聯(lián)合方法、系統(tǒng)、中繼站及移動臺
- 便攜信息終端、以及便攜信息終端的控制方法
- 電法與地震同步聯(lián)合反演方法及系統(tǒng)
- 銀行聯(lián)合放款的放款方法、裝置及計算機可讀存儲介質
- 一種基于自主學習群搜索算法的聯(lián)合調度方法及系統(tǒng)
- 一種基于多目標種群群搜索算法的聯(lián)合調度方法及系統(tǒng)
- 聯(lián)合貸款中的罰息與利息結算方法、裝置、介質和設備
- 一種基坑支護用H型鋼構件
- 用于云環(huán)境的語義元聯(lián)合代理





