[發(fā)明專利]文本正則化方法、裝置、設備和可讀存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202110024630.2 | 申請日: | 2021-01-08 |
| 公開(公告)號: | CN112668341A | 公開(公告)日: | 2021-04-16 |
| 發(fā)明(設計)人: | 謝澤穎 | 申請(專利權(quán))人: | 深圳前海微眾銀行股份有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F16/35;G06K9/34;G06K9/62 |
| 代理公司: | 深圳市世紀恒程知識產(chǎn)權(quán)代理事務所 44287 | 代理人: | 張志江 |
| 地址: | 518000 廣東省深圳市前海深港合作區(qū)前*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文本 正則 方法 裝置 設備 可讀 存儲 介質(zhì) | ||
1.一種文本正則化方法,其特征在于,所述文本正則化方法包括:
獲取待識別文本,并基于所述待識別文本對應的文本語義特征信息,對所述待識別文本中各待識別詞進行分類識別,獲得分類識別結(jié)果;
基于所述分類識別結(jié)果,對所述待識別文本進行文本正則化,獲得文本正則化結(jié)果。
2.如權(quán)利要求1所述文本正則化方法,其特征在于,所述基于所述待識別文本對應的文本語義特征信息,對所述待識別文本中各待識別詞進行分類識別,獲得分類識別結(jié)果的步驟包括:
對所述待識別文本進行特征編碼,獲得文本特征編碼數(shù)據(jù);
將所述文本特征編碼數(shù)據(jù)輸入預設詞分類模型,以基于所述文本語義特征信息,對各所述待識別詞進行分類,獲得分類結(jié)果;
基于所述分類結(jié)果,識別所述待識別文本中的各目標非標準詞和確定各所述目標非標準詞對應的目標非標準詞類別,獲得所述分類識別結(jié)果。
3.如權(quán)利要求2所述文本正則化方法,其特征在于,所述預設詞分類模型包括特征提取層和分類層,
所述將所述文本特征編碼數(shù)據(jù)輸入預設詞分類模型,以基于所述文本語義特征信息,對各所述待識別詞進行分類,獲得分類結(jié)果的步驟包括:
將所述文本特征編碼數(shù)據(jù)輸入所述特征提取層,對所述文本特征編碼數(shù)據(jù)進行特征提取,獲得所述文本語義特征信息;
將所述文本語義特征信息輸入所述分類層,將所述文本語義特征信息中各文本語義詞向量表示分別映射為對應的分類概率向量,獲得所述分類結(jié)果。
4.如權(quán)利要求2所述文本正則化方法,其特征在于,所述分類結(jié)果至少包括一個所述待識別詞對應的分類概率向量,
所述基于所述分類結(jié)果,識別所述待識別文本中的各目標非標準詞和確定各所述目標非標準詞對應的目標非標準詞類別,獲得所述分類識別結(jié)果的步驟包括:
基于各所述分類概率向量,分別確定各所述待識別詞的詞分類標簽;
基于各所述詞分類標簽,在各所述待識別詞中確定各所述目標非標準詞和各所述目標非標準詞對應的目標非標準詞類別。
5.如權(quán)利要求1所述文本正則化方法,其特征在于,所述基于所述分類識別結(jié)果,對所述待識別文本進行文本正則化,獲得文本正則化結(jié)果的步驟包括:
基于所述分類識別結(jié)果,確定所述待識別文本中各目標非標準詞對應的目標非標準詞類別;
依據(jù)各所述目標非標準詞類別,分別為各所述目標非標準詞匹配對應的預設正則化規(guī)則;
依據(jù)各所述預設正則化規(guī)則,分別對所述待識別文本中各所述目標非標準詞進行正則化,獲得所述文本正則化結(jié)果。
6.如權(quán)利要求2所述文本正則化方法,其特征在于,在所述將所述文本特征編碼數(shù)據(jù)輸入預設詞分類模型,以基于所述文本語義特征信息,對各所述待識別詞進行分類,獲得分類結(jié)果的步驟之前,所述文本正則化方法還包括:
獲取訓練文本和所述訓練文本對應的預設文本類別標簽;
將所述訓練文本輸入預設待訓練詞分類模型,以基于所述訓練文本的語義信息,對所述訓練文本中各目標詞進行分類,獲得各所述目標詞對應的分類標簽共同對應的輸出文本類別標簽;
基于所述預設文本類別標簽和所述輸出文本類別標簽,計算模型誤差;
基于所述模型誤差,對所述預設待訓練詞分類模型進行更新,并判斷更新后的所述預設待訓練詞分類模型是否滿足預設訓練結(jié)束條件;
若否,則返回獲取訓練文本和所述訓練文本對應的預設文本類別標簽的步驟,直至更新后的所述預設待訓練詞分類模型滿足所述預設訓練結(jié)束條件;
若是,則將所述預設待訓練詞分類模型作為所述預設詞分類模型。
7.如權(quán)利要求6所述文本正則化方法,其特征在于,所述獲取訓練文本和所述訓練文本對應的預設文本類別標簽的步驟包括:
獲取訓練文本和預設非標準詞類別體系;
基于所述預設非標準詞類別體系,對所述訓練文本中各非標準詞進行標簽標注,獲得各所述非標準詞對應的標注標簽;
基于所述訓練文本中各標準詞的詞標簽和各所述標注標簽,生成所述預設文本類別標簽。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳前海微眾銀行股份有限公司,未經(jīng)深圳前海微眾銀行股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110024630.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





