[發明專利]一種基于多任務模型進行文本處理的方法、裝置、計算機裝置及計算機可讀取存儲介質在審
| 申請號: | 202110403610.6 | 申請日: | 2021-04-15 |
| 公開(公告)號: | CN113095082A | 公開(公告)日: | 2021-07-09 |
| 發明(設計)人: | 譚洋;段煉;周忠誠;張圣棟;黃九鳴;杜海燕 | 申請(專利權)人: | 湖南四方天箭信息科技有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/284;G06F40/242;G06F16/31;G06F40/30 |
| 代理公司: | 長沙智嶸專利代理事務所(普通合伙) 43211 | 代理人: | 顏漢華 |
| 地址: | 410000 湖南省長沙市高新開*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 任務 模型 進行 文本 處理 方法 裝置 計算機 讀取 存儲 介質 | ||
本發明公開了一種基于多任務模型進行文本處理的方法、裝置、計算機裝置及計算機可讀取存儲介質,該方法利用一個多任務模型即可同時進行分詞處理、詞性標注和命名實體識別這三個任務,模型加載快、預測時間短,不存在不同預測模型之間的誤差傳播,整體精度較高,并且在模型推理過程中通過將分詞標簽、詞性標簽和命名實體識別標簽融合成一個標簽文本,即三個任務使用同一套標簽系統,避免了標簽系統多而導致可能產生混淆的問題,在模型輸出標簽文本之后再將融合標簽拆分成三個任務對應的標簽,然后經過格式化處理后輸出,結果更加規范、直觀。
技術領域
本發明涉及自然語言處理技術領域,特別地,涉及一種基于多任務模型進行文本處理的方法、裝置、計算機裝置及計算機可讀取存儲介質。
背景技術
自然語言處理通常包括分詞、詞性標注、命名實體識別等過程,其中,分詞結果的準確與否直接影響到對搜索結果的相關度排序,而詞性標注則有利于詞義消歧、提高基于詞義的特征、規劃化和詞型合并等,而命名實體識別可以識別出文本中具有特殊意義的實體,也是自然語言處理的重要組成部分。傳統的自然語言處理方法是一個模型只處理一個任務,隨著任務的增多需要更多的模型。具體地,先采用分詞模型將文本分割成單個詞或者字,然后再使用詞性標注模型和命名實體識別模型分別進行處理。但是,采用上述處理方式會存在以下缺點:
1)分詞模型的誤差會傳播至詞性標注和命名識別中,整體精度較差;
2)需要訓練三個不同的模型,需要很多的計算資源和訓練時間;
3)模型加載和預測時間較長;
4)多個任務需要多個不同的標簽體系,容易造成標簽體系混淆。
而利用一個模型同時處理多個任務的難點在于:制作分詞、詞性標注和命名實體識別的訓練語料和標簽的難度較大,如何將三個任務的標簽進行融合以及后續進行拆分。
發明內容
本發明提供了一種基于多任務模型進行文本處理的方法、裝置、計算機裝置及計算機可讀取存儲介質,以解決現有的中文文本分析處理方式存在的整體精度差、使用的模型數量多、模型加載和預測時間長、標簽體系容易混淆的技術問題。
根據本發明的一個方面,提供一種基于多任務模型進行文本處理的方法,包括以下過程:
構建多任務模型;
將待處理的文本輸入訓練好的多任務模型,同時進行分詞處理、詞性標注和命名實體識別,輸出標簽文本;
將標簽文本拆分成分詞標簽、詞性標簽和命名實體識別標簽;
對拆分后的三種標簽進行格式化處理,規范化后輸出結果。
進一步地,所述將待處理的文本輸入訓練好的多任務模型,同時進行分詞處理、詞性標注和命名實體識別,輸出標簽文本,具體包括以下過程:
將待處理的原始文本拆分成單個字符,并利用內部字符索引表和詞典將單個字符轉換成索引并生成索引文本,同時生成必要的數據;
將索引文本輸入訓練好的多任務模型中進行預測,輸出每個字符的標簽索引;
基于每個字符的標簽索引生成預測數據標簽的索引序列;
利用預先定義好的標簽映射表將標簽索引序列轉換成標簽文本。
進一步地,所述將索引文本輸入訓練好的多任務模型中進行預測,輸出每個字符的標簽索引,具體包括以下過程:
利用BERT模型對輸入的索引文本進行語義特征提取,得到輸入文本的深度語義特征;
利用BiLSTM模型對提取的深度語義特征進行進一步的信息提煉,得到觀測序列依賴矩陣;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湖南四方天箭信息科技有限公司,未經湖南四方天箭信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110403610.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種防護效果好的高精度激光焊接設備
- 下一篇:一種土木建筑施工用實時混料設備





