[發明專利]長文本處理方法、相關設備及可讀存儲介質有效
| 申請號: | 202011492809.2 | 申請日: | 2020-12-17 |
| 公開(公告)號: | CN112527992B | 公開(公告)日: | 2023-01-17 |
| 發明(設計)人: | 代旭東;葉忠義;張浩宇;方昕 | 申請(專利權)人: | 科大訊飛股份有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/35;G06F16/34 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 李偉 |
| 地址: | 230088 安徽*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 處理 方法 相關 設備 可讀 存儲 介質 | ||
1.一種長文本處理方法,其特征在于,所述方法包括:
獲取待處理的長文本;
基于預置的文本處理模型的處理類型,將所述長文本分割成多個文本片段,每個文本片段的長度不超過所述文本處理模型所能處理最大文本的長度;
針對每個文本片段,利用所述文本處理模型進行處理,得到所述文本片段對應的處理結果;
基于各文本片段對應的處理結果,得到與所述長文本對應的處理結果;
其中,所述待處理的長文本為多個長文本,所述處理類型為從所述多個長文本中抽取預設問題的答案時,與所述文本片段對應的處理結果,包括:
答案位置預測結果,所述答案位置預測結果用于指示所述預設問題的答案在所述文本片段中的起始位置和結尾位置;
每個字符的類別標簽預測結果,所述類別標簽包括答案起始位置標簽、答案中間位置標簽、答案結尾位置標簽、非答案位置標簽和單個字答案位置標簽;
長文本預測結果,所述長文本預測結果用于表示所述文本片段對應的長文本中是否包含所述預設問題的答案;
則,所述基于各個文本片段對應的處理結果,得到與所述長文本對應的處理結果,包括:
基于每個文本片段對應的所述答案位置預測結果、所述每個字符的類別標簽預測結果和所述長文本預測結果,確定所述文本片段對應的答案預測結果;
基于各文本片段對應的答案預測結果,從所述多個長文本中抽取預設問題的答案。
2.根據權利要求1所述的方法,其特征在于,每一處理類型對應的所述文本處理模型是以訓練用文本片段為訓練樣本,以每個訓練用文本片段標注的與所述處理類型對應的處理結果為樣本標簽,對預訓練模型進行微調得到的。
3.根據權利要求2所述的方法,其特征在于,每一處理類型對應的所述文本處理模型是采用如下方式進行訓練的:
以第一訓練用文本片段為訓練樣本,以第一訓練用文本片段標注的與所述處理類型對應的處理結果為樣本標簽,對教師模型進行訓練;
利用訓練好的教師模型對所述第一訓練用文本片段和第二訓練用文本片段進行處理,得到所述第一訓練用文本片段的處理結果和所述第二訓練用文本片段的處理結果;
以所述第一訓練用文本片段和所述第二訓練用文本片段為訓練樣本,以所述第一訓練用文本片段的處理結果和所述第二訓練用文本片段的處理結果為樣本標簽,對學生模型進行訓練;
將訓練好的學生模型作為與所述處理類型對應的文本處理模型;
其中,所述學生模型的參數量小于所述教師模型的參數量。
4.根據權利要求1所述的方法,其特征在于,所述基于預置的文本處理模型的處理類型,將所述長文本分割成多個文本片段,包括:
獲取預設的第一參量和第二參量,所述第一參量大于所述第二參量;所述第一參量用于確定將所述長文本分割后每個文本片段的長度,所述第二參量用于確定將所述長文本分割后相鄰兩個文本片段的間隔長度;
基于所述預置的文本處理模型的處理類型,所述第一參量和所述第二參量,確定每個文本片段的起始位置和結束位置;
基于各個文本片段的起始位置和結束位置,將所述長文本分割成多個文本片段。
5.根據權利要求4所述的方法,其特征在于,所述處理類型為從所述長文本中抽取預設問題的答案,或,對所述長文本進行分類;
則,所述基于所述處理類型,所述第一參量和所述第二參量,確定每個文本片段的起始位置和結束位置,包括:
基于所述第一參量確定滑動窗口的大小,基于所述第二參量確定滑動窗口的步長,所述滑動窗口的大小小于等于所述第一參量,所述滑動窗口的步長小于等于所述第二參量;
通過將所述大小的滑動窗口以所述步長從所述長文本的首個字符滑動至所述長文本的最后一個字符,確定每個文本片段的起始位置和結束位置。
6.根據權利要求5所述的方法,其特征在于,所述待處理的長文本為單個長文本,所述處理類型為從所述單個長文本中抽取預設問題的答案時,與所述文本片段對應的處理結果為:
所述文本片段中每個字符的類別標簽預測結果,所述類別標簽包括答案起始位置標簽、答案中間位置標簽、答案結尾位置標簽、非答案位置標簽和單個字答案位置標簽。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于科大訊飛股份有限公司,未經科大訊飛股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011492809.2/1.html,轉載請聲明來源鉆瓜專利網。





