[發明專利]長文本分割方法、裝置、電子設備及計算機可讀存儲介質在審
| 申請號: | 202310615008.8 | 申請日: | 2023-05-29 |
| 公開(公告)號: | CN116629251A | 公開(公告)日: | 2023-08-22 |
| 發明(設計)人: | 舒暢;肖京;陳又新 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F40/30;G06N3/0442;G06V20/40 |
| 代理公司: | 深圳市沃德知識產權代理事務所(普通合伙) 44347 | 代理人: | 范臘梅 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 分割 方法 裝置 電子設備 計算機 可讀 存儲 介質 | ||
1.一種長文本分割方法,其特征在于,所述方法包括:
獲取待分割長文本,對所述待分割長文本執行句向量轉換操作,得到句向量序列;
獲取自適應滑窗大小,依次從所述句向量序列中提取與所述自適應滑窗大小相同數量的句向量作為目標分割單元;
依次從所述目標分割單元中選擇一個句向量作為目標句向量,計算所述目標句向量與所述目標分割單元中相鄰的句向量之間的語義特征距離;
當所述語義特征距離大于或等于預設的距離閾值時,生成所述目標句向量對應的語義斷點標簽,將所述語義斷點標簽前的句向量及所述語義斷點標簽對應的句向量組成語義段落;
從所述句向量序列中剔除所述語義段落對應的句向量,并返回上述的獲取自適應滑窗大小,依次從所述句向量序列中提取與所述自適應滑窗大小相同數量的句向量作為目標分割單元的步驟,直到所述句向量序列為空,匯集每個所述語義段落得到所述待分割長文本的分割后的文本。
2.如權利要求1所述的長文本分割方法,其特征在于,所述對所述待分割長文本執行句向量轉換操作,得到句向量序列,包括:
對所述待分割長文本執行分句操作,依次對每個所述分句進行分詞,并對每個所述分詞進行詞向量轉換;
將每個所述分句對應的詞向量相加,得到每個所述分句的詞向量矩陣;
對每個所述詞向量矩陣進行池化操作,得到每個所述分句對應的句向量;
按照每個所述分句在所述待分割長文本中的先后順序,匯集每個所述分句對應的句向量,得到所述句向量序列。
3.如權利要求1所述的長文本分割方法,其特征在于,所述獲取自適應滑窗大小,包括:
獲取默認滑窗大小;
判斷所述句向量序列中的句向量數量是否小于所述默認滑窗大小;
當所述句向量序列中的句向量數量小于所述默認滑窗大小時,將所述句向量序列中的句向量的數量作為所述自適應滑窗大小;
當所述句向量序列中的句向量數量不小于所述默認滑窗大小時,則判斷所述句向量序列中與所述默認滑窗大小數量相同的隊首的句向量是否已做過分割操作;
當與所述默認滑窗大小數量相同的隊首的句向量已經做過所述目標分割單元,則將所述默認滑窗大小預設倍數作為所述自適應滑窗大小;
當與所述默認滑窗大小數量相同的隊首的句向量未做過目標分割單元,則將所述默認滑窗大小作為所述自適應滑窗大小。
4.如權利要求1所述的長文本分割方法,其特征在于,所述計算所述目標句向量與所述目標分割單元中相鄰的句向量之間的語義特征距離,包括:
利用預先訓練好的自然語言學習模型,提取所述目標句向量在所述句向量序列中的時序特征及所述相鄰的句向量的時序特征;
提取所述目標句向量對應分句的文本特征及所述相鄰的句向量對應分句的文本特征;
將每個句向量對應的時序特征與文本特征進行拼接,得到每個句向量對應的語義特征;
利用預設的距離公式,依次計算所述目標句向量與所述相鄰的句向量之間的語義特征之間的距離,得到所述語義特征距離。
5.如權利要求4所述的長文本分割方法,其特征在于,所述提取所述目標句向量對應分句的文本特征,包括:
獲取所述目標句向量對應的分詞,逐個選取其中一個分詞為目標分詞;
生成所述目標分詞的詞向量,根據所述目標分詞的詞向量及所述目標句向量,計算所述目標分詞的關鍵值;
按照所述關鍵值從大到小的順序從所述目標句向量對應的分詞中選取預設數量的分詞作為特征分詞;
將所述特征分詞的詞向量拼接得到所述目標句向量對應的文本特征。
6.如權利要求5所述的長文本分割方法,其特征在于,所述生成待分類視頻的圖像序列,包括:
利用如下關鍵值算法計算所述目標分詞的關鍵值:
其中,K為所述關鍵值,|WT|為所述文本向量矩陣的轉置矩陣的模,為所述目標分詞的詞向量的模。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310615008.8/1.html,轉載請聲明來源鉆瓜專利網。





