[發明專利]數據處理方法、裝置及電子設備在審
| 申請號: | 202210129384.1 | 申請日: | 2022-02-11 |
| 公開(公告)號: | CN114492325A | 公開(公告)日: | 2022-05-13 |
| 發明(設計)人: | 魯俊 | 申請(專利權)人: | 上海喜馬拉雅科技有限公司 |
| 主分類號: | G06F40/151 | 分類號: | G06F40/151;G06F40/30;G10L15/26 |
| 代理公司: | 北京超凡宏宇專利代理事務所(特殊普通合伙) 11463 | 代理人: | 杜楊 |
| 地址: | 201100 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據處理 方法 裝置 電子設備 | ||
本申請提供了一種數據處理方法、裝置及電子設備,涉及數據處理技術領域。該方法包括:獲得目標文本;將目標文本中的每個句子轉換成向量,得到每個句子的句向量;根據每個句子的句向量,計算得到目標文本中各第一分割點的深度得分,其中,深度得分用于表示第一分割點前后的語義差別,深度得分根據第一分割點前后的兩個句子集合計算得到,兩個句子集合中分別包括多個句子;根據各第一分割點的深度得分,確定出目標分割點;根據目標分割點對目標文本進行段落分割。如此,可自動對文本進行分段,無需耗費大量人力手動分段。
技術領域
本申請涉及數據處理技術領域,具體而言,涉及一種數據處理方法、裝置及電子設備。
背景技術
在很多場景中,都需要對文本進行段落分割。比如,在從播客中進行片段抽取時,就需要先進行段落分割。若采用人工方式進行段落分割,則時間成本大,因此如何對文本進行自動分割已成為本領域技術人員亟需解決的技術問題。
發明內容
本申請實施例提供了一種數據處理方法、裝置、電子設備及可讀存儲介質,其能夠自動進行文本分段,無需耗費大量人力手動分段。
本申請的實施例可以這樣實現:
第一方面,本申請實施例提供一種數據處理方法,所述方法包括:
獲得目標文本;
將所述目標文本中的每個句子轉換成向量,得到每個句子的句向量;
根據每個句子的句向量,計算得到所述目標文本中各第一分割點的深度得分,其中,所述深度得分用于表示第一分割點前后的語義差別,所述深度得分根據第一分割點前后的兩個句子集合計算得到,兩個句子集合中分別包括多個句子;
根據各第一分割點的深度得分,確定出目標分割點;
根據所述目標分割點對所述目標文本進行段落分割。
第二方面,本申請實施例提供一種數據處理裝置,所述裝置包括:
文本獲得模塊,用于獲得目標文本;
向量表示模塊,用于將所述目標文本中的每個句子轉換成向量,得到每個句子的句向量;
計算模塊,用于根據每個句子的句向量,計算得到所述目標文本中各第一分割點的深度得分,其中,所述深度得分用于表示第一分割點前后的語義差別,所述深度得分根據第一分割點前后的兩個句子集合計算得到,兩個句子集合中分別包括多個句子;
確定模塊,用于根據各第一分割點的深度得分,確定出目標分割點;
分割模塊,用于根據所述目標分割點對所述目標文本進行段落分割。
第三方面,本申請實施例提供一種電子設備,包括處理器和存儲器,所述存儲器存儲有能夠被所述處理器執行的機器可執行指令,所述處理器可執行所述機器可執行指令以實現前述實施方式中所述的數據處理方法。
第四方面,本申請實施例提供的一種可讀存儲介質,其上存儲有計算機程序,所述計算機程序被處理器執行時實現前述實施方式中所述的數據處理方法。
本申請實施例提供的數據處理方法、裝置、電子設備及可讀存儲介質,在獲得目標文本的情況下,獲得該目標文本中每個句子的句向量,然后根據每個句子的句向量計算得到該目標文本中各第一分割點的深度得分,進而根據各第一分割點的深度得分確定出目標分割點,最后根據確定出的目標分割點對目標文本進行段落分割。其中,所述深度得分用于表示第一分割點前后的語義差別,所述深度得分根據第一分割點前后的兩個句子集合計算得到,兩個句子集合中分別包括多個句子。如此,可自動將相似的句子劃分到一個段落中,無需采用人工方式進行段落分割,可節省大量人力。
附圖說明
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海喜馬拉雅科技有限公司,未經上海喜馬拉雅科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210129384.1/2.html,轉載請聲明來源鉆瓜專利網。





