[發明專利]文本分塊方法、裝置、計算機設備和存儲介質在審
| 申請號: | 202011578512.8 | 申請日: | 2020-12-28 |
| 公開(公告)號: | CN112733545A | 公開(公告)日: | 2021-04-30 |
| 發明(設計)人: | 劉德華;潘浩;陳志華;廖夢萍 | 申請(專利權)人: | 中電金信軟件有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F16/33;G06N3/04;G06N3/08 |
| 代理公司: | 北京華進京聯知識產權代理有限公司 11606 | 代理人: | 朱五云 |
| 地址: | 100192 北京市海淀區西*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 分塊 方法 裝置 計算機 設備 存儲 介質 | ||
本申請涉及一種文本分塊方法、裝置、計算機設備和存儲介質,包括:獲取待分塊文本的至少兩個待處理文本塊;獲取至少兩個待處理文本塊對應的語義連貫度得分和語義相似度得分;基于語義連貫度得分和語義相似度得分所分別對應的得分權重,確定至少兩個待處理文本塊對應的語義關聯度值;當語義關聯度值超過預設閾值時,對至少兩個待處理文本塊進行合并,得到合并文本塊;基于合并文本塊對待分塊文本進行操作,得到目標文本,實現了根據語義關聯度值,對已分塊的至少兩個待處理文本塊進行合并,使得歸屬于不同文本塊的文本信息可以被劃分在語義相近的文本塊中,提高文本塊中語義的一致性,也有效提升文本分塊的準確度和合理性。
技術領域
本申請涉及計算機技術領域,特別是涉及一種文本分塊方法、裝置、計算機設備和存儲介質。
背景技術
隨著文本處理技術的不斷發展,為了提高處理效率,在對文本進行正式處理前,可以對文本進行分塊處理,得到多個文本塊。
在現有技術中,往往會根據文本中出現的標點對文本進行分塊。然而,根據標點符號進行分塊容易導致文本塊的語義難以統一,例如不同語義的文本信息被分在同一文本塊中,或者相同語義的文本信息被分在兩個不同的文本塊中。
發明內容
基于此,有必要針對上述技術問題,提供一種文本分塊方法、裝置、計算機設備和存儲介質。
本申請實施例提供一種文本分塊方法,所述方法包括:
獲取待分塊文本的至少兩個待處理文本塊;
獲取所述至少兩個待處理文本塊對應的語義連貫度得分和語義相似度得分;
基于所述語義連貫度得分和所述語義相似度得分所分別對應的得分權重,確定所述至少兩個待處理文本塊對應的語義關聯度值;
當所述語義關聯度值超過預設閾值時,對所述至少兩個待處理文本塊進行合并,得到合并文本塊;
基于所述合并文本塊對所述待分塊文本進行操作,得到目標文本。
在其中一個實施例中,所述基于所述合并文本塊對所述待分塊文本進行操作,得到目標文本,包括:
將所述合并文本塊作為待處理文本塊替換對應的至少兩個待處理文本塊,并確定當前的待處理文本塊的總數;
判斷所述總數是否小于數量閾值;
若是,將當前的待處理文本塊,作為所述待分塊文本對應的分塊結果,得到目標文本;
若否,返回獲取待分塊文本的至少兩個待處理文本塊的步驟,直到任意兩個待處理文本塊的語義關聯度值均小于所述預設閾值時,根據當前的待處理文本塊,得到目標文本。
在其中一個實施例中,所述獲取待分塊文本的至少兩個待處理文本塊,包括:
從待分塊文本對應的至少兩個待處理文本塊中,獲取至少兩個待處理文本塊;
對獲取的所述至少兩個待處理文本塊進行分組,得到至少一個文本塊組合;屬于同一文本塊組合中的至少兩個待處理文本塊在位置上依次相鄰。
在其中一個實施例中,所述獲取所述至少兩個待處理文本塊對應的語義連貫度得分和語義相似度得分,包括:
確定出在位置上依次相鄰的所述至少兩個待處理文本塊之間的語義連貫度,輸出語義連貫度得分;
以及,
確定出在位置上依次相鄰的所述至少兩個待處理文本塊之間的語義相似度,輸出語義相似度得分。
在其中一個實施例中,所述語義關聯度值為同一文本塊組合中所有待處理文本塊對應的語義關聯度值;所述當所述語義關聯度值超過預設閾值時,對所述至少兩個目標待處理文本塊進行合并,得到合并文本塊,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中電金信軟件有限公司,未經中電金信軟件有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011578512.8/2.html,轉載請聲明來源鉆瓜專利網。





