[發明專利]一種文本處理的方法、裝置、可讀存儲介質和電子設備有效
| 申請號: | 201911275301.4 | 申請日: | 2019-12-12 |
| 公開(公告)號: | CN111079411B | 公開(公告)日: | 2023-10-13 |
| 發明(設計)人: | 李超 | 申請(專利權)人: | 拉扎斯網絡科技(上海)有限公司 |
| 主分類號: | G06F40/216 | 分類號: | G06F40/216;G06F40/289 |
| 代理公司: | 北京睿派知識產權代理有限公司 11597 | 代理人: | 劉鋒 |
| 地址: | 200331 上海*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 處理 方法 裝置 可讀 存儲 介質 電子設備 | ||
1.一種文本處理的方法,其特征在于,該方法包括:
接收來自于程序調用接口的數據;
通過至少一個處理器解析所述數據,獲取至少一個第一文本;
通過所述至少一個處理器對所述至少一個第一文本進行切分,確定第二文本集合,所述第二文本集合包括至少一個第二文本,所述第二文本為第一文本的一部分;
通過所述至少一個處理器獲取所述第二文本的特征信息;
所述至少一個處理器根據所述第二文本的特征信息確定評價信息;
所述至少一個處理器根據所述評價信息確定至少一個所述第二文本中的至少一個切分關鍵詞;
所述至少一個處理器確定所述第一文本的最終切分方式,以及所述最終切分方式對應的最終切分關鍵詞;
所述至少一個處理器根據所述特征信息、所述最終切分方式以及所述最終切分關鍵詞訓練分詞模型。
2.如權利要求1所述的方法,其特征在于,該方法還包括:
所述至少一個處理器通過訓練后的所述分詞模型切分第三文本。
3.如權利要求1所述的方法,其特征在于,所述特征信息以及所述第一文本儲存在數據庫中,所述數據庫為圖模型。
4.如權利要求1所述的方法,其特征在于,所述特征信息包括所述至少一個第二文本的文本長度、次數、出現頻率TF、逆文檔概率IDF、左臨概率、右臨概率、以及臨接概率梯度。
5.如權利要求1所述的方法,其特征在于,所述至少一個處理器根據所述特征信息確定所述至少一個第二文本中的至少一個切分關鍵詞,具體包括:
所述至少一個處理器根據所述特征信息確定所述至少一個第二文本中的至少一個切分詞以及所述至少一個切分詞對應的分數;
響應于所述分數大于設定閾值,則所述切分詞為備選切分關鍵詞;
響應于所述備選切分關鍵詞小于或等于設定字數,則確定所述備選切分關鍵詞為所述切分關鍵詞。
6.如權利要求5所述的方法,其特征在于,所述響應于所述分數大于設定閾值,則所述切分詞為備選切分關鍵詞之后,該方法還包括:
響應于所述備選切分關鍵詞大于設定字數,根據臨接概率梯度變化率將所述備選切分關鍵詞切分為所述切分關鍵詞。
7.如權利要求1所述的方法,其特征在于,所述至少一個處理器確定所述第一文本的最終切分方式,以及所述最終切分方式對應的最終切分關鍵詞,具體包括:
響應于所述第一文本的切分方式包括至少兩種;
將所述每種切分方式對應的最終切分關鍵詞的分數與所述最終切分關鍵詞間的臨接概率梯度變化率進行加權處理,確定出最終評價信息;
確定所述最終評價信息中最優最終評價信息對應的切分方式為最終切分方式,以及所述最終切分方式對應的最終切分關鍵詞。
8.一種文本處理的裝置,其特征在于,該裝置包括:
接收單元,用于接收來自于程序調用接口的數據;
獲取單元,用于通過至少一個處理器解析所述數據,獲取至少一個第一文本;
第一確定單元,用于通過所述至少一個處理器對所述至少一個第一文本進行切分,確定第二文本集合,所述第二文本集合包括至少一個第二文本,所述第二文本為第一文本的一部分;
所述獲取單元還用于,通過所述至少一個處理器獲取所述第二文本的特征信息;
第二確定單元,用于所述至少一個處理器根據所述第二文本的特征信息確定評價信息;
第三確定單元,用于所述至少一個處理器根據所述評價信息確定至少一個所述第二文本中的至少一個切分關鍵詞;
第四確定單元,用于所述至少一個處理器確定所述第一文本的最終切分方式,以及所述最終切分方式對應的最終切分關鍵詞;
處理單元,用于所述至少一個處理器根據所述特征信息、所述最終切分方式以及所述最終切分關鍵詞訓練分詞模型。
9.一種計算機可讀存儲介質,其上存儲計算機程序指令,其特征在于,所述計算機程序指令在被處理器執行時實現如權利要求1-7中任一項所述的方法。
10.一種電子設備,包括存儲器和處理器,其特征在于,所述存儲器用于存儲一條或多條計算機程序指令,其中,所述一條或多條計算機程序指令被所述處理器執行以實現如權利要求1-7中任一項所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于拉扎斯網絡科技(上海)有限公司,未經拉扎斯網絡科技(上海)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911275301.4/1.html,轉載請聲明來源鉆瓜專利網。





