[發明專利]文本處理方法、文本處理裝置、存儲介質與電子設備在審
| 申請號: | 202210177332.1 | 申請日: | 2022-02-25 |
| 公開(公告)號: | CN114548075A | 公開(公告)日: | 2022-05-27 |
| 發明(設計)人: | 張玉皓 | 申請(專利權)人: | 北京沃東天駿信息技術有限公司;北京京東世紀貿易有限公司 |
| 主分類號: | G06F40/216 | 分類號: | G06F40/216;G06F40/232;G06F40/151 |
| 代理公司: | 北京律智知識產權代理有限公司 11438 | 代理人: | 王輝 |
| 地址: | 100176 北京市大興區北京經濟*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 處理 方法 裝置 存儲 介質 電子設備 | ||
1.一種文本處理方法,其特征在于,所述方法包括:
獲取待處理文本;
提取所述待處理文本中的拼音序列,并將所述拼音序列劃分為多個拼音單元;
基于各所述拼音單元對應的候選漢字的初始概率和轉移概率,計算表征所述拼音序列的真實漢字意圖的隱藏序列的最大概率,所述初始概率為候選漢字在文本中的出現概率,所述轉移概率為當前候選漢字后面出現下一候選漢字的概率;
對具有所述最大概率的隱藏序列對應的漢字序列進行糾錯處理,生成目標漢字序列。
2.根據權利要求1所述的方法,其特征在于,所述將所述拼音序列劃分為多個拼音單元,包括:
基于預設的最大匹配長度,沿固定方向對所述拼音序列進行搜索,確定所述拼音序列中與預設拼音表中的拼音匹配的拼音串,以得到所述多個拼音單元。
3.根據權利要求1所述的方法,其特征在于,所述基于各所述拼音單元對應的候選漢字的初始概率和轉移概率,計算表征所述拼音序列的真實漢字意圖的隱藏序列的最大概率,包括:
按照各所述拼音單元在所述拼音序列中的順序生成包含各拼音單元的觀測序列;
依據各所述拼音單元對應的候選漢字的初始概率和轉移概率,通過隱馬爾可夫模型計算所述觀測序列對應的隱藏序列的維特比概率。
4.根據權利要求1所述的方法,其特征在于,所述待處理文本包括一個或多個漢字,在對具有所述最大概率的隱藏序列對應的漢字序列進行糾錯處理前,所述方法還包括:
按照所述待處理文本中各所述漢字的漢字順序和所述漢字序列中各漢字對應的拼音順序,將所述待處理文本中的各個漢字和所述漢字序列中的各個漢字進行排列,生成所述待處理文本對應的漢字文本。
5.根據權利要求4所述的方法,其特征在于,在對具有所述最大概率的隱藏序列對應的漢字序列進行糾錯處理,生成目標漢字序列時,所述方法包括:
按照預設的糾錯規則檢測所述漢字文本中的錯誤文本,所述錯誤文本包括所述漢字文本中的錯誤漢字、錯誤詞組和錯誤語句中的任意一種或多種;
使用所述錯誤文本的候選文本替換所述錯誤文本,并計算替換錯誤文本后得到的漢字序列的困惑度評分;
當所述漢字文本的困惑度評分小于困惑度閾值時,將對應的漢字文本確定為所述目標漢字序列。
6.根據權利要求5所述的方法,其特征在于,在按照預設的糾錯規則檢測所述漢字文本中的錯誤文本時,所述方法包括:
利用預設的統計語言模型將所述漢字文本按照固定分段間隔進行分段,得到多個漢字串,并計算各所述漢字串的概率值;
根據各所述漢字串的概率值,確定所述漢字文本中每個漢字的正確度評分;
當任一漢字的正確度評分小于正確度閾值時,將所述任一漢字確定為錯誤漢字。
7.根據權利要求5所述的方法,其特征在于,在按照預設的糾錯規則檢測所述漢字文本中的錯誤文本時,所述方法包括:
在預先配置的詞典數據中,遍歷查找對所述漢字文本進行分詞處理得到的各個詞組,在未查找到任一詞組時,將所述任一詞組確定為錯誤詞組。
8.一種文本處理裝置,其特征在于,所述裝置包括:
獲取模塊,用于獲取待處理文本;
劃分模塊,用于提取所述待處理文本中的拼音序列,并將所述拼音序列劃分為多個拼音單元;
計算模塊,用于基于各所述拼音單元對應的候選漢字的初始概率和轉移概率,計算表征所述拼音序列的真實漢字意圖的隱藏序列的最大概率,所述初始概率為候選漢字在文本中的出現概率,所述轉移概率為當前候選漢字后面出現下一候選漢字的概率;
生成模塊,用于對具有所述最大概率的隱藏序列對應的漢字序列進行糾錯處理,生成目標漢字序列。
9.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現權利要求1-7任一項所述的方法。
10.一種電子設備,其特征在于,包括:
處理器;以及
存儲器,用于存儲所述處理器的可執行指令;
其中,所述處理器配置為經由執行所述可執行指令來執行權利要求1-7任一項所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京沃東天駿信息技術有限公司;北京京東世紀貿易有限公司,未經北京沃東天駿信息技術有限公司;北京京東世紀貿易有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210177332.1/1.html,轉載請聲明來源鉆瓜專利網。





