[發明專利]一種文本處理的方法、裝置及電子設備在審
| 申請號: | 202011504514.2 | 申請日: | 2020-12-18 |
| 公開(公告)號: | CN112528628A | 公開(公告)日: | 2021-03-19 |
| 發明(設計)人: | 王曉輝;楊熙;陳淑蘭;曹潤東;饒豐;趙暉 | 申請(專利權)人: | 北京一起教育科技有限責任公司 |
| 主分類號: | G06F40/205 | 分類號: | G06F40/205;G06F40/30;G06F40/247;G06K9/00;G06N3/04 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 柳欣 |
| 地址: | 100102 北京市朝陽*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 處理 方法 裝置 電子設備 | ||
1.一種文本處理的方法,其特征在于,包括:
獲取待處理的目標文本,并確定所述目標文本中的目標元素,所述目標元素包括段落元素、句子元素、詞語元素、字元素中的一項或多項;
根據所述目標元素確定所述目標文本的整體評價參數,并確定所述目標文本的句子評價參數;
根據所述整體評價參數和所述句子評價參數確定所述目標文本的評價值。
2.根據權利要求1所述的方法,其特征在于,所述確定所述目標文本的整體評價參數包括:
根據預設的文本模型,確定所述目標文本的每個句子元素中多個詞語元素或字元素的向量;根據多個所述詞語元素或字元素的向量確定相應的所述句子元素的句子向量,并根據所述目標文本中所有所述句子元素的句子向量確定所述目標文本的文本向量;確定同題目下多個其他文本的文本向量的平均值,將所述目標文本的文本向量與其他文本的文本向量的平均值之間的語義相似度作為第一相似度,并將所述第一相似度作為一項整體評價參數;
和/或,確定所述目標文本中的第一關鍵詞,并根據預設的詞向量模型確定與所述第一關鍵詞同義的第一同義詞,根據所述第一關鍵詞的詞向量和所述第一同義詞的詞向量確定所述目標文本的第一平均詞向量;確定所述目標文本所對應的題目文本中的第二關鍵詞,并根據預設的所述詞向量模型確定與所述第二關鍵詞同義的第二同義詞,根據所述第二關鍵詞的詞向量和所述第二同義詞的詞向量確定所述題目文本的第二平均詞向量;將所述第一平均詞向量與所述第二平均詞向量之間的相似度作為所述第二相似度,并將所述第二相似度作為一項整體評價參數。
3.根據權利要求1所述的方法,其特征在于,還包括:
獲取待處理的文本圖像;
檢測出所述文本圖像中的文本框,并確定所述文本框的文本框置信度,所述文本框置信度用于表示正確檢測出所述文本框的概率;
識別出所述文本框中的字符,并確定所述字符的字符置信度,所述字符置信度用于表示正確識別出所述字符的概率,所有的所述字符用于生成所述目標文本;
根據檢測參數確定所述文本圖像的檢測評價值,根據識別參數確定所述文本圖像的識別評價值,根據所述檢測評價值和所述識別評價值確定所述文本圖像的整潔度評價值,將所述整潔度評價值作為一項所述整體評價參數;其中,所述文本框置信度為一項檢測參數,所述文本框置信度與所述檢測評價值之間為正相關關系,所述字符置信度為一項識別參數,所述字符置信度與所述識別評價值之間為正相關關系。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京一起教育科技有限責任公司,未經北京一起教育科技有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011504514.2/1.html,轉載請聲明來源鉆瓜專利網。





