[發明專利]譯文文檔的分類方法、裝置、電子設備及存儲介質在審
| 申請號: | 202310089821.6 | 申請日: | 2023-01-17 |
| 公開(公告)號: | CN116108829A | 公開(公告)日: | 2023-05-12 |
| 發明(設計)人: | 蔡潔 | 申請(專利權)人: | 傳神語聯網網絡科技股份有限公司 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F40/30;G06F40/289;G06F18/241 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 常芳 |
| 地址: | 430206 湖北省武漢市東湖新技術*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 譯文 文檔 分類 方法 裝置 電子設備 存儲 介質 | ||
1.一種譯文文檔的分類方法,其特征在于,包括:
基于譯文文檔中各句子的分詞,進行術語分析,確定各句子的術語分詞;
基于文本分類模型、各句子的分詞和各句子的術語分詞,獲取各句子的語義向量,在所述文本分類模型中術語分詞所分配到的權重高于非術語分詞所分配到的權重;
基于邏輯回歸模型、預設分組配置和各句子的語義向量,按組對譯文文檔中句子進行邏輯回歸預測,獲取一組或多組句子分別對應的回歸概率,所述預設分組配置為按各句子在所述譯文文檔中先后順序進行分組的配置;
基于一組或多組句子分別對應的回歸概率,確定所述譯文文檔的分類信息,所述分類信息用于表示所述譯文文檔為機器翻譯文檔或人工翻譯文檔。
2.根據權利要求1所述譯文文檔的分類方法,其特征在于,所述基于文本分類模型、各句子的分詞和各句子的術語分詞,獲取各句子的語義向量,包括:
基于各句子的術語分詞,確定各句子的分詞權重配置,在所述分詞權重配置中術語分詞的權重大于非術語分詞的權重;
針對所述譯文文檔中各句子,輸入目標句子的分詞權重配置和所述目標句子的分詞至所述文本分類模型,獲取所述文本分類模型輸出的所述目標句子的語義向量;
所述目標句子為所述譯文文檔中任意一個句子。
3.根據權利要求2所述譯文文檔的分類方法,其特征在于,所述文本分類模型為BERT模型,所述輸入目標句子的分詞權重配置和所述目標句子的分詞至所述文本分類模型,獲取所述文本分類模型輸出的所述目標句子的語義向量,包括:
針對所述BERT模型的詞嵌入層,基于所述目標句子的分詞權重配置,配置所述目標句子中各分詞的權重;
基于所述BERT模型和所述目標句子的分詞,獲取所述目標句子的語義向量。
4.根據權利要求2所述譯文文檔的分類方法,其特征在于,所述基于各句子的術語分詞,確定各句子的分詞權重配置,包括:
基于預設權重倍數和各句子的術語分詞,確定各句子的分詞權重配置;
所述預設權重倍數用于表征所述術語分詞的權重與所述非術語分詞的權重之間的倍數關系,所述預設權重倍數大于1。
5.根據權利要求1-4任一項所述譯文文檔的分類方法,其特征在于,所述基于邏輯回歸模型、預設分組配置和各句子的語義向量,按組對譯文文檔中句子進行邏輯回歸預測,獲取一組或多組句子分別對應的回歸概率,包括:
基于所述預設分組配置,對各句子的語義向量進行歸集,獲取一組或多組句子分別對應的語義向量集合;
基于一組或多組句子分別對應的語義向量集合,按組進行向量連接,獲取一組或多組句子分別對應的目標語義向量;
基于所述邏輯回歸模型和一組或多組句子分別對應的目標語義向量,按組進行邏輯回歸預測,獲取一組或多組句子分別對應的回歸概率。
6.根據權利要求1-4任一項所述譯文文檔的分類方法,其特征在于,所述基于一組或多組句子分別對應的回歸概率,確定所述譯文文檔的分類信息,包括:
對一組或多組句子分別對應的回歸概率求平均,獲取回歸概率平均值;
基于概率閾值和所述回歸概率平均值,確定所述譯文文檔的分類信息。
7.一種譯文文檔的分類裝置,其特征在于,包括:
第一確定模塊,用于基于譯文文檔中各句子的分詞,進行術語分析,確定各句子的術語分詞;
第一獲取模塊,用于基于文本分類模型、各句子的分詞和各句子的術語分詞,獲取各句子的語義向量,在所述文本分類模型中術語分詞所分配到的權重高于非術語分詞所分配到的權重;
第二獲取模塊,用于基于邏輯回歸模型、預設分組配置和各句子的語義向量,按組對譯文文檔中句子進行邏輯回歸預測,獲取一組或多組句子分別對應的回歸概率,所述預設分組配置為按各句子在所述譯文文檔中先后順序進行分組的配置;
第二確定模塊,用于基于一組或多組句子分別對應的回歸概率,確定所述譯文文檔的分類信息,所述分類信息用于表示所述譯文文檔為機器翻譯文檔或人工翻譯文檔。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于傳神語聯網網絡科技股份有限公司,未經傳神語聯網網絡科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310089821.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:雙頻相敏解調原油物性參數測量系統及方法
- 下一篇:一種香煙自動分類系統





