[發明專利]一種關鍵詞生成方法及裝置在審
| 申請號: | 201910344875.6 | 申請日: | 2019-04-26 |
| 公開(公告)號: | CN110083837A | 公開(公告)日: | 2019-08-02 |
| 發明(設計)人: | 閆莉;高建清;劉俊華;胡國平 | 申請(專利權)人: | 科大訊飛股份有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/28;G10L15/26 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 張小娜;王寶筠 |
| 地址: | 230088 安徽*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 翻譯 文本 目標語音 關聯性 提示 預測 申請 語言 | ||
1.一種關鍵詞生成方法,其特征在于,包括:
獲取待翻譯的目標語音,并生成所述目標語音的識別文本;
提取所述識別文本中的各個關鍵詞,作為各個歷史關鍵詞;
生成各個聯想關鍵詞,所述各個聯想關鍵詞是與所述各個歷史關鍵詞具有強相關性的關鍵詞。
2.根據權利要求1所述的方法,其特征在于,所述提取所述識別文本中的各個關鍵詞,包括:
根據詞匯的重要性和/或翻譯困難性,提取所述識別文本中的各個關鍵詞。
3.根據權利要求2所述的方法,其特征在于,所述根據詞匯的重要性和/或翻譯困難性,提取所述識別文本中的各個關鍵詞,包括:
將所述識別文本中的各個第一詞匯,按照在所述識別文本中的出現順序進行排序,所述第一詞匯是重要詞匯和/或翻譯難度高的詞匯;
將所述識別文本中除各個第一詞匯以外的各個第二詞匯,按照詞匯的重要性進行排序;
將各個第二詞匯的排序結果串聯在各個第一詞匯的排序結果之后,提取串聯排序結果中的前N個詞匯,作為從所述識別文本中提取的各個關鍵詞。
4.根據權利要求1所述的方法,其特征在于,所述生成各個聯想關鍵詞,包括:
將各個歷史關鍵詞與預先構建的關鍵詞對集合進行匹配,得到各個匹配關鍵詞對;其中,所述關鍵詞對集合包括各個目標關鍵詞對,所述目標關鍵詞對中的兩個關鍵詞具有強相關性,所述匹配關鍵詞對是包含歷史關鍵詞和候選關鍵詞的一個目標關鍵詞對;
將全部的候選關鍵詞作為各個聯想關鍵詞,或者,選取部分的候選關鍵詞作為各個聯想關鍵詞。
5.根據權利要求4所述的方法,其特征在于,所述選取部分的候選關鍵詞作為各個聯想關鍵詞,包括:
根據各個匹配關鍵詞對的關鍵詞相關性,選取部分的候選關鍵詞作為各個聯想關鍵詞;
其中,所述關鍵詞相關性為對應的匹配關鍵詞對所包含的歷史關鍵詞和候選關鍵詞之間的相關性。
6.根據權利要求5所述的方法,其特征在于,所述根據各個匹配關鍵詞對的關鍵詞相關性,選取部分的候選關鍵詞作為各個聯想關鍵詞,包括:
確定每一候選關鍵詞對應的候選相關性,所述候選相關性為對應候選關鍵詞所屬的所有匹配關鍵詞對的關鍵詞相關性的累加結果;
將具有強候選相關性的M個候選關鍵詞,作為各個聯想關鍵詞。
7.根據權利要求5所述的方法,其特征在于,所述歷史關鍵詞和候選關鍵詞之間的相關性,包括:
在所述歷史關鍵詞出現的情況下,所述歷史關鍵詞之后出現所述候選關鍵詞的確定性程度。
8.根據權利要求1至7任一項所述的方法,其特征在于,所述方法還包括:
展示各個歷史關鍵詞、各個歷史關鍵詞的翻譯結果、各個聯想關鍵詞、各個聯想關鍵詞的翻譯結果中的至少一項。
9.一種關鍵詞生成裝置,其特征在于,包括:
識別文本生成單元,用于獲取待翻譯的目標語音,并生成所述目標語音的識別文本;
歷史關鍵詞提取單元,用于提取所述識別文本中的各個關鍵詞,作為各個歷史關鍵詞;
聯想關鍵詞生成單元,用于生成各個聯想關鍵詞,所述各個聯想關鍵詞是與所述各個歷史關鍵詞具有強相關性的關鍵詞。
10.根據權利要求9所述的裝置,其特征在于,所述歷史關鍵詞提取單元,具體用于:
根據詞匯的重要性和/或翻譯困難性,提取所述識別文本中的各個關鍵詞,作為各個歷史關鍵詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于科大訊飛股份有限公司,未經科大訊飛股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910344875.6/1.html,轉載請聲明來源鉆瓜專利網。





