[發(fā)明專利]文本選取的方法、裝置、設(shè)備和計算機可讀介質(zhì)有效

申請?zhí)枺?/td>	202010579028.0	申請日：	2020-06-23
公開（公告）號：	CN111754984B	公開（公告）日：	2023-08-08
發(fā)明（設(shè)計）人：	蔡建偉	申請（專利權(quán)）人：	抖音視界有限公司
主分類號：	G10L15/06	分類號：	G10L15/06;G10L15/14;G10L15/183;G10L15/26
代理公司：	北京風(fēng)雅頌專利代理有限公司 11403	代理人：	郭曼
地址：	100041 北京市石景山區(qū)***	國省代碼：	北京;11
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	文本選取方法裝置設(shè)備計算機可讀介質(zhì)
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種文本選取的方法，包括：

對于目標(biāo)文本集中的每個目標(biāo)文本：

使用第一方式確定所述目標(biāo)文本的預(yù)設(shè)指標(biāo)的第一指標(biāo)值；

使用第二方式確定所述目標(biāo)文本的所述預(yù)設(shè)指標(biāo)的第二指標(biāo)值；

基于所述第一指標(biāo)值和所述第二指標(biāo)值，確定所述目標(biāo)文本對應(yīng)的差異值；

基于所得到多個差異值，在所述目標(biāo)文本集中選擇至少一個目標(biāo)文本，得到第一目標(biāo)文本集；

其中，所述基于所得到多個差異值，在所述目標(biāo)文本集中選擇至少一個目標(biāo)文本，得到第一目標(biāo)文本集，包括：

對所得到多個差異值進行排序，得到排序結(jié)果；

基于排序結(jié)果，按照差異值從小到大的順序和預(yù)設(shè)比例，在所述目標(biāo)文本集中選擇至少一個目標(biāo)文本，得到所述第一目標(biāo)文本集；

所述方法還包括：

基于所述第一目標(biāo)文本集，對初始第一語言模型進行訓(xùn)練，生成第一語言模型。

2.根據(jù)權(quán)利要求1所述的方法，其中，所述使用第一方式確定所述目標(biāo)文本的預(yù)設(shè)指標(biāo)的第一指標(biāo)值，包括：

將所述目標(biāo)文本輸入預(yù)先訓(xùn)練的第二語言模型，得到所述目標(biāo)文本的第一得分；

基于所述第一得分，確定所述第一指標(biāo)值。

3.根據(jù)權(quán)利要求1所述的方法，其中，所述使用第二方式確定所述目標(biāo)文本的所述預(yù)設(shè)指標(biāo)的第二指標(biāo)值，包括：

將所述目標(biāo)文本輸入預(yù)先訓(xùn)練的第三語言模型，得到所述目標(biāo)文本的第二得分；

基于所述第二得分，確定所述第二指標(biāo)值。

4.根據(jù)權(quán)利要求2所述的方法，其中，所述第二語言模型是通過所述目標(biāo)文本集訓(xùn)練得到的。

5.根據(jù)權(quán)利要求3所述的方法，其中，所述第三語言模型是通過所述目標(biāo)文本集訓(xùn)練得到的。

6.根據(jù)權(quán)利要求1所述的方法，其中，所述基于所述第一指標(biāo)值和所述第二指標(biāo)值，確定所述目標(biāo)文本對應(yīng)的差異值，包括：

基于所述第一指標(biāo)值和所述第二指標(biāo)值，使用交叉熵損失函數(shù)確定所述目標(biāo)文本對應(yīng)的差異值。

7.一種文本選取的裝置，包括：

文本處理單元，被配置成對于目標(biāo)文本集中的每個目標(biāo)文本：

使用第一方式確定所述目標(biāo)文本的預(yù)設(shè)指標(biāo)的第一指標(biāo)值；

使用第二方式確定所述目標(biāo)文本的所述預(yù)設(shè)指標(biāo)的第二指標(biāo)值；

基于所述第一指標(biāo)值和所述第二指標(biāo)值，確定所述目標(biāo)文本對應(yīng)的差異值；

選擇單元，被配置成基于所得到多個差異值，在所述目標(biāo)文本集中選擇至少一個目標(biāo)文本，得到第一目標(biāo)文本集；

其中，所述選擇單元進一步被配置成：

對所得到多個差異值進行排序，得到排序結(jié)果；

基于排序結(jié)果，按照差異值從小到大的順序和預(yù)設(shè)比例，在上述目標(biāo)文本集中選擇至少一個目標(biāo)文本，得到所述第一目標(biāo)文本集；

所述裝置還包括：生成單元；其中，生成單元可以被配置成基于上述第一目標(biāo)文本集，對初始第一語言模型進行訓(xùn)練，生成第一語言模型。

8.一種電子設(shè)備，包括：

一個或多個處理器；

存儲裝置，其上存儲有一個或多個程序；

當(dāng)所述一個或多個程序被所述一個或多個處理器執(zhí)行，使得所述一個或多個處理器實現(xiàn)如權(quán)利要求1-6中任一所述的方法。

9.一種計算機可讀介質(zhì)，其上存儲有計算機程序，其中，所述程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1-6中任一所述的方法。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于抖音視界有限公司，未經(jīng)抖音視界有限公司許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010579028.0/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

上一篇：信息推送方法、裝置、設(shè)備及計算機可讀存儲介質(zhì)
下一篇：一種發(fā)動機

同類專利

專利分類

G 物理

G10 樂器；聲學(xué)
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L15-00 語音識別
G10L15-02 .語音識別的特征提取；識別單位的選擇
G10L15-04 .分段或字極限檢測
G10L15-06 .創(chuàng)建基準(zhǔn)模板；訓(xùn)練語音識別系統(tǒng)，例如對說話者聲音特征的適應(yīng)
G10L15-08 .語音分類或檢索
G10L15-20 .專門適用于不利環(huán)境

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】