[發明專利]方言文本生成方法和裝置、存儲介質和電子設備在審
| 申請號: | 202010583168.5 | 申請日: | 2020-06-23 |
| 公開(公告)號: | CN111737998A | 公開(公告)日: | 2020-10-02 |
| 發明(設計)人: | 潘俊杰 | 申請(專利權)人: | 北京字節跳動網絡技術有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/205;G06F40/242;G06F40/58;G06F40/117 |
| 代理公司: | 北京英創嘉友知識產權代理事務所(普通合伙) 11447 | 代理人: | 王曉霞 |
| 地址: | 100041 北京市石景山區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 方言 文本 生成 方法 裝置 存儲 介質 電子設備 | ||
1.一種方言文本生成方法,其特征在于,所述方法包括:
將待處理文本輸入分詞模型,得到分詞結果,所述待處理分詞結果包括所述待處理文本的各個單詞及該單詞的前詞和/或后詞;
將所述分詞結果輸入預訓練的方言轉寫模型,其中,所述方言轉寫模型用于基于分詞結果中的待轉寫單詞及所述待轉寫單詞的前詞和/或后詞,將所述待轉寫單詞轉寫為方言單詞結果;
獲取所述方言轉寫模型輸出的方言文本,所述方言文本包括多個所述方言單詞結果。
2.根據權利要求1所述的方法,其特征在于,所述方言單詞結果包括對所述分詞結果標注的方言標簽值,所述方言標簽值表征單詞與預設方言詞典的索引關系;
所述獲取所述方言轉寫模型輸出的方言文本,包括:
獲取所述方言轉寫模型輸出的所述分詞結果的方言標簽值,并基于該方言標簽值在所述預設方言詞典中查詢對應的方言詞匯,并將查詢到的方言詞匯按照所述分詞結果的排列順序進行排列,獲得方言文本。
3.根據權利要求2所述的方法,其特征在于,所述方言轉寫模型是通過以下的訓練步驟訓練得到的:
重復執行將樣本分詞結果輸入待訓練的方言轉寫模型,并獲取所述待訓練的方言轉寫模型輸出的訓練方言單詞結果,并基于樣本方言單詞結果和所述訓練方言單詞結果,調整所述方言轉寫模型中的參數的步驟,直至滿足訓練停止條件;
其中,所述訓練方言單詞結果包括對所述樣本分詞結果標注的方言標簽值。
4.根據權利要求3所述的方法,其特征在于,所述樣本分詞結果是通過將樣本文本輸入所述分詞模型得到的;
所述訓練步驟還包括:
獲取與所述樣本分詞結果一一對應的方言標注結果,并基于所述方言標注結果在所述預設方言詞典中查詢與該方言標注結果對應的標簽值,并將該標簽值作為所述樣本文本分詞結果的標簽值。
5.根據權利要求1所述的方法,其特征在于,所述待處理分詞結果還包括各個單詞的長度及該單詞的前詞和/或后詞的長度;
所述方言轉寫模型,用于基于分詞結果中的待轉寫單詞及所述待轉寫單詞的前詞和/或后詞,以及所述待轉寫單詞的長度與所述待轉寫單詞的前詞和/或后詞的長度,將所述待轉寫單詞轉寫為方言單詞結果。
6.根據權利要求1所述的方法,其特征在于,所述待處理分詞結果還包括各個單詞的詞性以及該單詞的前詞和/或后詞的詞性;
所述方言轉寫模型,用于基于分詞結果中的待轉寫單詞及所述帶轉寫單詞的前詞和/或后詞,以及所述待轉寫單詞的詞性與所述待轉寫單詞的前詞和/或后詞的詞性,將所述待轉寫單詞轉寫為方言單詞結果,所述方言單詞結果在所有方言單詞結果中的位置與所述待轉寫單詞的詞性呈預設對應關系。
7.根據權利要求1-4任一項所述的方法,其特征在于,所述方法還包括:
基于所述方言轉寫模型輸出的方言文本,生成方言音頻。
8.一種方言文本生成裝置,其特征在于,所述裝置包括:
分詞模塊,用于將待處理文本輸入分詞模型,得到分詞結果,所述待處理分詞結果包括所述待處理文本的各個單詞及該單詞的前詞和/或后詞;
轉寫模塊,用于將所述分詞結果輸入預訓練的方言轉寫模型,其中,所述方言轉寫模型用于基于分詞結果中的待轉寫單詞及所述待轉寫單詞的前詞和/或后詞,將所述待轉寫單詞轉寫為方言單詞結果;
生成模塊,用于獲取所述方言轉寫模型輸出的方言文本,所述方言文本包括多個所述方言單詞結果。
9.一種計算機可讀介質,其上存儲有計算機程序,其特征在于,該程序被處理裝置執行時實現權利要求1-7中任一項所述方法的步驟。
10.一種電子設備,其特征在于,包括:
存儲裝置,其上存儲有計算機程序;
處理裝置,用于執行所述存儲裝置中的所述計算機程序,以實現權利要求1-7中任一項所述方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京字節跳動網絡技術有限公司,未經北京字節跳動網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010583168.5/1.html,轉載請聲明來源鉆瓜專利網。





