[發明專利]文本分段方法和裝置有效
| 申請號: | 202011003293.0 | 申請日: | 2020-09-22 |
| 公開(公告)號: | CN111931482B | 公開(公告)日: | 2021-09-24 |
| 發明(設計)人: | 王雪志 | 申請(專利權)人: | 思必馳科技股份有限公司 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06N3/04;G06N3/08;G10L15/06;G10L15/16;G10L17/04 |
| 代理公司: | 北京商專永信知識產權代理事務所(普通合伙) 11400 | 代理人: | 黃謙;鄧婷婷 |
| 地址: | 215123 江蘇省蘇州市蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 分段 方法 裝置 | ||
1.一種文本分段方法,包括:
將所述文本輸入至第一模型得到對于所述文本的分段點的標注,其中,所述第一模型為經過訓練的能夠對所述文本進行分段點標注的模型,其中,所述文本為長語音轉寫文本;
將與所述文本對應的音頻輸入至第二模型得到所述音頻的說話人信息,其中,所述第二模型為經過訓練的能夠識別所述音頻中的說話人信息的模型,所述說話人信息為所述音頻中的某一段是某一說話人講的話的信息;
將所述說話人信息中與某一說話人對應的時間信息轉成與所述某一說話人對應的句子信息,其中,每一個句子都有一個說話人的標注;
根據所述分段點的標注和與所述某一說話人對應的句子信息得到每句話的分段標注;
基于所述分段標注對所述文本進行分段并輸出。
2.根據權利要求1所述的方法,其中,所述第一模型包含注意力機制。
3.根據權利要求2所述的方法,其中,所述第一模型為包含注意力機制的長短記憶循環神經網絡模型。
4.根據權利要求1所述的方法,其中,所述第二模型為說話人分類模型。
5.根據權利要求1-4中任一項所述的方法,其中,所述文本為與所述音頻包括:語音識別后的文本與所述語音識別后的文本所對應的音頻。
6.根據權利要求5所述的方法,其中,所述對所述語音識別文本的分段點的標注和所述音頻的說話人信息進行融合處理以得到分段標注采用DNN模型實現,所述DNN模型輸出每句話的分段標注。
7.一種文本分段裝置,包括:
第一輸入模塊,配置為將所述文本輸入至第一模型得到對于所述文本的分段點的標注,其中,所述第一模型為經過訓練的能夠對所述文本進行分段點標注的模型,其中,所述文本為長語音轉寫文本;
第二輸入模塊,配置為將與所述文本對應的音頻輸入至第二模型得到所述音頻的說話人信息,其中,所述第二模型為經過訓練的能夠識別所述音頻中的說話人信息的模型,所述說話人信息為所述音頻中的某一段是某一說話人講的話的信息;
融合模塊,配置為將所述說話人信息中與某一說話人對應的時間信息轉成與所述某一說話人對應的句子信息,其中,每一個句子都有一個說話人的標注;根據所述分段點的標注和與所述某一說話人對應的句子信息得到每句話的分段標注;
輸出模塊,配置為基于所述分段標注對所述文本進行分段并輸出。
8.一種電子設備,其包括:至少一個處理器,以及與所述至少一個處理器通信連接的存儲器,其中,所述存儲器存儲有可被所述至少一個處理器執行的指令,所述指令被所述至少一個處理器執行,以使所述至少一個處理器能夠執行權利要求1至6中任一項所述方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于思必馳科技股份有限公司,未經思必馳科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011003293.0/1.html,轉載請聲明來源鉆瓜專利網。





