[發明專利]文本分段方法和裝置有效
| 申請號: | 202011003293.0 | 申請日: | 2020-09-22 |
| 公開(公告)號: | CN111931482B | 公開(公告)日: | 2021-09-24 |
| 發明(設計)人: | 王雪志 | 申請(專利權)人: | 思必馳科技股份有限公司 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06N3/04;G06N3/08;G10L15/06;G10L15/16;G10L17/04 |
| 代理公司: | 北京商專永信知識產權代理事務所(普通合伙) 11400 | 代理人: | 黃謙;鄧婷婷 |
| 地址: | 215123 江蘇省蘇州市蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 分段 方法 裝置 | ||
本發明公開一種文本分段方法和裝置,其中,文本分段方法,包括:將所述文本輸入至第一模型得到對于所述文本的分段點的標注,其中,所述第一模型為經過訓練的能夠對所述文本進行分段點標注的模型;將與所述文本對應的音頻輸入至第二模型得到所述音頻的說話人信息,其中,所述第二模型為經過訓練的能夠識別所述音頻中的說話人信息的模型;對所述文本的分段點的標注和所述音頻的說話人信息進行融合處理以得到分段標注;基于所述分段標注對所述文本進行分段并輸出。通過創新性的引入說話人信息,還引入了后處理算法,從而可以實現有效提高分段的準確率,消除一些異常的分段點,同時,在提升用戶體驗的同時,資源消耗少。
技術領域
本發明屬于神經網絡領域,尤其涉及文本分段方法和裝置。
背景技術
目前市面上對無結構語音識別長文本進行分段的技術主要有兩種:第一種是通過計算一個窗口內句子間的相似度,找到相似度的拐點作為分段的依據,這是一種無監督的方式;另一種是把文本分段技術轉換成一個序列標注的任務,對每個句子打標簽,用有監督的方式進行訓練。
無監督的方式做無結構長文本分段,比較經典的早期技術有TextTiling(一種基于窗口的文本分段模型)。這種技術分三個步驟:1、文本的切分;2、相似度計算;3、分割點的選擇。文本切分人為規定句子長度,將文本切成固定長度的句子。相似度計算是計算間隔點左右一定句子長度的相似性。TextTiling算法選擇間隔點前后各K句話,K句話組成一個塊(block)。分割點之間兩個塊是一個窗口,計算窗口內前后塊的相似度作為分割點前后文本的相似度。通過滑動窗口計算所有分割點前后文本的相似度。分割點選擇主要是設置一個閾值,當分割點的相似度大于這個閾值的時候,將該分割點作為分段的位置。
有監督的學習方式主要是把無結構文本分段的任務轉換成一個序列標注的任務。將標點分割的每句話表征成一個句向量,然后應用神經網絡的算法對每句話進行標注,標注的label分為兩個:分段、不分段。這種方式近幾年隨著神經網絡的發展應用比較快。
發明內容
本發明實施例提供一種文本分段方法及裝置,用于至少解決上述技術問題之一。
第一方面,本發明實施例提供一種文本分段方法,包括:將所述文本輸入至第一模型得到對于所述文本的分段點的標注,其中,所述第一模型為經過訓練的能夠對所述文本進行分段點標注的模型;將與所述文本對應的音頻輸入至第二模型得到所述音頻的說話人信息,其中,所述第二模型為經過訓練的能夠識別所述音頻中的說話人信息的模型;對所述文本的分段點的標注和所述音頻的說話人信息進行融合處理以得到分段標注;基于所述分段標注對所述文本進行分段并輸出。
第二方面,本發明實施例提供一種文本分段裝置,包括:第一輸入模塊,配置為將所述文本輸入至第一模型得到對于所述文本的分段點的標注,其中,所述第一模型為經過訓練的能夠對所述文本進行分段點標注的模型;第二輸入模塊,配置為將與所述文本對應的音頻輸入至第二模型得到所述音頻的說話人信息,其中,所述第二模型為經過訓練的能夠識別所述音頻中的說話人信息的模型;融合模塊,配置為對所述文本的分段點的標注和所述音頻的說話人信息進行融合處理以得到分段標注;輸出模塊,配置為基于所述分段標注對所述文本進行分段并輸出。
第三方面,提供一種計算機程序產品,所述計算機程序產品包括存儲在非易失性計算機可讀存儲介質上的計算機程序,所述計算機程序包括程序指令,當所述程序指令被計算機執行時,使所述計算機執行第一方面所述的文本分段方法的步驟。
第四方面,本發明實施例還提供一種電子設備,其包括:至少一個處理器,以及與所述至少一個處理器通信連接的存儲器,其中,所述存儲器存儲有可被所述至少一個處理器執行的指令,所述指令被所述至少一個處理器執行,以使所述至少一個處理器能夠執行第一方面所述方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于思必馳科技股份有限公司,未經思必馳科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011003293.0/2.html,轉載請聲明來源鉆瓜專利網。





