[發明專利]去除停用語并預測句子邊界的口語文本處理方法有效
| 申請號: | 202010112638.X | 申請日: | 2020-02-24 |
| 公開(公告)號: | CN111339750B | 公開(公告)日: | 2023-09-08 |
| 發明(設計)人: | 孟亞磊;劉繼明;金寧;王力成;陳浮 | 申請(專利權)人: | 網經科技(蘇州)有限公司 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F40/253;G06F40/30;G06N7/01;G06N3/0442;G06N3/0455;G06N3/0464;G06N3/084;G06N3/0985 |
| 代理公司: | 江蘇圣典律師事務所 32237 | 代理人: | 王玉國 |
| 地址: | 215021 江蘇省蘇州市工*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 去除 用語 預測 句子 邊界 口語 文本 處理 方法 | ||
本發明公開了去除停用語并預測句子邊界的口語文本處理方法,首先收集口語識別文本語料;然后對文本語料中的停用語進行標注;再對文本語料中句子邊界兩側的字詞進行標注;繼而采用機器學習方法訓練序列標注模型;最后采用模型對口語文本進行處理。采用序列標注方式識別并去除文本序列中的停用語,采用文本向量嵌入、正反雙向編碼結合條件隨機場的機器學習方案,高效抽取口語文本的深層語義特征,提高標簽序列預測準確率;采用一個模型同時完成去停用語和句子邊界預測;經過處理后,語音識別文本重點更加突出,有了合理的標點分隔,不僅利于人類閱讀,也便于自然語言理解模塊選擇最佳處理粒度。
技術領域
本發明涉及一種對語音識別后無標點文本序列去除停用語并預測句子邊界的處理方法,屬于自然語言處理技術領域。
背景技術
近幾年來,隨著人工智能技術在語音信號處理領域的突破,語音識別取得了突飛猛進的發展,目前已經擁有許多商業化應用場景,比如語音輸入法、語音助手、智能音箱、翻譯機等。無論什么樣的應用形態,語音識別為文本序列都是首當其沖的第一步。但遺憾的是,典型的語音識別系統只負責將聲音片段轉換為概率最大的文本序列,帶有信息的音節與文本是一一對應的,對于話語中包含的長短停頓、語調升降等特征無法在輸出文本序列中體現,因此語音識別的結果經常是連續的長文本。
連續的長文本因為沒有標點,在子句切分方面存在模糊性,導致人們在閱讀時需要反復回看來檢查斷句的正確性。同時,過長的序列增加了人腦處理信息的短時記憶負擔,大大提高了信息理解的難度。因此,為連續文本序列做句子切分成了閱讀或進行自然語言理解之前的必經環節。另外,由于口語自身的特點,說話人在表達中會添加無意義的插入語,如“我想請問下、我的意思是、這個、那么、然后……、……的話”等。這類詞語或詞組在理解階段是需要去除的。但許多插入語在特定上下文中是必要的,如果簡單機械地使用停用詞表進行去除,則會引入新的錯誤。因此口語文本在去停問題上長期面臨著忍受噪聲與接受差錯的兩難困境。
語句邊界預測是標點恢復任務的子集,主要致力于涉及句子邊界的特定標點符號。口語的語序靈活,句式多變,而傳統標點預測任務往往使用廣泛存在的書面語料,這種模型套用過來效果較差。目前工業界與學術界提出了多種解決辦法。一類方法是盡量利用語音信號包含的信息,收集靜音間隔和語調特征來預測句子邊界。這類方法難以適應不同的語速,語速稍慢就會有大量多余標點;而且標點也比較單一,往往一逗到底,不符合實際情況;另外非語音識別企業也難以使用這種方法。另一類方法是針對文本序列進行處理,往往通過特征模板與條件隨機等機器學習方法提取標點兩側的文本特征然后進行標點預測。但現有方法難以提取文本序列的深層特征,在預測準確率方面也不夠理想,難以達到商業化落地的要求。
發明內容
本發明的目的是克服現有技術存在的不足,提供一種去除停用語并預測句子邊界的口語文本處理方法。
本發明的目的通過以下技術方案來實現:
去除停用語并預測句子邊界的口語文本處理方法,特點是:包括以下步驟:
S101)收集口語識別文本語料;
S102)對文本語料中的停用語進行標注;
S103)對文本語料中句子邊界兩側的字詞進行標注;
S104)采用機器學習方法訓練序列標注模型;
S105)采用模型對口語文本進行處理。
進一步地,上述的去除停用語并預測句子邊界的口語文本處理方法,其中,步驟S102),對獲取的語料逐句分析審核,并標注其中的無意義片段;如果語料中包含帶標點文本,忽略標點符號。
進一步地,上述的去除停用語并預測句子邊界的口語文本處理方法,其中,標注采用BIEOS系統,對停用片段的第一個字標記為B-Stop,第二個字至倒數第二個字全部標記為I-Stop,最末一個字標記為E-Stop,非停用語的正常部分標記為O。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于網經科技(蘇州)有限公司,未經網經科技(蘇州)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010112638.X/2.html,轉載請聲明來源鉆瓜專利網。





