[發明專利]去除停用語并預測句子邊界的口語文本處理方法有效
| 申請號: | 202010112638.X | 申請日: | 2020-02-24 |
| 公開(公告)號: | CN111339750B | 公開(公告)日: | 2023-09-08 |
| 發明(設計)人: | 孟亞磊;劉繼明;金寧;王力成;陳浮 | 申請(專利權)人: | 網經科技(蘇州)有限公司 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F40/253;G06F40/30;G06N7/01;G06N3/0442;G06N3/0455;G06N3/0464;G06N3/084;G06N3/0985 |
| 代理公司: | 江蘇圣典律師事務所 32237 | 代理人: | 王玉國 |
| 地址: | 215021 江蘇省蘇州市工*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 去除 用語 預測 句子 邊界 口語 文本 處理 方法 | ||
1.去除停用語并預測句子邊界的口語文本處理方法?,其特征在于:包括以下步驟:
S101)收集口語識別文本語料;
S102)對文本語料中的停用語進行標注;
對獲取的語料逐句分析審核,并標注其中的無意義片段;如果語料中包含帶標點文本,忽略標點符號;
S103)對文本語料中句子邊界兩側的字詞進行標注;
若語料中包含帶標點文本,在標注句子邊界的同時去掉標點符號,包括以下步驟:
1)確定需要標注的標點符號集合
將語句邊界預測的目標確定為以句子休止符為核心,包括逗號、句號、問號、感嘆號所在的位置;
2)確定邊界標點的標簽集合
對標點前b個字與標點后a個字賦予不同名稱的標簽,以便模型學習標點符號的位置;b和a取值為1~6;
3)對步驟S102)處理后的文本序列添加句子邊界標簽
當停用語位于句子邊界時,因一個字無法承載多個標簽,則標注方案為:
首先,句子邊界在后面緊接停用語時提前結束;
其次,句子邊界在前面緊接停用語時,追溯到停用語前標注;
S104)采用機器學習方法訓練序列標注模型;
獲得口語文本語料與字標簽對應的數據文件后,采用機器學習方法按照序列標注任務訓練模型,模型學習的結果是對文本序列的每一個字預測其概率最大的標簽;
S105)采用模型對口語文本進行處理
使用訓練得到的同時處理去停與句子邊界預測的模型,對新的口語文本進行預測;模型在預測時,對輸入文本的處理過程為正向傳播過程,模型預測結果是輸入各個字對應的標簽序列,通過與標注過程相反的轉換程序還原為符合閱讀習慣的帶中文標點形式。
2.根據權利要求1所述的去除停用語并預測句子邊界的口語文本處理方法,其特征在于:標注采用BIEOS系統,對停用片段的第一個字標記為B-Stop,第二個字至倒數第二個字全部標記為I-Stop,最末一個字標記為E-Stop,非停用語的正常部分標記為O。
3.根據權利要求1所述的去除停用語并預測句子邊界的口語文本處理方法,其特征在于:機器學習方法為隱馬爾科夫模型、條件隨機場、雙向長短時記憶網絡或卷積神經網絡。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于網經科技(蘇州)有限公司,未經網經科技(蘇州)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010112638.X/1.html,轉載請聲明來源鉆瓜專利網。





