[發明專利]基于考慮領域信息的標點預測方法在審
| 申請號: | 202010590707.8 | 申請日: | 2020-06-24 |
| 公開(公告)號: | CN111723584A | 公開(公告)日: | 2020-09-29 |
| 發明(設計)人: | 王龍標;魏文青;黨建武 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06N3/04 |
| 代理公司: | 天津市北洋有限責任專利代理事務所 12201 | 代理人: | 程小艷 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 考慮 領域 信息 標點 預測 方法 | ||
本發明公開一種基于考慮領域信息的標點預測方法,該方法主要步驟如下:1)對文本的標標點符號進行預處理;2)神經網絡前端特征的選擇:使用GloVe工具將單詞轉換成300維度詞向量;3)模型構建:模型使用多任務學習的方法,同時預測標點和文本的領域分類,從而使模型融入領域信息;4)評價指標的選取。增加系統的魯棒性。同時提好了整體預測的準確度。
技術領域
本發明涉及自然語言處理領域的標點預測任務,特別是針對標點預測中由于不同領域中所包含的領域信息不同,提出基于考慮領域信息的標點預測的方法。
背景技術
近年來,隨著計算機計算能力的顯著提高和計算機算法研究人員的不斷努力,自動語音識別技術的性能和準確性得到了顯著提高,滿足了人們日常生活的基本要求。自動語音識別在工業和日常生活中越來越受歡迎。語音識別技術已經廣泛應用于智能家居系統、會話轉錄器、語音聽寫技術和同聲傳譯等領域,給人們的日常生活和工作帶來了極大的便利。在大多數情況下,語音識別技術將語音信號轉錄成文本信息,然后對文本進行相應的分析和后處理。在這種情況下,轉錄文本的質量直接影響后續任務的執行,從而影響產品性能和用戶體驗。然而,大多數自動語音識別系統不能識別標點符號,并且僅生成沒有任何標點符號的文本序列,這是因為當人們在日常生活中交流和說話時,標點符號是聽不見的。然而,標點符號是文本不可或缺的一部分。標點在句子中起停頓和語氣的作用。它通常強調某些單詞或短語來更好地表達句子的意思。標點符號的缺失會導致一些問題,如困擾人類讀者理解句子,影響現有自然語言處理算法的性能,如機器翻譯、抽象抽取、人機對話等任務。因此,如何自動給一段文字加標點是一項非常重要的任務。
到目前為止,已經有很多關于標點符號自動預測的研究。在深度學習成為一種趨勢之前,主要的方法是人工規則。隨著數據量的增加,一些基于統計的方法成為主流,例如使用N-Gram語言模型來訓練帶有標點符號的文本,或者將標點符號預測任務視為序列標記任務,然后使用條件隨機場來解決它們。隨著深入學習的發展,許多研究者開始將它用于標點預測任務。人們的交流通常跨越許多領域。而且每個領域都有自己的詞匯和寫作風格。因此,考慮字段信息有助于標點預測。在以往的研究中,主要方法是利用聲學特征和文本特征,如詞性標注、詞向量、詞間停頓時長、音高等。然而,很少有研究考慮不同領域的特殊性。基于這些原因,本發明將在提出使用多任務學習融入領域信息的方法去預測標點,從而使得模型具有良好的魯棒性和更好的性能。
發明內容
本發明的目的在于克服現有技術的不足,提出一種基于考慮領域信息的標點預測方法方法。
本發明提出在標點預測任務時候融入領域信息的的方法。以THUCNews文本的數據集作為實驗對象。主要涉及四個方面:1)對文本的標點符號進行預處理;2)神經網絡前端特征的選擇;3)模型的的搭建;4)評價指標的選取。
1)對文本的標點符號進行預處理
這部分首先讀數據進行處理,在本發明主要致力于預測四種最重要和最常見的標點符號:逗號、句號、問號和感嘆號。依據以前研究人員的研究,我們將分號和冒號被逗號代替,其他標點符號從語料庫中刪除。
由于中文詞語和詞語之間沒有明顯的分界,本發明將文本中的字符串切割成合理的詞序列,然后在此基礎上進行其他分析處理。由于中文單詞較多,本實驗中使用的輸入詞匯是由本語料庫中出現頻率最高的10萬個中文單詞和兩個特殊符號組成,一個用于表示未知單詞(未出現在本詞匯表中的單詞),另一個用于表示輸入結束。
本文把標點符號預測任務看作是每個單詞后面的標點符號是什么的分類問題。同時定義了一個特殊的符號“O”,用來表示在單詞后面沒有標點符號即空格。例如“我喜歡她的幽默,你呢?”。輸入是“我喜歡她的幽默你呢”,輸出是對應一系列標點符號,如“O OOOO,O?”。如表1所示:
表1一個句子的標點序列標注的例子
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010590707.8/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





