[發明專利]基于考慮領域信息的標點預測方法在審
| 申請號: | 202010590707.8 | 申請日: | 2020-06-24 |
| 公開(公告)號: | CN111723584A | 公開(公告)日: | 2020-09-29 |
| 發明(設計)人: | 王龍標;魏文青;黨建武 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06N3/04 |
| 代理公司: | 天津市北洋有限責任專利代理事務所 12201 | 代理人: | 程小艷 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 考慮 領域 信息 標點 預測 方法 | ||
1.基于考慮領域信息的標點預測方法,其特征在于,該方法主要步驟如下:
1)對文本的標標點符號進行預處理;
2)神經網絡前端特征的選擇:使用GloVe工具將單詞轉換成300維度詞向量;
3)模型構建:模型使用多任務學習的方法,同時預測標點和文本的領域分類,從而使模型融入領域信息;
4)評價指標的選取:為了評估標點符號預測任務的性能,我們中使用的評估指標是精確度(precision),召回率(precision)和統計學中用來衡量類模型精確度的一種指標F1;
所述步驟3)具體有兩種方法:
一種將領域標簽轉換成one-hot編碼結合詞向量作為輸入,從而使模型融入領域信息;
該模型主要包含一層雙向長短期記憶網絡(BILSTM),使用單詞嵌入編碼單詞的序列X=(x1,…,xt)和該句子的所屬領域標點的one-hot編碼Dtag結合,作為雙向長短期記憶層的輸入,
Nt={xt,Dtag} (1)
雙向長短期記憶層由兩個LSTM層組成,其中正向LSTM層處理正向的值序列,反向LSTM層處理反向的值序列,兩個LSTM層使用帶權重的共享層來處理信息,前向LSTM層的是時間步長t處隱藏單元的
反向LSTM層的隱藏狀態的計算方法與前向LSTM層序列的方法相同;
BiLSTM層ht的隱藏狀態然后通過在步驟時間t結合前向LSTM層的隱藏單元和后向LSTM層的隱藏單元的狀態來構造的:
因此,雙向LSTM可以利用前后的語句來學習每個輸入單詞的表達,識別經常依賴于語境的標點符號;然后輸出層在時間步t產生標點概率yt,如下:
yt=Softmax(htWy+by) (4)
另一種時使用多任務學習的方法,該模型中和上一個任務中有兩個任務一個是標點預測,另一個是文本的領域分類模型結構,在這個模型中和領域標簽的模型相似的網絡結構,使用單詞嵌入編碼單詞的序列X=(x1,...,xt)作為輸入;
Dtag為文本領域分類任務的輸出,主要流程如下:
yt=Softmax(htWy+by) (7)
f=fltten{h1,h2,...,ht} (8)
Dtag=Sigmod(fWD+dtag) (9)
2.根據權利要求1所述的基于考慮領域信息的標點預測方法,其特征在于,所述步驟4)使用的評估指標是精確度,召回率和統計學中用來衡量類模型精確度的一種指標F1,并在測試集中分別顯示逗號、句號、問號和感嘆號這四個標點符號的度量,方程式定義如下:
召回率:
準確率:
F1值:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010590707.8/1.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





