[發明專利]基于序列標注建模的多粒度分詞方法及系統有效
| 申請號: | 201710790736.7 | 申請日: | 2017-09-05 |
| 公開(公告)號: | CN107729312B | 公開(公告)日: | 2021-04-20 |
| 發明(設計)人: | 張民;李正華;龔晨 | 申請(專利權)人: | 蘇州大學 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06N3/04 |
| 代理公司: | 蘇州市中南偉業知識產權代理事務所(普通合伙) 32257 | 代理人: | 楊慧林 |
| 地址: | 215000 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 序列 標注 建模 粒度 分詞 方法 系統 | ||
1.一種基于序列標注建模的多粒度分詞方法,其特征在于,包括:
將至少一種單粒度標注數據集中的句子分別轉化為遵守其他n-1種分詞規范的分詞序列,被轉化后的句子對應n種不同規范的分詞序列,其中n≥2,且n為正整數;
將每一個句子對應的n種遵守不同規范分詞序列轉化為多粒度分詞層次結構,所述的多粒度分詞層次結構各層分別為句子、不能進一步與詞語合并成更粗粒度的詞語、詞語、字;
根據預定編碼方法確定多粒度分詞層次結構中每一個字的多粒度標簽,進而得到每一個句子對應的多粒度標簽序列,所述的預定編碼方法包括:對于句子中每一個字,根據多粒度分詞層次結構,自底向上遍歷,得到包含這個字的不同粒度的所有詞語,從而得到這個字在這些詞語中的單粒度分詞標簽,進而將這些單粒度分詞標簽按照預定順序合并在一起,構成該字的多粒度標簽,其中所述預定順序為按照分詞粒度從細到粗的順序,或是按照分詞粒度從粗到細的順序;
根據句子對應的多粒度標簽序列對序列標注模型進行數據訓練,得到多粒度分詞序列標注模型;
基于所述的多粒度分詞序列標注模型得到句子的多粒度標簽序列。
2.根據權利要求1所述的基于序列標注建模的多粒度分詞方法,其特征在于,還包括通過規則后處理,將句子的多粒度標簽序列轉化為多粒度分詞層次結構。
3.根據權利要求1所述的基于序列標注建模的多粒度分詞方法,其特征在于,根據句子對應的多粒度標簽序列對基于離散特征的CRF序列標注模型或基于長短時記憶循環神經網絡(Long-Short Term Memory,LSTM)的CRF序列標注模型進行數據訓練,得到多粒度分詞序列標注模型;
其中,根據句子對應的多粒度標簽序列對基于離散特征的CRF序列標注模型具體包括:
給定一個句子,x=c1...cn,進行數據訓練的目的是確定一個最好的多粒度標簽序列y=y1...yn,其中yi是ci的多粒度標簽,CRF定義一個標簽序列的概率為:
其中score(x,y;θ)是表示分值的函數;θ是特征權重向量;f(x,i,yi-1,yi)是第i個字的特征向量,
設訓練數據是其中yi是句子xi的正確標簽,D的對數似然是:
訓練的目標是找到一個最優的參數θ來最大化對數似然;
根據句子對應的多粒度標簽序列對基于LSTM的CRF序列標注模型進行數據訓練,具體包括:
將句子中每一個字的一元字向量和二元字向量輸入到BiLSTM神經網絡模型中,一元字向量指用一個多維浮點型向量表示一個字,每個字對應唯一的一個多維浮點型向量,表示為eci,i=1,2,3…;二元字向量指將當前字的一元字向量與前一個字的一元字向量連結得到的向量,表示為ecici+1;
句子中每個字的一元字向量與二元字向量通過第一層BiLSTM網絡,前向傳播得到輸出f11,f21,f31…,后向傳播,得到輸出b11,b21,b31…;
將第一層雙向LSTM網絡BiLSTM1層的輸出作為第二層雙向LSTM網絡BiLSTM2的輸入,前向傳播得到輸出f12,f22,f32…,后向傳播,得到輸出b12,b22,b32…;
將兩層雙向LSTM前/后向傳播的輸出結果分別連結,即,將fi1與fi2,i=1,2,3…連結得到fi,i=1,2,3…,將bi1與bi2,i=1,2,3…連結得到bi,i=1,2,3…;
將fi和bi,i=1,2,3…連結起來得到hinput輸入到一個隱含層中做非線性變換,然后將隱含層的輸出結果做線性變換就得到了一個分值向量,用來表示標注序列的分值,該分值向量的維度與多粒度分詞標簽的個數相同;
CRF定義一個標簽序列的概率為:
其中T表示多粒度標簽的種類個數,score(t1,...,tn;c1,...,cn)是表示句子c1,...,cn的標簽序列為t1,...,tn的分值的函數,是第k個字符被標記為tk的神經網絡輸出的分值,是一個轉移矩陣;
訓練的目的是找到最優的神經網絡參數和轉移矩陣來最大化對數似然函數,
其中t1*,...,tn*表示正確的標簽序列:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州大學,未經蘇州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710790736.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種稅務地圖管理的方法、系統及終端設備
- 下一篇:一種生成信用金的方法和系統





