[發明專利]一種基于復合邊界信息的序列標注方法及系統有效
| 申請號: | 201911056445.0 | 申請日: | 2019-10-31 |
| 公開(公告)號: | CN111008283B | 公開(公告)日: | 2023-06-20 |
| 發明(設計)人: | 孟茜;夏天;劉安庭 | 申請(專利權)人: | 中電藥明數據科技(成都)有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F40/284;G06F40/211;G06N3/02 |
| 代理公司: | 北京慕達星云知識產權代理事務所(特殊普通合伙) 11465 | 代理人: | 曹鵬飛 |
| 地址: | 610041 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 復合 邊界 信息 序列 標注 方法 系統 | ||
1.一種基于復合邊界信息的序列標注方法,其特征在于,包括:
對非結構化文本數據通過預設模型,生成復合詞向量并歸一化;
對所述非結構化文本數據,預訓練獲得詞邊界特征向量;
將所述復合詞向量與所述詞邊界特征向量進行融合,得到復合邊界特征向量;
對所述非結構化文本數據進行預處理,并通過預訓練以得到字特征向量;
基于所述字特征向量及所述復合邊界特征向量,通過聯合學習,生成聯合模型;
通過所述聯合模型,對待標注文本進行序列標注;
其中,將所述復合詞向量與所述詞邊界特征向量進行融合,得到復合邊界特征向量;包括:
S301、融合所述復合詞向量與詞邊界特征向量的兩種類型的含有詞邊界信息的向量;所述復合詞向量是經過注意力機制進行編碼過的詞向量;所述詞邊界特征向量是對詞邊界標簽向量生成的唯一編碼表示;融合方式如下方公式:
式中,xt′表示融合后的向量表示;表示經過注意力機制進行編碼過的詞向量,為復合詞向量;為詞邊界特征向量,是對詞邊界標簽向量生成的唯一編碼表示;表示融合操作,表示異或運算;
S302、將上一步S301得到的復合詞邊界信息表示,分別輸入LSTM神經網絡結構中,獲得單元狀態cq;
基于所述字特征向量及所述復合邊界特征向量,通過聯合學習,生成聯合模型;包括:
ct為整個聯合模型的單元狀態,通過反向傳播,神經網絡模型與注意力機制模型的參數會一起被更新,最終得到聯合學習模型共同輸出的隱藏層狀態hf;
ct=cpΘcq
hf=ot*tanh?(ct)
式中,cp為通過預訓練以得到字特征向量輸入LSTM神經網絡后得到的單元狀態;cq為復合詞邊界信息表示,分別輸入LSTM神經網絡結構中,獲得單元狀態;Θ表示聯合操作;ot表示LSTM神經網絡的輸出門;tanh表示激活函數;ct表示整個聯合模型的單元狀態。
2.如權利要求1所述的一種基于復合邊界信息的序列標注方法,其特征在于,對非結構化文本數據通過預設模型,生成復合詞向量并歸一化,包括:
對非結構化文本數據的當前語料,以每個句子為單位,生成全分詞結果;
歸一化每個全分詞后的詞向量集合;
將所述詞向量集合,通過注意力機制轉換為一個復合詞向量;所述復合詞向量包含全分詞的邊界信息。
3.如權利要求2所述的一種基于復合邊界信息的序列標注方法,其特征在于,所述歸一化每個全分詞后的詞向量集合,包括:
統一每個詞向量集合的大小,選擇當前句中包含詞數最多的集合,作為參照集合;
所述參照集合包含詞數的數量,作為參照值;當其他集合的詞數少于所述參照值時,則進行padding操作。
4.如權利要求1所述的一種基于復合邊界信息的序列標注方法,其特征在于,對所述非結構化文本數據,預訓練獲得詞邊界特征向量,包括:
對所述非結構化文本數據的當前語料,以每個句子為單位,生成全分詞結果;
使用BMES對所述全分詞結果的各個詞序列進行標注,并按照每個字對應的標簽種類進行合并;
生成每個字的標簽的向量表示,并轉換為唯一編碼表示;所述唯一編碼表示包含詞邊界信息。
5.如權利要求1~4任一項所述的一種基于復合邊界信息的序列標注方法,其特征在于,對所述非結構化文本數據進行預處理,并通過預訓練以得到字特征向量,包括:
對所述非結構化文本數據進行數據清洗,生成訓練數據;
根據序列標注任務的需求,使用BIO對所述訓練數據進行序列標注;
將序列標注結果,輸入字向量模型,預訓練得到每個字的向量表示集合。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中電藥明數據科技(成都)有限公司,未經中電藥明數據科技(成都)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911056445.0/1.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





