[發明專利]一種基于復合邊界信息的序列標注方法及系統有效
| 申請號: | 201911056445.0 | 申請日: | 2019-10-31 |
| 公開(公告)號: | CN111008283B | 公開(公告)日: | 2023-06-20 |
| 發明(設計)人: | 孟茜;夏天;劉安庭 | 申請(專利權)人: | 中電藥明數據科技(成都)有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F40/284;G06F40/211;G06N3/02 |
| 代理公司: | 北京慕達星云知識產權代理事務所(特殊普通合伙) 11465 | 代理人: | 曹鵬飛 |
| 地址: | 610041 四川省成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 復合 邊界 信息 序列 標注 方法 系統 | ||
本發明公開了一種基于復合邊界信息的序列標注方法及系統,該方法包括:對非結構化文本數據通過預設模型,生成復合詞向量并歸一化;對所述非結構化文本數據,預訓練獲得詞邊界特征向量;將所述復合詞向量與所述詞邊界特征向量進行融合,得到復合邊界特征向量;對所述非結構化文本數據進行預處理,并通過預訓練以得到字特征向量;基于所述字特征向量及所述復合邊界特征向量,通過聯合學習,生成聯合模型;通過所述聯合模型,對待標注文本進行序列標注。該方法可消除因分詞錯誤等帶來的影響,提高了標注結果的準確性。
技術領域
本發明涉及互聯網技術領域,特別涉及一種基于復合邊界信息的序列標注方法及系統。
背景技術
目前,隨著文本數據量在互聯網上的膨脹,越來越多的服務與應用依賴知識抽取等技術的輔助,以提供更好的服務。而在知識抽取這個具體的任務中,解析無自然分隔的文本(如中文、日文等)的技術又扮演著很重要的作用。
在現有技術領域,在處理無自然分隔的語言的文本數據時,仍然受到分詞錯誤的影響。
當前使用以字為單位的模型,可以在一定程度上避免分詞錯誤的影響,但是同時也無法利用到詞邊界的信息,從而導致識別錯誤的不可避免。
發明內容
鑒于上述問題,本發明提出了一種基于復合邊界信息的序列標注方法,可消除因分詞錯誤等帶來的影響,提高了標注結果的準確性。
第一方面,本發明實施例提供一種基于復合邊界信息的序列標注方法,包括:對非結構化文本數據通過預設模型,生成復合詞向量并歸一化;
對所述非結構化文本數據,預訓練獲得詞邊界特征向量;
將所述復合詞向量與所述詞邊界特征向量進行融合,得到復合邊界特征向量;
對所述非結構化文本數據進行預處理,并通過預訓練以得到字特征向量;
基于所述字特征向量及所述復合邊界特征向量,通過聯合學習,生成聯合模型;
通過所述聯合模型,對待標注文本進行序列標注。
在一個實施例中,對非結構化文本數據通過預設模型,生成復合詞向量并歸一化,包括:
對非結構化文本數據的當前語料,以每個句子為單位,生成全分詞結果;
歸一化每個全分詞后的詞向量集合;
將所述詞向量集合,通過注意力機制轉換為一個復合詞向量;所述復合詞向量包含全分詞的邊界信息。
在一個實施例中,所述歸一化每個全分詞后的詞向量集合,包括:
統一每個詞向量集合的大小,選擇當前句中包含詞數最多的集合,作為參照集合;
所述參照集合包含詞數的數量,作為參照值;當其他集合的詞數少于所述參照值時,則進行padding操作。
在一個實施例中,對所述非結構化文本數據,預訓練獲得詞邊界特征向量,包括:
對所述非結構化文本數據的當前語料,以每個句子為單位,生成全分詞結果;
使用BMES對所述全分詞結果的各個詞序列進行標注,并按照每個字對應的標簽種類進行合并;
生成每個字的標簽的向量表示,并轉換為唯一編碼表示;所述唯一編碼表示包含詞邊界信息。
在一個實施例中,對所述非結構化文本數據進行預處理,并通過預訓練以得到字特征向量,包括:
對所述非結構化文本數據進行數據清洗,生成訓練數據;
根據序列標注任務的需求,使用BIO對所述訓練數據進行序列標注;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中電藥明數據科技(成都)有限公司,未經中電藥明數據科技(成都)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911056445.0/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





