日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]一種基于預訓練語言模型的實體識別方法在審

專利信息
申請號: 202210361634.4 申請日: 2022-04-07
公開(公告)號: CN114647715A 公開(公告)日: 2022-06-21
發明(設計)人: 戴國駿;蔣世豪;葉晨;張樺;吳以凡;支浩仕 申請(專利權)人: 杭州電子科技大學
主分類號: G06F16/33 分類號: G06F16/33;G06F16/335;G06F16/35;G06F40/30;G06K9/62;G06N3/04;G06N3/08
代理公司: 杭州君度專利代理事務所(特殊普通合伙) 33240 代理人: 朱月芬
地址: 310018 浙*** 國省代碼: 浙江;33
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 一種 基于 訓練 語言 模型 實體 識別 方法
【說明書】:

發明公開了一種基于預訓練語言模型的實體識別方法。本發明涉及深度學習,自然語言處理任務中的預訓練語言模型和數據集成領域中的實體識別子任務。本發明添加了對于實體識別任務本身獨特需求的關注,具體是提出一個關注相似片段和數字信息片段的聯合實體識別模型,通過一個感知相似片段的編碼器和一個感知數字片段的編碼器,可以有效處理預訓練語言模型在小訓練集上注意力分散的問題,從而使模型能夠更好的處理實體識別任務。本發明能夠在小訓練集上較現有最新方法有顯著的提升,目前大部分方法都需要大量的訓練數據,這就意味著需要大量人工參與標注數據,本發明可以有效節省人工標注的成本。

技術領域

本發明涉及深度學習,自然語言處理任務中的預訓練語言模型和數據集成領域中的實體識別子任務。添加了對于實體識別任務本身獨特需求的關注,具體是提出一個關注相似片段和數字信息片段的聯合實體識別模型,通過一個感知相似片段的編碼器和一個感知數字片段的編碼器,可以有效處理預訓練語言模型在小訓練集上注意力分散的問題,從而使模型能夠更好的處理實體識別任務。

背景技術

實體識別(又稱實體解析)任務,旨在識別兩個記錄是否引用了相同的世界真實實體。傳統的實體識別方法主要關注結構化數據,這些數據大多是原子化也就是屬性值較短的。近年來,由于大數據時代對于匹配文本化的實體數據的需求不斷增加,例如匹配長文本的產品描述,對傳統的實體識別方法提出了挑戰。

在自然語言處理NLP領域的任務中,文本分類和相似性問題跟文本數據的問題息息相關。文本分類是針對不同場景(諸如情緒分析、主題檢測、問答類型檢測)預測給定文本的一個或多個類別標簽的任務。近來,有些研究利用了一種基于transformer的BERT結構,在模型頂層設計一個線性分類器,從而可以處理諸如文本分類、語句問答等下游任務。

得益于預訓練語言模型的研究發展和應用成熟,兩種基于預訓練語言模型的實體識別方法被提出,分別是DITTO方法和JointBERT方法,兩者都被證明能夠獲得更好的表現結果。DITTO可以通過在預處理期間注入獨特的標記來利用領域知識,JointBERT是一種基于預訓練語言模型的雙目標訓練方法,能夠在大量數據集下獲得更加優秀的表現。

然而,這些方法比較直接地使用預訓練的語言模型,并將實體識別和實體本身的特點割裂視為一個自然語言處理(Natural Language Processing,NLP)任務,不考慮實體識別任務的獨特需求。DITTO的領域內先驗知識并不總是可用且有效的,該缺點會導致整個模型的泛化能力較差;而JointBERT在訓練集有限的情況下,返而會對原有的預訓練語言模型造成負面影響,降低了模型的識別準確率。

因此,本發明擬針對深度學習模型中的注意力分散和小訓練集下無法關注實體數據本身特點的問題,提出能夠更加關注于相似片段和數字信息的實體識別方法。

發明內容

針對上述問題,本發明提出了一種不需要手動注入獨特標記和先驗知識的實體識別方法,增強了對文本數據中關鍵數字信息和相似片段的關注。

本發明解決其技術問題所采用的技術方案如下:

步驟1:數據預處理,根據基于文本相似度的處理方法預先生成所有的實體候選對,針對每個實體候選對(記錄u,記錄v),先將記錄u和記錄v的實體文本描述分別生成序列Ⅰ和生成序列Ⅱ,然后使用特殊標識符連接生成序列Ⅰ和生成序列Ⅱ,從而得到一個綜合生成序列Ⅲ。

步驟2:使用預訓練語言模型(Pre-trained Language Model)將預處理之后的生成序列Ⅰ、生成序列Ⅱ和綜合生成序列Ⅲ分別進行分詞、提取單詞嵌入向量特征,并根據不同的文本長度進行對齊,最后分別得到生成序列Ⅰ、生成序列Ⅱ和綜合生成序列Ⅲ對應的詞向量Eu、詞向量Ev和組合后的整個詞向量Et

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州電子科技大學,未經杭州電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/202210361634.4/2.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖;

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 日韩中文字幕亚洲欧美| 午夜激情电影院| 91精品国模一区二区三区| 欧美一区二区三区中文字幕| bbbbb女女女女女bbbbb国产| 国产91视频一区| 91精品婷婷国产综合久久竹菊 | 国产偷窥片| 福利片一区二区三区| xxxxx色| 日本白嫩的18sex少妇hd| 国产乱了高清露脸对白| 国产理论片午午午伦夜理片2021 | 中文在线√天堂| 国产偷久久一区精品69| 亚洲精品一品区二品区三品区 | 久久福利免费视频| 综合在线一区| 91影视一区二区三区| 亚洲欧美色图在线| 国产欧美日韩精品在线| 91精品视频在线免费观看| 久久久久国产亚洲| 国产91高清| 欧美在线一区二区视频| 久久狠狠高潮亚洲精品| 国产亚洲欧美日韩电影网| 欧美69精品久久久久久不卡| 国产日产欧美一区| 国内精品99| 日本二区在线观看| 日韩一级在线视频| 欧美一区二区三区黄| 午夜理伦影院| 免费午夜片| 夜夜躁狠狠躁日日躁2024| 日本精品一区视频| 国产一区二区高潮| 国产精品理人伦一区二区三区| 日韩av在线播| 午夜黄色大片| 中文字幕一区二区三区四| 精品三级一区二区| 韩日av一区二区| 国产精品乱码一区| 99久久精品国| 亚洲日韩aⅴ在线视频| 自拍偷在线精品自拍偷无码专区| 国产精品免费一视频区二区三区| 日韩一级视频在线| 日本丰满岳妇伦3在线观看| 国产精品人人爽人人做av片| 日本道欧美一区二区aaaa| 欧美一区二区三区在线免费观看 | 久久国产精品欧美| 狠狠躁夜夜av| 一区二区午夜| 国产精品女人精品久久久天天| 日韩一级在线视频| 久久福利免费视频| 精品无人国产偷自产在线| 欧美午夜理伦三级在线观看偷窥| 欧美一区二区三区性| 91麻豆精品国产91久久久资源速度| 精品久久不卡| 国产精品麻豆一区二区三区| 欧美一区二区三区艳史| 一区二区三区国产视频| 欧美精品第一区| 国产又色又爽无遮挡免费动态图| 亚洲欧美另类综合| 国产精品一区二区在线看| 911久久香蕉国产线看观看| 一区二区三区欧美精品| 国产一区二区资源| 国产精品无码专区在线观看 | 欧美精品八区| 国产精品久久久av久久久| 国产美女视频一区二区三区| 日日夜夜一区二区| 国产精品一区不卡| 亚洲欧美国产精品久久|