[發(fā)明專利]序列標注方法、數(shù)據(jù)處理設(shè)備、可讀存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202010537651.X | 申請日: | 2020-06-12 |
| 公開(公告)號: | CN111695053A | 公開(公告)日: | 2020-09-22 |
| 發(fā)明(設(shè)計)人: | 沈大框;張瑩;陳成才 | 申請(專利權(quán))人: | 上海智臻智能網(wǎng)絡(luò)科技股份有限公司 |
| 主分類號: | G06F16/955 | 分類號: | G06F16/955;G06F16/35;G06F40/30;G06K9/62 |
| 代理公司: | 上海知錦知識產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 31327 | 代理人: | 潘彥君 |
| 地址: | 201803 上海市嘉*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 序列 標注 方法 數(shù)據(jù)處理 設(shè)備 可讀 存儲 介質(zhì) | ||
序列標注方法、數(shù)據(jù)處理設(shè)備、可讀存儲介質(zhì),所述方法包括:獲取待處理數(shù)據(jù),所述待處理數(shù)據(jù)包括待處理語料;提取所述待處理數(shù)據(jù)的語義特征,并將提取得到的語義特征和所述待處理數(shù)據(jù)進行邏輯運算處理,得到所述待處理數(shù)據(jù)的融合特征;基于所述待處理數(shù)據(jù)的融合特征,計算各候選預(yù)測標簽標注序列的概率值,各候選預(yù)測標簽標注序列包括:用于標注所述待處理語料的候選預(yù)測標簽;基于各候選預(yù)測標簽標注序列的概率值,獲取概率值符合預(yù)設(shè)的第一選取條件的候選預(yù)測標簽標注序列,得到所述待處理數(shù)據(jù)的標簽標注預(yù)測序列。采用上述方案,可以提高序列標注預(yù)測結(jié)果的準確率。
技術(shù)領(lǐng)域
本說明書實施例涉及信息處理技術(shù)領(lǐng)域,尤其涉及一種序列標注方法、數(shù)據(jù)處理設(shè)備、可讀存儲介質(zhì)。
背景技術(shù)
在互聯(lián)網(wǎng)信息大爆炸的時代,計算機如果能夠理解人類的語言,可以更好地輔助使用者獲取有用信息。因此,自然語言處理(Natural Language Processing,NLP)成為了近年來的研究熱點。
序列標注(Sequence Labeling)任務(wù)可以將語言序列轉(zhuǎn)化為標注序列,由此作為許多自然語言處理任務(wù)的基礎(chǔ),是自然語言處理中的重要研究內(nèi)容之一。
目前,現(xiàn)有的序列標注模型只能處理內(nèi)容簡單、來源單一的語言序列,在面對內(nèi)容復(fù)雜或來源多變的語言序列時,往往泛化能力弱、通用性差,導(dǎo)致序列標注結(jié)果的準確率較低。
發(fā)明內(nèi)容
有鑒于此,本說明書實施例提供了一種序列標注方法、數(shù)據(jù)處理設(shè)備、可讀存儲介質(zhì),能夠提高序列標注預(yù)測結(jié)果的準確率。
本說明書實施例提供了一種序列標注方法,包括:
獲取待處理數(shù)據(jù),所述待處理數(shù)據(jù)包括待處理語料;
提取所述待處理數(shù)據(jù)的語義特征,并將提取得到的語義特征和所述待處理數(shù)據(jù)進行邏輯運算處理,得到所述待處理數(shù)據(jù)的融合特征;
基于所述待處理數(shù)據(jù)的融合特征,計算各候選預(yù)測標簽標注序列的概率值,各候選預(yù)測標簽標注序列包括:用于標注所述待處理語料的候選預(yù)測標簽;
基于各候選預(yù)測標簽標注序列的概率值,獲取概率值符合預(yù)設(shè)的第一選取條件的候選預(yù)測標簽標注序列,得到所述待處理數(shù)據(jù)的標簽標注預(yù)測序列。
本說明書實施例還提供了一種序列標注方法,包括:
獲取待處理數(shù)據(jù),所述待處理數(shù)據(jù)包括待處理語料;
將所述待處理數(shù)據(jù)輸入預(yù)設(shè)的序列標注模型,以提取所述待處理數(shù)據(jù)的語義特征,并將提取得到的語義特征和所述待處理數(shù)據(jù)進行邏輯運算處理,得到所述待處理數(shù)據(jù)的融合特征,以及基于所述待處理數(shù)據(jù)的融合特征,計算各候選預(yù)測標簽標注序列的概率值,獲取概率值符合預(yù)設(shè)的第一選取條件的候選預(yù)測標簽標注序列。
本發(fā)明實施例還提供了一種數(shù)據(jù)處理設(shè)備,包括存儲器和處理器;其中,所述存儲器適于存儲一條或多條計算機指令,所述處理器運行所述計算機指令時執(zhí)行上述任一實施例所述方法的步驟。
本發(fā)明實施例還提供了一種計算機可讀存儲介質(zhì),其上存儲有計算機指令,所述計算機指令運行時執(zhí)行上述任一實施例所述方法的步驟。
采用本說明書實施例的序列標注方案,在獲取待處理數(shù)據(jù)后,通過將提取得到的所述待處理數(shù)據(jù)的語義特征和所述待處理數(shù)據(jù)進行邏輯運算,可以融合待處理數(shù)據(jù)中的原始語義信息和語義特征中經(jīng)過提取的語義信息,從而避免語義特征提取錯誤或關(guān)鍵語義信息缺失對序列標注預(yù)測結(jié)果帶來的影響,使得融合后的特征包含豐富的語義信息,可以表征內(nèi)容復(fù)雜或來源多變的待處理數(shù)據(jù),有利于更加準確地計算各候選預(yù)測標簽標注序列的概率值,進而提高序列標注結(jié)果的準確率。
附圖說明
圖1是本說明書實施例中一種序列標注方法的流程圖;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海智臻智能網(wǎng)絡(luò)科技股份有限公司,未經(jīng)上海智臻智能網(wǎng)絡(luò)科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010537651.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)處理設(shè)備,數(shù)據(jù)處理方法,和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理電路、數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法、數(shù)據(jù)處理控制方法
- 數(shù)據(jù)處理設(shè)備、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及計算機可讀取的記錄介質(zhì)
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序





