[發(fā)明專利]一種標注樣本選取方法、裝置、電子設(shè)備和存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 202210122790.5 | 申請日: | 2022-02-09 |
| 公開(公告)號: | CN114443849B | 公開(公告)日: | 2023-10-27 |
| 發(fā)明(設(shè)計)人: | 彭敏龍;孫明明;李平 | 申請(專利權(quán))人: | 北京百度網(wǎng)訊科技有限公司 |
| 主分類號: | G06F18/214 | 分類號: | G06F18/214;G06F18/241 |
| 代理公司: | 北京易光知識產(chǎn)權(quán)代理有限公司 11596 | 代理人: | 王英;梅丹丹 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 標注 樣本 選取 方法 裝置 電子設(shè)備 存儲 介質(zhì) | ||
本公開提供了一種標注樣本選取方法、裝置、電子設(shè)備和存儲介質(zhì),涉及計算機技術(shù)領(lǐng)域,具體為人工智能、深度學(xué)習(xí)技術(shù)領(lǐng)域。具體實現(xiàn)方案為:確定樣本特征的第一屬性和第二屬性;第一屬性和第二屬性分別是樣本特征在源領(lǐng)域樣本集的特征屬性和樣本特征在目標領(lǐng)域樣本集的特征屬性;根據(jù)第一屬性和第二屬性,在源領(lǐng)域樣本集的多個候選標注樣本中確定目標標注樣本;目標標注樣本用于訓(xùn)練分類模型,分類模型包括用于對輸入的待分類樣本進行分析以確定情感極性的模型。
技術(shù)領(lǐng)域
本公開涉及計算機技術(shù)領(lǐng)域,具體為人工智能、深度學(xué)習(xí)技術(shù)領(lǐng)域。
背景技術(shù)
情感分析,是對帶有情感色彩的文本進行分析、處理、歸納和應(yīng)用的過程。利用深度學(xué)習(xí)技術(shù)進行情感分析,成為情感分析技術(shù)領(lǐng)域的一大推動力。深度學(xué)習(xí)需要大量標注數(shù)據(jù)進行建模訓(xùn)練,然而,由于情感分析應(yīng)用的廣泛性,情感分析系統(tǒng)需要適應(yīng)很多不同的領(lǐng)域,依賴人工為每個領(lǐng)域標注足夠多的數(shù)據(jù),大大增加了數(shù)據(jù)標注的人工成本和時間成本。
為此,如何基于源領(lǐng)域的已標注數(shù)據(jù)為目標領(lǐng)域構(gòu)建情感分析系統(tǒng),降低數(shù)據(jù)標注的成本和時間成為需要解決的問題。
發(fā)明內(nèi)容
本公開提供了一種標注樣本選取方法、裝置、電子設(shè)備和存儲介質(zhì)。
根據(jù)本公開的一方面,提供了一種標注樣本選取方法,該方法可以包括以下步驟:
確定樣本特征的第一屬性和第二屬性;第一屬性和第二屬性分別是樣本特征在源領(lǐng)域樣本集的特征屬性和樣本特征在目標領(lǐng)域樣本集的特征屬性;
根據(jù)第一屬性和第二屬性,在源領(lǐng)域樣本集的多個候選標注樣本中確定目標標注樣本;目標標注樣本用于訓(xùn)練分類模型,分類模型包括用于對輸入的待分類樣本進行分析以確定情感極性的模型。
根據(jù)本公開的另一方面,提供了一種標注樣本選取裝置,該裝置可以包括:
屬性確定模塊,用于確定確定樣本特征的第一屬性和第二屬性;第一屬性和第二屬性分別是樣本特征在源領(lǐng)域樣本集的特征屬性和樣本特征在目標領(lǐng)域樣本集的特征屬性;
標注樣本確定模塊,用于根據(jù)第一屬性和第二屬性,在源領(lǐng)域樣本集的多個候選標注樣本中確定目標標注樣本;目標標注樣本用于訓(xùn)練分類模型,分類模型包括用于對輸入的待分類樣本進行分析以確定情感極性的模型。
根據(jù)本公開的另一方面,提供了一種電子設(shè)備,包括:
至少一個處理器;以及
與該至少一個處理器通信連接的存儲器;其中,
該存儲器存儲有可被該至少一個處理器執(zhí)行的指令,該指令被該至少一個處理器執(zhí)行,以使該至少一個處理器能夠執(zhí)行本公開任一實施例中的方法。
根據(jù)本公開的另一方面,提供了一種存儲有計算機指令的非瞬時計算機可讀存儲介質(zhì),該計算機指令用于使計算機執(zhí)行本公開任一實施例中的方法。
根據(jù)本公開的另一方面,提供了一種計算機程序產(chǎn)品,包括計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)本公開任一實施例中的方法。
根據(jù)本公開的技術(shù)方案大大降低了目標領(lǐng)域樣本人工標注的成本,提升了對標注數(shù)據(jù)進行跨領(lǐng)域遷移的能力。
應(yīng)當理解,本部分所描述的內(nèi)容并非旨在標識本公開的實施例的關(guān)鍵或重要特征,也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。
附圖說明
附圖用于更好地理解本方案,不構(gòu)成對本公開的限定。其中:
圖1是根據(jù)本公開目標標注樣本選取方法的流程圖一;
圖2是根據(jù)本公開第一屬性確定方法的流程圖;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京百度網(wǎng)訊科技有限公司,未經(jīng)北京百度網(wǎng)訊科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210122790.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:防劃耐磨型5G高精密光電集成線路板的加工工藝
- 下一篇:功率放大器





