[發(fā)明專利]使用概念描述自動(dòng)標(biāo)注數(shù)據(jù)在審
| 申請(qǐng)?zhí)枺?/td> | 202110452796.4 | 申請(qǐng)日: | 2021-04-26 |
| 公開(公告)號(hào): | CN113641715A | 公開(公告)日: | 2021-11-12 |
| 發(fā)明(設(shè)計(jì))人: | 丁海波;馮哲 | 申請(qǐng)(專利權(quán))人: | 羅伯特·博世有限公司 |
| 主分類號(hào): | G06F16/2457 | 分類號(hào): | G06F16/2457;G06N20/00 |
| 代理公司: | 中國專利代理(香港)有限公司 72001 | 代理人: | 畢錚;周學(xué)斌 |
| 地址: | 德國斯*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 使用 概念 描述 自動(dòng) 標(biāo)注 數(shù)據(jù) | ||
1.一種用于使用概念描述自動(dòng)標(biāo)注數(shù)據(jù)的系統(tǒng),所述系統(tǒng)包括電子處理器,電子處理器被配置為
從一個(gè)或多個(gè)自然語言文檔生成未標(biāo)注的訓(xùn)練數(shù)據(jù)示例;
對(duì)于多個(gè)類別中的每一個(gè)類別,
確定與所述類別的概念描述相關(guān)聯(lián)的一個(gè)或多個(gè)概念;和
為所述一個(gè)或多個(gè)概念中的每一個(gè)生成弱注釋器;以及
將每個(gè)弱注釋器應(yīng)用于每個(gè)訓(xùn)練數(shù)據(jù)示例,并且當(dāng)訓(xùn)練數(shù)據(jù)示例滿足弱注釋器時(shí),輸出與弱注釋器相關(guān)聯(lián)的類別;
對(duì)于每個(gè)訓(xùn)練數(shù)據(jù)示例,確定所述多個(gè)類別的概率分布,對(duì)于所述多個(gè)類別中的每一個(gè)類別,概率分布表示所述類別是針對(duì)訓(xùn)練數(shù)據(jù)示例的正確標(biāo)注的可能性;以及
對(duì)于每個(gè)訓(xùn)練數(shù)據(jù)示例,用在為訓(xùn)練數(shù)據(jù)示例確定的概率分布中具有最高值的類別來標(biāo)注訓(xùn)練數(shù)據(jù)示例。
2.根據(jù)權(quán)利要求1所述的系統(tǒng),其中電子處理器進(jìn)一步被配置為基于與訓(xùn)練數(shù)據(jù)示例相關(guān)聯(lián)的概率分布來選擇訓(xùn)練數(shù)據(jù)示例,以用于訓(xùn)練機(jī)器學(xué)習(xí)系統(tǒng)。
3.根據(jù)權(quán)利要求2所述的系統(tǒng),其中電子處理器進(jìn)一步被配置為當(dāng)為訓(xùn)練數(shù)據(jù)示例確定的概率分布中包括的值在預(yù)定閾值以上時(shí),選擇訓(xùn)練數(shù)據(jù)示例以用于訓(xùn)練機(jī)器學(xué)習(xí)系統(tǒng)。
4.根據(jù)權(quán)利要求1所述的系統(tǒng),其中電子處理器進(jìn)一步被配置為通過以下方式產(chǎn)生處于能夠從一個(gè)或多個(gè)自然語言文檔中提取訓(xùn)練數(shù)據(jù)示例的狀態(tài)下的所述一個(gè)或多個(gè)自然語言文檔
從自然語言文檔中提取文本;
對(duì)提取的文本進(jìn)行令牌化;
將文本分成語句;
用詞性標(biāo)簽來注釋每個(gè)令牌;以及
注釋單詞對(duì)的依賴關(guān)系。
5.根據(jù)權(quán)利要求1所述的系統(tǒng),其中電子處理器被配置為將每個(gè)弱注釋器應(yīng)用于每個(gè)訓(xùn)練數(shù)據(jù)示例,并且當(dāng)訓(xùn)練數(shù)據(jù)示例滿足弱注釋器時(shí),通過以下方式輸出與弱注釋器相關(guān)聯(lián)的類別
當(dāng)訓(xùn)練數(shù)據(jù)示例包含作為概念實(shí)例的術(shù)語時(shí),輸出與針對(duì)訓(xùn)練數(shù)據(jù)示例的概念相關(guān)聯(lián)的類別。
6.根據(jù)權(quán)利要求1所述的系統(tǒng),其中電子處理器被配置為將每個(gè)弱注釋器應(yīng)用于每個(gè)訓(xùn)練數(shù)據(jù)示例,并且當(dāng)訓(xùn)練數(shù)據(jù)示例滿足弱注釋器時(shí),通過以下方式輸出與弱注釋器相關(guān)聯(lián)的類別
使用單詞嵌入來計(jì)算與弱注釋器相關(guān)聯(lián)的概念和訓(xùn)練數(shù)據(jù)示例之間的相似度;以及
基于所計(jì)算的相似度,確定是否輸出針對(duì)訓(xùn)練數(shù)據(jù)示例的類別。
7.根據(jù)權(quán)利要求1所述的系統(tǒng),其中訓(xùn)練數(shù)據(jù)示例是包括自然語言語句的詞性的元組。
8.根據(jù)權(quán)利要求1所述的系統(tǒng),其中電子處理器進(jìn)一步被配置為
使用標(biāo)注的訓(xùn)練示例訓(xùn)練機(jī)器學(xué)習(xí)系統(tǒng);以及
執(zhí)行經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)系統(tǒng)來對(duì)自然語言段落進(jìn)行分類別。
9.根據(jù)權(quán)利要求1所述的系統(tǒng),其中電子處理器進(jìn)一步被配置為從所述一個(gè)或多個(gè)概念中移除有噪概念。
10.一種用于使用概念描述自動(dòng)標(biāo)注數(shù)據(jù)的方法,所述方法包括:
用電子處理器從一個(gè)或多個(gè)自然語言文檔生成未標(biāo)注的訓(xùn)練數(shù)據(jù)示例,
對(duì)于多個(gè)類別中的每一個(gè)類別,
確定與所述類別的概念描述相關(guān)聯(lián)的一個(gè)或多個(gè)概念;和
為所述一個(gè)或多個(gè)概念中的每一個(gè)生成弱注釋器;以及
將每個(gè)弱注釋器應(yīng)用于每個(gè)訓(xùn)練數(shù)據(jù)示例,并且當(dāng)訓(xùn)練數(shù)據(jù)示例滿足弱注釋器時(shí),輸出與弱注釋器相關(guān)聯(lián)的類別;
對(duì)于每個(gè)訓(xùn)練數(shù)據(jù)示例,確定所述多個(gè)類別的概率分布,對(duì)于所述多個(gè)類別中的每一個(gè)類別,概率分布表示所述類別是針對(duì)訓(xùn)練數(shù)據(jù)示例的正確標(biāo)注的可能性;以及
對(duì)于每個(gè)訓(xùn)練數(shù)據(jù)示例,用在為訓(xùn)練數(shù)據(jù)示例確定的概率分布中具有最高值的類別來標(biāo)注訓(xùn)練數(shù)據(jù)示例。
11.根據(jù)權(quán)利要求10所述的方法,所述方法進(jìn)一步包括基于與訓(xùn)練數(shù)據(jù)示例相關(guān)聯(lián)的概率分布來選擇訓(xùn)練數(shù)據(jù)示例,以用于訓(xùn)練機(jī)器學(xué)習(xí)系統(tǒng)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于羅伯特·博世有限公司,未經(jīng)羅伯特·博世有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110452796.4/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 概念識(shí)別設(shè)備和方法
- 一種基于重要度度量的概念圖自動(dòng)布圖方法
- 一種用于問答系統(tǒng)中的自動(dòng)答案摘要方法及系統(tǒng)
- 基于概念關(guān)聯(lián)的概念空間導(dǎo)航方法
- 基于形式概念格的分面搜索方法及系統(tǒng)
- 用于更新模型參數(shù)的方法、裝置、設(shè)備和介質(zhì)
- 一種基于機(jī)器學(xué)習(xí)的計(jì)算方法和計(jì)算單元
- 概念圖處理裝置、概念圖處理方法和計(jì)算機(jī)可讀介質(zhì)
- 知識(shí)概念構(gòu)建方法和裝置
- 基于無監(jiān)督的概念到句子的生成對(duì)抗網(wǎng)絡(luò)圖像描述方法





