[發明專利]使用概念描述自動標注數據在審
| 申請號: | 202110452796.4 | 申請日: | 2021-04-26 |
| 公開(公告)號: | CN113641715A | 公開(公告)日: | 2021-11-12 |
| 發明(設計)人: | 丁海波;馮哲 | 申請(專利權)人: | 羅伯特·博世有限公司 |
| 主分類號: | G06F16/2457 | 分類號: | G06F16/2457;G06N20/00 |
| 代理公司: | 中國專利代理(香港)有限公司 72001 | 代理人: | 畢錚;周學斌 |
| 地址: | 德國斯*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 使用 概念 描述 自動 標注 數據 | ||
用于使用概念描述自動標注數據的系統。在一個示例中,所述系統包括電子處理器,電子處理器被配置為從一個或多個自然語言文檔生成未標注的訓練數據示例,并且對于多個類別中的每一個類別,確定與所述類別的概念描述相關聯的一個或多個概念,并且為所述一個或多個概念中的每一個生成弱注釋器。電子處理器還被配置為將每個弱注釋器應用于每個訓練數據示例,并且當訓練數據示例滿足弱注釋器時,輸出與弱注釋器相關聯的類別。對于每個訓練數據示例,電子處理器確定所述多個類別的概率分布。對于每個訓練數據示例,電子處理器用在為訓練數據示例確定的概率分布中具有最高值的類別來標注訓練數據示例。
技術領域
分類是自然語言處理的重要方面,并且可以由機器學習系統自動執行。例如,機器學習系統可以從自然語言文檔(例如,新聞文章、期刊等)接收段落,并將該段落分類為屬于一個類別(例如,體育、娛樂、人類興趣等)。自然語言段落可以包括語句的一部分或單個語句。為了對自然語言段落進行分類,使用由大量訓練示例組成的訓練數據來訓練機器學習系統。用于訓練機器學習系統的訓練示例是已經被標注或分類為屬于一個類別的自然語言段落。
背景技術
用于訓練機器學習系統以對自然語言段落進行分類的大多數現有方法依賴于人工標注的訓練示例來訓練機器學習系統。生成大量手動標注的訓練示例既耗時又昂貴,因為它需要人類查閱訓練數據中包括的每一段落,并基于他們對該段落的查閱,確定最好地描述該段落的類別,并利用其來標注該段落。為機器學習系統可能被配置為執行的每個不同任務收集足夠的手動標注的訓練示例通常是不切實際的。例如,第一組織可能期望機器學習系統被配置為按照體育文章所描述的體育運動的類型(例如,足球、田徑、網球、籃球等)對來自體育文章的段落進行分類,而第二組織可能期望機器學習系統被配置為按照小說所屬的流派類型(例如,科幻、奇幻等)對來自小說的段落進行分類。第一組織和第二組織期望機器學習系統執行的任務中沒有重疊,并且為了訓練機器學習系統執行每個任務,將需要生成兩個不同的訓練集?;谏厦娴氖纠?,容易看出訓練機器學習系統所需的訓練示例的數量可以如何隨著機器學習系統需要執行的任務數量的增長而指數增長。
發明內容
除其他事物之外,本文描述的實施例還提供了一種系統和方法,其用于基于可能與訓練數據示例相關聯的每個可能的類別或標注的概念描述來自動標注要用于訓練機器學習系統的訓練數據示例。因此,本文描述的系統和方法允許節省生成訓練集通常需要的大量工時。
一個實施例提供了一種用于使用概念描述自動標注數據的示例系統。所述系統包括電子處理器,電子處理器被配置為從一個或多個自然語言文檔生成未標注的訓練數據示例,并且對于多個類別中的每一個類別,確定與所述類別的概念描述相關聯的一個或多個概念,并且為所述一個或多個概念中的每一個生成弱注釋器。電子處理器還被配置為將每個弱注釋器應用于每個訓練數據示例,并且當訓練數據示例滿足弱注釋器時,輸出與弱注釋器相關聯的類別。對于每個訓練數據示例,電子處理器確定所述多個類別的概率分布。對于所述多個類別中的每一個類別,概率分布表示所述類別是針對訓練數據示例的正確標注的可能性。對于每個訓練數據示例,電子處理器用在為訓練數據示例確定的概率分布中具有最高值的類別來標注訓練數據示例。
另一個實施例提供了一種用于使用概念描述自動標注數據的示例方法。所述方法包括用電子處理器從一個或多個自然語言文檔生成未標注的訓練數據示例,并且對于多個類別中的每一個類別,確定與所述類別的概念描述相關聯的一個或多個概念,并且為所述一個或多個概念中的每一個生成弱注釋器。所述方法還包括將每個弱注釋器應用于每個訓練數據示例,并且當訓練數據示例滿足弱注釋器時,輸出與弱注釋器相關聯的類別。所述方法進一步包括,對于每個訓練數據示例,確定所述多個類別的概率分布。對于所述多個類別中的每一個類別,概率分布表示所述類別是針對訓練數據示例的正確標注的可能性。所述方法包括,對于每個訓練數據示例,用在為訓練數據示例確定的概率分布中具有最高值的類別來標注訓練數據示例。
通過考慮詳細描述和附圖,其他方面、特征和實施例將變得清楚。
附圖說明
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于羅伯特·博世有限公司,未經羅伯特·博世有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110452796.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:通信控制裝置和發送/接收裝置及總線系統中的通信方法
- 下一篇:樹脂組合物





