[發明專利]對大樣本組的高效標注在審
| 申請號: | 201780000167.X | 申請日: | 2017-03-06 |
| 公開(公告)號: | CN107004141A | 公開(公告)日: | 2017-08-01 |
| 發明(設計)人: | 劉揚;馮超;甘鄭麥若;雷志斌;向藝 | 申請(專利權)人: | 香港應用科技研究院有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06F17/30 |
| 代理公司: | 北京安信方達知識產權代理有限公司11262 | 代理人: | 張瑞,鄭霞 |
| 地址: | 中國香*** | 國省代碼: | 香港;81 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 大樣 本組 高效 標注 | ||
技術領域
本發明總體上涉及用于標注批量樣本的計算機實施的方法。特別地,本發明涉及這樣的方法:在其中人工標注被用于標注樣本當中的基礎實例和特殊實例而其余樣本被機器標注。
背景技術
隨著互聯網和社交媒體的普及,數字對象快速生成。這些數字對象通常為多媒體,例如視頻、圖像、音頻文件、文本和其組合。對數字對象的標注提高了其可搜索性。通過標注,數字對象被標注有用于描述數字對象的元數據,例如一個或多個關鍵詞。盡管通過標注使得在包含大量數字對象的庫中搜索期望的對象高效,但是標注大量的數字對象就其本身來說是一個技術挑戰。
通常,機器學習算法被用于分類數字對象以進行標注。智能認知系統需要初始分類器訓練。初始用于訓練分類器的數字對象首先通過人工標注而被手動標注。人工標注無疑是一個耗時的高成本過程。在標注時減少人工工作是可取的。更具體地,從數字對象庫中選擇較少量的數字對象來進行人工標注以訓練分類器是可取的。然而,大多數現有的標注技術(例如CN104142912A、CN102999516A和US2010/0076923A1中提出的技術)針對另一方面——在可利用的訓練樣本已經被標注的假設下增加分類器的標注準確性。技術領域中存在對減少或最小化被選擇用于人工標注的數字樣本的數量的技術的需要。
發明內容
本發明的第一方面是為了提供一種用于標注批量原始樣本的計算機實施的方法。
在所述方法中,從所述批量中選擇原始樣本的第一子集進行人工標注以產生人工標注的樣本。所述第一子集通過在最小化所述第一子集的熵均和所述批量的熵均之間的差的方式優化所述第一子集來確定。原始樣本的任意集合的熵均通過平均屬于前述集合的原始樣本的熵值來計算。在獲得人工標注的樣本之后,從所述批量中去除屬于選擇的第一子集的原始樣本。人工標注的樣本被用作訓練數據以配置用于標注輸入樣本以產生標注的輸出樣本的至少一個標注過程。在配置之后的標注過程用于標注所述批量中剩余的任何原始樣本。
優選地,人工標注的樣本還被用作訓練數據以配置用于驗證標注的輸出樣本的標注準確性的檢查過程。此外,對所述批量中剩余的任何原始樣本執行標注和檢查過程。標注和檢查過程包括下述步驟。通過標注過程對所述批量中剩余的單獨的原始樣本進行標注以產生單獨的機器標注的樣本。通過檢查過程驗證單獨的機器標注的樣本的標注準確性。如果單獨的機器標注的樣本的標注被驗證為是準確的,則從所述批量中去除單獨的原始樣本;否則,丟棄單獨的機器標注的樣本。可選的步驟是為單獨的原始樣本生成驗證結果。驗證結果包括單獨的原始樣本、單獨的機器標注的樣本和單獨的機器標注的樣本是否準確的指示。如果在執行標注和檢查過程之后所述批量非空,則執行更新過程。
在更新過程的一個實施方式中,從所述批量中選擇原始樣本的第二子集進行人工標注以產生額外的人工標注的樣本。在獲得額外人工標注的樣本之后,從所述批量中去除屬于選擇的第二子集的原始樣本。額外的人工標注的樣本被用作額外的訓練數據以更新標注過程和檢查過程。如果在執行更新過程之后所述批量非空,則重復標注和檢查過程。
在更新過程的另一實施方式中,根據在標注和檢查過程中獲得的一個或多個驗證結果來更新標注過程和檢查過程。特別地,一個或多個驗證結果的全部或部分被用作額外的訓練數據以更新標注過程和檢查過程。在完成更新過程之后,重復標注和檢查過程。
本發明的第二方面是為了提供一種用于標注原始樣本的組的計算機實施的方法。所述方法包括聚類所述組中的原始樣本以便將所述組分割成原始樣本的一個或多個聚類。根據在本發明的第一方面中闡述的方法的任一實施方式來標注原始樣本的每個聚類。
如下文的實施方式所示意地公開了本發明的其他方面。
附圖說明
圖1描繪了根據本發明的標注批量原始樣本的流程圖。
圖2A和2B提供了說明標注所述批量原始樣本的處理流程的示例,其中圖2A描繪了第一輪處理而圖2B描繪了第二輪處理。
具體實施方式
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于香港應用科技研究院有限公司,未經香港應用科技研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201780000167.X/2.html,轉載請聲明來源鉆瓜專利網。





