[發明專利]一種實體識別訓練數據BIO自動標注系統及方法在審
| 申請號: | 202011208221.X | 申請日: | 2020-11-03 |
| 公開(公告)號: | CN112270180A | 公開(公告)日: | 2021-01-26 |
| 發明(設計)人: | 肖波 | 申請(專利權)人: | 北京陽光云視科技有限公司 |
| 主分類號: | G06F40/279 | 分類號: | G06F40/279;G06F40/289;G06K9/62;G06N20/20 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100089 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 實體 識別 訓練 數據 bio 自動 標注 系統 方法 | ||
本發明公開了一種實體識別訓練數據BIO自動標注系統及方法,實體識別訓練數據BIO自動標注系統,包括格式化處理模塊、信息分析模塊及BIO格式轉換模塊,所述格式化處理模塊用于原始素材的格式化處理;所述信息分析模塊使用多種算法進行信息標注,生成帶有實體分析信息的內容文件;所述BIO格式轉換模塊將帶有實體名稱分析信息的文件生成BIO標注信息的格式文件。本發明解決了標注信息的工作量問題,大大節約了成本和縮短了時間。
技術領域
本發明涉及信息技術領域,特別涉及實體識別訓練數據BIO自動標注系統及方法。
背景技術
隨著機器學習熱潮的興起,很多領域都開始嘗試通過AI來進行行業的創新和應用,AI雖然可以處理很多人類不能夠完成的事情,但前題是需要大量的基礎數據進行模型的訓練工作,進行訓練的前提是,需要有大量的數據,并針對于數據內容進行ETL處理,而對于數據格式化標注就是AI的開始,目前很多行業都留存有大量的數據,但如何把這些歷史數據快速的標記完成供機器學習進行使用,是遇到的最大的難題。
數據標注有許多類型,如分類、畫框、注釋、標記等等。要理解數據標注,得先理解AI其實是部分替代人的認知功能。例如我們學習認識蘋果,那么就需要有人拿著一個蘋果到你面前告訴你,這是一個蘋果。然后以后你遇到了蘋果,你才知道這玩意兒叫做“蘋果”。類比機器學習,我們要教他認識一個蘋果,你直接給它一張蘋果的圖片,它是完全不知道這是個啥玩意的。我們得先有蘋果的圖片,上面標注著“蘋果”兩個字,然后機器通過學習了大量的圖片中的特征,這時候再給機器任意一張蘋果的圖片,它就能認出來了。所以如果讓機器能夠像人一樣識別蘋果,就需要讓給機器學習各種蘋果的特征,我們把各種蘋果特征的數據集合叫訓練集或者是測試集,訓練集和測試集都是標注過的數據,還是以蘋果為例子,假設我們有1000張標注著“蘋果”的圖片,那么我們可以拿900漲作為訓練集,100張作為測試集。機器從900張蘋果的圖片中學習得到一個模型,然后我們將剩下的100張機器沒有見過的圖片去給它識別,然后我們就能夠得到這個模型的準確率了。訓練集或者測試集是進行AI訓練的基礎,一個模型的訓練依靠數據集,而數據集的數量和準確程度也是整個模型精度的基礎,所以數據集質量越高,訓練出來的模型也更加精確。而對于數據集來說,需要首先要對于原始數據進行清洗和整理,提取出有效數據,然后對于數據進行分詞和標注,如果采用人工方式進行標注,工作量會非常大,并且準確性也無法保證,如果需要保證準確度的同時就需要投入更多的人工進行校對,這樣不但提高了成本的同時,也降低了效率。
人工標注有幾個問題是無法解決的;一個是人力成本的問題,海量數據的標注勢必需要大量的人工,而在今天人力成本變得越來越昂貴,所以成本的支出使很多人望而卻步。其次是效率問題,人工標注的效率非常低尤其在處理文本內容時,一個熟練的人其每小時的BIO 標注內容也僅為2000-3000字,一天能夠處理的量也就是萬字左右;第三就是錯誤率問題,機器學習的準確與否與訓練素材的質量有直接的相關性,而人工標注的內容如果缺少必要的復核校對,其準確度無法進行評測,所以其會對于最終的結果產生影響。
為了解決目前在標注中存在的問題,根據行業的規律提取出行業的字庫,然后通過不斷的優化字庫并通過算法來自動的生成標注信息變得尤其重要。
發明內容
為解決以上所述的技術問題,本發明提供了實體識別訓練數據 BIO自動標注系統及方法,解決了標注信息的工作量問題,大大節約了成本和縮短了時間。
本發明的技術方案為:
實體識別訓練數據BIO自動標注系統,包括格式化處理模塊、信息分析模塊及BIO格式轉換模塊,
所述格式化處理模塊用于原始素材的格式化處理;
所述信息分析模塊使用多種算法進行信息標注,生成帶有實體分析信息的內容文件;
所述BIO格式轉換模塊將帶有實體名稱分析信息的文件生成BIO 標注信息的格式文件。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京陽光云視科技有限公司,未經北京陽光云視科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011208221.X/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





