[發明專利]語料標注裝置和方法有效
| 申請號: | 201711054264.5 | 申請日: | 2017-11-01 |
| 公開(公告)號: | CN109753976B | 公開(公告)日: | 2021-03-19 |
| 發明(設計)人: | 趙嵩;高芷喬 | 申請(專利權)人: | 中國電信股份有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 中國貿促會專利商標事務所有限公司 11038 | 代理人: | 許蓓 |
| 地址: | 100033 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語料 標注 裝置 方法 | ||
本公開公開了一種語料標注裝置和方法,涉及自然語言處理技術領域。其中的語料標注方法包括:用機器標注算法對語料進行自動標注,輸出N個備選標簽;通過人工標注接口從N個備選標簽中挑選出正確的標簽。本公開將語料自動標注輸出的備選標簽集合作為人工標注的優選標簽集合,可以兼顧語料的標注效率及準確率。
技術領域
本公開涉及自然語言處理技術領域,特別涉及一種語料標注裝置和方法。
背景技術
隨著互聯網和移動終端的普及應用,各種形式的語料如洪水般涌來,在自然語言處理、機器翻譯、計算機輔助學習等多個領域需要對語料進行標注。
傳統的語料標注方法,一般由專職標注人員對語料進行標注,但是大型語料庫中需要標注的語料眾多,人工進行語料標注效率較低。為了提高語料標注效率,目前常采用標注服務器對語料進行自動標注,這種自動標注的方法標注效率較高,但是標注準確率較低。
如何兼顧語料的標注效率及準確率是當前需要解決的問題。
發明內容
本公開實施例所要解決的一個技術問題是:如何能夠兼顧語料的標注效率及準確率。
根據本公開的一個方面,提出一種語料標注裝置,包括:
自動標注單元,被配置為用機器標注算法對語料進行自動標注,輸出N個備選標簽;
人工標注單元,被配置為提供人工標注接口,所述人工標注接口提供從N個備選標簽中挑選標簽的選擇功能,以允許用戶從N個備選標簽中挑選出正確的標簽。
可選地,所述人工標注接口還提供從M個標簽全集中挑選標簽的選擇功能,以允許用戶從M個標簽全集中挑選出正確的標簽,N<M。
可選地,所述人工標注接口提供的從M個標簽全集中挑選標簽的選擇功能在從N個備選標簽中未挑選出正確的標簽時啟用。
可選地,語料標注裝置還包括:調節單元,被配置為調節N的值,使得機器標注算法輸出的N個備選標簽包含正確標簽的概率與人工標注的正確率之間的差距小于預設門限。
可選地,所述調節單元,被配置為當機器標注算法輸出的N個備選標簽包含正確標簽的概率與人工標注的正確率之間的差距不小于預設門限時,通過增大N的值,使得機器標注算法輸出的N個備選標簽包含正確標簽的概率與人工標注的正確率之間的差距小于預設門限。
根據本公開的再一個方面,提出一種語料標注方法,包括:
用機器標注算法對語料進行自動標注,輸出N個備選標簽;
通過人工標注接口從N個備選標簽中挑選出正確的標簽。
可選地,該方法還包括:若從N個備選標簽中未挑選出正確的標簽,通過人工標注接口從M個標簽全集中挑選出正確的標簽,N<M。
可選地,該方法還包括:調節N的值,使得機器標注算法輸出的N個備選標簽包含正確標簽的概率與人工標注的正確率之間的差距小于預設門限。
根據本公開的另一方面,提出一種語料標注裝置,包括:
存儲器;以及
耦接至所述存儲器的處理器,所述處理器被配置為基于存儲在所述存儲器中的指令,執行前述的語料標注方法。
根據本公開的又一方面,提出一種計算機可讀存儲介質,其上存儲有計算機程序,該程序被處理器執行時實現前述的語料標注方法的步驟。
本公開將語料自動標注輸出的備選標簽集合作為人工標注的優選標簽集合,可以兼顧語料的標注效率及準確率。
附圖說明
下面將對實施例或相關技術描述中所需要使用的附圖作簡單地介紹。根據下面參照附圖的詳細描述,可以更加清楚地理解本公開,
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國電信股份有限公司,未經中國電信股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711054264.5/2.html,轉載請聲明來源鉆瓜專利網。





