[發明專利]語料標注方法、裝置、設備和存儲介質有效
| 申請號: | 201810713479.1 | 申請日: | 2018-06-29 |
| 公開(公告)號: | CN108897869B | 公開(公告)日: | 2020-10-27 |
| 發明(設計)人: | 田凱 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/335 |
| 代理公司: | 北京品源專利代理有限公司 11332 | 代理人: | 孟金喆 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語料 標注 方法 裝置 設備 存儲 介質 | ||
本發明實施例公開了一種語料標注方法、裝置、設備和存儲介質,其中,該方法包括:在語料標注區域中展示各待標注語料;若檢測到用戶選擇所述各待標注語料中的至少一個待標注語料,且選擇語料標注區域中的意圖標注控件,則依據用戶操作確定所述至少一個待標注語料的意圖標注。本發明實施例可以實現大量樣本的快速標注,提高了語料標注的效率和準確率。
技術領域
本發明實施例涉及計算機技術領域,尤其涉及一種語料標注方法、裝置、設備和存儲介質。
背景技術
在人工智能的人機對話領域需要使用自然語言處理(Natural LanguageProcessing,NLP)與機器學習技術對大量的對話語料進行訓練,要想在人機對話中讓機器更智能的理解人的目的(即意圖)和實現該目的的關鍵信息(即詞槽)就需要人工標注大量(上萬至百萬)的對話語料,標出每一條訓練語料中人的意圖和詞槽,讓機器從這些標注好的語料中學習規律,擬合出可以預測相同領域的對話意圖和詞槽,從而實現機器對人類語言的理解,進一步讓機器幫助人類,滿足人類的需求。
標注大量語料需要標注員人工進行,標注方法是否科學,系統工具是否高效好用對標注的效率起到了關鍵作用。現有的語料標注方式需要單獨對每一行對話樣本進行標注導入系統,或者在系統內先自動對連續的對話語句分詞然后對分詞逐一進行標注,例如對“明天有雨嗎”進行分詞得到“明天”、“有”、“雨”和“嗎”,先標注意圖為“下雨”,再分別對這三個分詞進行詞槽的標注。現有的語料標注方式步驟分割,可操作性低,標注大量樣本時極易導致操作疲勞,降低標注效率。
發明內容
本發明實施例提供了一種語料標注方法、裝置、設備和存儲介質,可以提高語料標注的效率和準確率。
第一方面,本發明實施例提供了一種語料標注方法,包括:
在語料標注區域中展示各待標注語料;
若檢測到用戶選擇所述各待標注語料中的至少一個待標注語料,且選擇語料標注區域中的意圖標注控件,則依據用戶操作確定所述至少一個待標注語料的意圖標注。
第二方面,本發明實施例還提供了一種語料標注裝置,該裝置包括:
展示模塊,用于在語料標注區域中展示各待標注語料;
意圖模塊,用于若檢測到用戶選擇所述各待標注語料中的至少一個待標注語料,且選擇語料標注區域中的意圖標注控件,則依據用戶操作確定所述至少一個待標注語料的意圖標注。
第三方面,本發明實施例還提供了一種設備,所述設備包括:
一個或多個處理器;
存儲裝置,用于存儲一個或多個程序;
當所述一個或多個程序被所述一個或多個處理器執行,使得所述一個或多個處理器實現如上所述的語料標注方法。
第四方面,本發明實施例還提供了一種計算機可讀存儲介質,其上存儲有計算機程序,該程序被處理器執行時實現如上所述的語料標注方法。
本發明實施例通過在語料標注區域中展示各待標注語料,若檢測到用戶選擇所述各待標注語料中的至少一個待標注語料,且選擇語料標注區域中的意圖標注控件,則依據用戶操作確定所述至少一個待標注語料的意圖標注。本發明實施例可以實現大量樣本的快速標注,提高了語料標注的效率和準確率。
附圖說明
圖1為本發明實施例一中的語料標注方法的流程圖;
圖2為本發明實施例一中的待標注語料的示意圖;
圖3為本發明實施例一中的意圖標注的示意圖;
圖4為本發明實施例一中的詞槽標注的示意圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810713479.1/2.html,轉載請聲明來源鉆瓜專利網。





