[發明專利]語料標注方法、裝置、設備和存儲介質有效

申請號：	201810713479.1	申請日：	2018-06-29
公開（公告）號：	CN108897869B	公開（公告）日：	2020-10-27
發明（設計）人：	田凱	申請（專利權）人：	北京百度網訊科技有限公司
主分類號：	G06F16/332	分類號：	G06F16/332;G06F16/335
代理公司：	北京品源專利代理有限公司 11332	代理人：	孟金喆
地址：	100085 北京市***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	語料標注方法裝置設備存儲介質
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明實施例公開了一種語料標注方法、裝置、設備和存儲介質，其中，該方法包括：在語料標注區域中展示各待標注語料；若檢測到用戶選擇所述各待標注語料中的至少一個待標注語料，且選擇語料標注區域中的意圖標注控件，則依據用戶操作確定所述至少一個待標注語料的意圖標注。本發明實施例可以實現大量樣本的快速標注，提高了語料標注的效率和準確率。

技術領域

本發明實施例涉及計算機技術領域，尤其涉及一種語料標注方法、裝置、設備和存儲介質。

背景技術

在人工智能的人機對話領域需要使用自然語言處理(Natural LanguageProcessing，NLP)與機器學習技術對大量的對話語料進行訓練，要想在人機對話中讓機器更智能的理解人的目的(即意圖)和實現該目的的關鍵信息(即詞槽)就需要人工標注大量(上萬至百萬)的對話語料，標出每一條訓練語料中人的意圖和詞槽，讓機器從這些標注好的語料中學習規律，擬合出可以預測相同領域的對話意圖和詞槽，從而實現機器對人類語言的理解，進一步讓機器幫助人類，滿足人類的需求。

標注大量語料需要標注員人工進行，標注方法是否科學，系統工具是否高效好用對標注的效率起到了關鍵作用。現有的語料標注方式需要單獨對每一行對話樣本進行標注導入系統，或者在系統內先自動對連續的對話語句分詞然后對分詞逐一進行標注，例如對“明天有雨嗎”進行分詞得到“明天”、“有”、“雨”和“嗎”，先標注意圖為“下雨”，再分別對這三個分詞進行詞槽的標注。現有的語料標注方式步驟分割，可操作性低，標注大量樣本時極易導致操作疲勞，降低標注效率。

發明內容

本發明實施例提供了一種語料標注方法、裝置、設備和存儲介質，可以提高語料標注的效率和準確率。

第一方面，本發明實施例提供了一種語料標注方法，包括：

在語料標注區域中展示各待標注語料；

若檢測到用戶選擇所述各待標注語料中的至少一個待標注語料，且選擇語料標注區域中的意圖標注控件，則依據用戶操作確定所述至少一個待標注語料的意圖標注。

第二方面，本發明實施例還提供了一種語料標注裝置，該裝置包括：

展示模塊，用于在語料標注區域中展示各待標注語料；

意圖模塊，用于若檢測到用戶選擇所述各待標注語料中的至少一個待標注語料，且選擇語料標注區域中的意圖標注控件，則依據用戶操作確定所述至少一個待標注語料的意圖標注。

第三方面，本發明實施例還提供了一種設備，所述設備包括：

一個或多個處理器；

存儲裝置，用于存儲一個或多個程序；

當所述一個或多個程序被所述一個或多個處理器執行，使得所述一個或多個處理器實現如上所述的語料標注方法。