[發明專利]一種語料獲取方法、裝置及設備在審

申請號：	202010962143.6	申請日：	2020-09-14
公開（公告）號：	CN114186562A	公開（公告）日：	2022-03-15
發明（設計）人：	張文瑜	申請（專利權）人：	大眾問問（北京）信息科技有限公司
主分類號：	G06F40/30	分類號：	G06F40/30;G06F16/33
代理公司：	北京品源專利代理有限公司 11332	代理人：	孟金喆
地址：	100098 北京市海淀區***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種語料獲取方法裝置設備
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明實施例公開了一種語料獲取方法、裝置及設備。其中，注意力檢測方法，包括：獲取語料提供方的至少一項個人屬性信息；篩選與所述個人屬性信息對應的設定數量的語料啟發問題；將各所述語料啟發問題向所述語料提供方進行展示，并獲取所述語料提供方針對所述語料啟發問題反饋的語料。本發明實施例的技術方案，解決了現有語料富集手段得到語料形式單一的問題，可以根據個人屬性信息進行差異化的語料啟發問題推送，提高語料多樣性和可靠性。

技術領域

本發明實施例涉及計算機技術，尤其涉及一種語料獲取方法、裝置及設備。

背景技術

隨著計算機技術的迅猛發展，人們對計算機智能化的需求越來越高，如何使計算機能夠準確理解人類語言成為一個熱門研究方向，其中，NLU(Natural LanguageUnderstanding，自然語言理解)技術使計算機能夠提取人類語言中的信息并進行理解，在各領域得到廣泛應用。

現有技術中，NLU模型的訓練需要大量多樣性的語料，如果語料表達不符合設定場景或者表達不夠多樣化，則NLU模型在理解不同表達方式的文本時，會出現理解能力下降的情況，現在常用的語料富集手段是給出語料的樣例，根據樣例生成與樣例語義相同的語料，但使用這種語料富集手段得到的語料形式較為單一，一旦輸入的文本形式發生變化，NLU模型就不能實現準確的理解。

發明內容

本發明實施例提供一種語料獲取方法、裝置及設備，根據語料提供方的個人屬性信息篩選語料啟發問題，以獲取語料提供方根據語料啟發問題反饋的語料，提高了獲取語料的多樣性和可靠性。

第一方面，本發明實施例提供了一種語料獲取方法，所述方法包括：

獲取語料提供方的至少一項個人屬性信息；

篩選與所述個人屬性信息對應的設定數量的語料啟發問題；

將各所述語料啟發問題向所述語料提供方進行展示，并獲取所述語料提供方針對所述語料啟發問題反饋的語料。

第二方面，本發明實施例還提供了一種語料獲取裝置，所述裝置包括：

屬性信息獲取模塊，用于獲取語料提供方的至少一項個人屬性信息；

啟發問題篩選模塊，用于篩選與所述個人屬性信息對應的設定數量的語料啟發問題；

反饋語料獲取模塊，用于將各所述語料啟發問題向所述語料提供方進行展示，并獲取所述語料提供方針對所述語料啟發問題反饋的語料。

第三方面，本發明實施例還提供了一種電子設備，包括：

一個或多個處理器；

存儲器，用于存儲一個或多個程序；

當所述一個或多個程序被所述一個或多個處理器執行，使得所述一個或多個處理器實現本發明任意實施例提供的語料獲取方法。

第四方面，本發明實施例還提供了一種計算機可讀存儲介質，其上存儲有計算機程序，該程序被處理器執行時實現本發明任意實施例提供的語料獲取方法。

本發明實施例的技術方案，首先獲取語料提供方的至少一項個人屬性信息，并篩選與個人屬性信息對應的設定數量的語料啟發問題，最終將各語料啟發問題向語料提供方進行展示，并獲取語料提供方針對語料啟發問題反饋的語料，解決了現有語料富集手段得到語料形式單一的問題，可以根據個人屬性信息進行差異化的問題推送，提高語料多樣性和可靠性。

附圖說明

圖1是本發明實施例一中的一種語料獲取方法的流程圖；

圖2是本發明實施例二中的一種語料獲取方法的流程圖；

圖3是本發明實施例三中的一種語料獲取方法的流程圖；

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于大眾問問（北京）信息科技有限公司，未經大眾問問（北京）信息科技有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010962143.6/2.html，轉載請聲明來源鉆瓜專利網。