[發明專利]語言標注處理方法、系統、電子設備及計算機可讀介質在審
| 申請號: | 201711468940.3 | 申請日: | 2017-12-29 | 
| 公開(公告)號: | CN109992763A | 公開(公告)日: | 2019-07-09 | 
| 發明(設計)人: | 王穎帥;李曉霞;苗詩雨 | 申請(專利權)人: | 北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司 | 
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06N3/04;G06N3/08 | 
| 代理公司: | 北京律智知識產權代理有限公司 11438 | 代理人: | 王衛忠;袁禮君 | 
| 地址: | 100195 北京市海淀區杏石口路6*** | 國省代碼: | 北京;11 | 
| 權利要求書: | 查看更多 | 說明書: | 查看更多 | 
| 摘要: | |||
| 搜索關鍵詞: | 標注 語料庫 構建 計算機可讀介質 電子設備 分類模型 業務場景 語義識別 語料 語言 人工智能技術 自然語言處理 機器學習 面向機器 準確率 建模 智能 學習 | ||
本發明實施例提供一種語言標注處理方法、系統、電子設備及計算機可讀介質,屬于人工智能技術領域。該語言標注處理方法包括:利用經過標注的語料構建標注語料庫;基于所述標注語料庫進行建模,得到業務場景分類模型和語義識別模型;獲取未經標注的信息;利用所述業務場景分類模型和所述語義識別模型對所述未經標注的信息進行標注。本發明通過提供一種面向機器學習的自然語言處理智能標注的方法,使用標注過的語料構建語料庫,并以此來進行機器學習,訓練構建模型,對于未經標注的數據而言,基于該模型進行標注可以減少標注人員不必要的低級錯誤,提高標注的準確率。
技術領域
本發明實施例總體涉及人工智能技術領域,具體而言,涉及一種語言標注處理方法、系統、電子設備及計算機可讀介質。
背景技術
隨著人工智能的快速發展,人們需要訓練計算機解決一些問題,但仍然有大量問題是計算機不能完成的,特別是在理解人類語言方面。在自然語言領域,對機器學習訓練數據的提示,通常以標注的形式呈現,用于標記數據集元素的元數據標簽稱為在輸入上的標注。為了使算法更有效,數據上的標注必須準確并與要執行的任務相關。NLP(NaturalLanguage Processing,自然語言處理)是人工智能中最為困難的問題之一,語言標注又是人工智能在NLP領域落地的關鍵環節。
現有技術方案往往采用人工標注,在NLP領域的序列標注問題,通常是需求方把要標注的語料以Excel的格式提供給標注人員,并且需求方寫好標注指南,標注人員閱讀標注指南后,根據自己的認知理解和標注語料,按要求逐條標注。
但是現有技術存在一定的缺點,就是單純的人工標注對標注人員的依賴很大,標注工作本身比較枯燥,但是需要標注人員每時每刻都高度集中注意力,稍不留意,就容易出現錯別字、標注串行等一些很低級的手誤,導致整條標注語句不能用,浪費人力和時間。
因此,現有技術方案中還存在有待改進之處。
在所述背景技術部分公開的上述信息僅用于加強對本發明實施例的背景的理解,因此它可以包括不構成對本領域普通技術人員已知的現有技術的信息。
發明內容
本發明實施例提供一種語言標注處理方法、系統、電子設備及計算機可讀介質,解決現有技術方案中單純人工標注費時費力而且錯誤較多的問題。
本發明實施例的其他特性和優點將通過下面的詳細描述變得顯然,或部分地通過本發明實施例的實踐而習得。
根據本發明實施例的第一方面,提供一種語言標注處理方法,包括:
利用經過標注的語料構建標注語料庫;
基于所述標注語料庫進行建模,得到業務場景分類模型和語義識別模型;
獲取未經標注的信息;
利用所述業務場景分類模型和所述語義識別模型對所述未經標注的信息進行標注。
在本發明的一些實施例中,所述經過標注的語料和所述未經標注的信息為通過語音助手獲取得到的一段話。
在本發明的一些實施例中,所述利用經過標注的語料構建標注語料庫為:
獲取經過標注的語料,其中所述經過標注的語料為用戶通過所述語音助手輸入的一段話中的第一句話;
對所述經過標注的語料進行數據清洗,去除無用信息;
對所述經過標注的語料劃分為多個業務場景,并從所述多個業務場景選取相同數目的語料,組成所述標注語料庫。
在本發明的一些實施例中,所述業務場景分類模型分類后的標簽包括:特定商品查詢、訂單查詢、售后、特定優惠查詢、模糊優惠查詢和全站直達。
在本發明的一些實施例中,所述語義識別模型的標簽包括:產品詞、品牌詞和修飾詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司,未經北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711468940.3/2.html,轉載請聲明來源鉆瓜專利網。





