[發明專利]模型生成、語義識別的方法、系統、設備及存儲介質在審
| 申請號: | 201810149170.4 | 申請日: | 2018-02-13 |
| 公開(公告)號: | CN110209831A | 公開(公告)日: | 2019-09-06 |
| 發明(設計)人: | 王穎帥;李曉霞;苗詩雨 | 申請(專利權)人: | 北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F17/27;G06K9/62 |
| 代理公司: | 上海弼興律師事務所 31283 | 代理人: | 薛琦;鄧忠紅 |
| 地址: | 100195 北京市海淀區杏石口路6*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 模型生成 存儲介質 語義識別 歷史數據 特征提取 標注 標簽 隨機場模型 傳統思路 基于條件 模板匹配 模型訓練 確定條件 學習算法 用戶體驗 用戶語義 中心詞 迭代 品牌 機場 修飾 語音 靈活 詢問 覆蓋 學習 服務 | ||
本發明公開了一種模型生成、語義識別的方法、系統、設備及存儲介質,模型生成的方法包括獲取歷史數據;對每條所述歷史數據進行特征提取及標注以得到對應的歷史序列,每條所述歷史序列包括特征提取后的特征和標注后的標簽,所述標簽包括物品的中心詞、物品的修飾詞、詢問范圍、物品的品牌及頻道編號中的至少一種;采用條件隨機場學習算法對所述歷史序列進行模型訓練,以確定條件隨機場模型的參數,所述參數包括迭代次數、步長和學習率。本發明提供的基于條件隨機場的用戶語義識別的模型生成、語義識別的方法、系統、設備及存儲介質相比于模板匹配的傳統思路,更加的靈活且覆蓋更多的用戶,能夠提升語音相關服務的用戶體驗和點擊轉化率。
技術領域
本發明涉及自然語言處理領域,特別涉及一種基于條件隨機場的用戶語義識別的模型生成、語義識別的方法、系統、設備及存儲介質。
背景技術
語音識別和語義理解是未來互聯網網站發展的一種趨勢,用戶對著機器說一句話,當語音轉化為文字后,如何根據文字準確地把握用戶意圖,顯得越來越重要。現有技術中采用斯坦福正則匹配模板提取語義信息,該種實現方式比較死板,只有在模板指定的話術中才可以匹配,隨著應用需求的擴大,需要設計越來越多的正則模板,浪費人力,效果也不夠靈活。
發明內容
本發明要解決的技術問題是為了克服現有技術中語義識別采用斯坦福正則匹配模板提取語義信息的方式不夠靈活,需要設計越來越多的正則模板導致人力成本高的缺陷,提供一種能夠靈活地對用戶語音輸入信息準確提取關鍵信息進而實現語義識別的基于條件隨機場的用戶語義識別的模型生成、語義識別的方法、系統、設備及存儲介質。
本發明是通過下述技術方案來解決上述技術問題:
本發明提供了一種模型生成的方法,其特點在于,包括以下步驟:
獲取歷史數據;
對每條所述歷史數據進行特征提取及標注以得到對應的歷史序列,每條所述歷史序列包括特征提取后的特征和標注后的標簽,所述標簽包括物品的中心詞、物品的修飾詞、詢問范圍、物品的品牌及頻道編號中的至少一種;
采用條件隨機場學習算法對所述歷史序列進行模型訓練,以確定條件隨機場模型的參數,所述參數包括迭代次數maxiter、步長stepsize和學習率learningrate。
本方案中,歷史數據采用用戶輸入的歷史數據,對每條歷史數據進行特征提取及標注后得到歷史序列,將歷史序列構成的訓練數據集輸入至條件隨機場學習算法進行模型自動訓練,以估算條件隨機場模型的參數,本方案中經過訓練確定的參數包括迭代次數maxiter、步長stepsize和學習率learningrate;其中maxiter的取值范圍為1到無窮大,stepsize是1到無窮大,learningrate是0到1。
本方案通過多種標簽的設置,能夠提高模型的準確性。其中,詢問范圍和頻道編號只需要查詢相應的數據庫進行匹配即可獲知。例如詢問范圍可以是購物車,如果歷史數據中包括購物車這個詞,而對應的數據庫中提前預存有購物車,經過查詢相應的數據庫進行匹配即可確定該歷史數據對應的詢問范圍涉及購物車,由此能夠確定該條歷史數據中對應的詢問范圍這一標簽為購物車。
本方案提出了一種基于條件隨機場改進的用戶語義識別的模型生成的方法,本方法借助于自動化訓練的方式,相比于傳統斯坦福正則匹配模板靈活且覆蓋度廣。
較佳地,所述方法采用斯坦福CoreNLP(一種自然語言的分析工具)對每條所述歷史數據進行特征提取。
本方案中,特征通過斯坦福CoreNLP工具得到,也就是說本方案利用了斯坦福CoreNLP的特征提取功能,但是沒有使用其進行具體的語義識別。
較佳地,所述特征包括分詞特征、詞性特征和品牌專有特征;
所述方法還包括預設品牌詞庫,所述品牌詞庫包括若干品牌;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司,未經北京京東尚科信息技術有限公司;北京京東世紀貿易有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810149170.4/2.html,轉載請聲明來源鉆瓜專利網。





