[發明專利]搜索詞類目識別方法及其模型的訓練方法、裝置在審
| 申請號: | 202211370360.1 | 申請日: | 2022-11-03 |
| 公開(公告)號: | CN115712725A | 公開(公告)日: | 2023-02-24 |
| 發明(設計)人: | 華倩齡;趙華;鞠劍勛;李健 | 申請(專利權)人: | 攜程旅游信息技術(上海)有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/332;G06F16/33;G06F40/284;G06N3/0455;G06N3/084 |
| 代理公司: | 上海弼興律師事務所 31283 | 代理人: | 羅朗;林嵩 |
| 地址: | 201203 上海市浦東新*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 搜索詞 類目 識別 方法 及其 模型 訓練 裝置 | ||
本發明公開了一種搜索詞類目識別方法及其模型的訓練方法、裝置,該搜索詞類目識別模型的訓練方法包括:獲取多個訓練樣本;構建預訓練模型;將搜索分詞序列輸入嵌入層,得到token向量、segment向量和mask向量;將向量輸入編碼器層進行特征提取,得到文本特征,第一詞特征和字特征;對字特征進行聚合處理,得到第二詞特征;以文本特征、第一詞特征和第二詞特征為全連接層的輸入,真實類目標簽為輸出,訓練預訓練模型的網絡參數,得到搜索詞類目識別模型。本發明通過搜索詞類目識別模型結合上下文對含有多種類目的詞進行類目歸屬概率的判斷,大大改善了類目識別中的歧義性問題,類目識別的準確率更高。
技術領域
本發明涉及人工智能領域,特別涉及一種搜索詞類目識別方法及其模型的訓練方法、裝置。
背景技術
搜索詞類目識別是搜索詞在經過分詞后,對分詞結果打上所屬類目并給出對應概率值,通過解析用戶輸入的搜索詞,有利于分析用戶的核心搜索需求,從而輔助提升用戶體驗。
目前主流的類目識別方法主要是基于積累的類目數據庫和精確匹配實現,越精準的類目數據庫,所積累的類目就越多,導致數據庫查詢出現噪聲的概率變大,從而增加人工維護的費力程度以及查詢的費力程度。而且由于每個詞都有可能存在兼類現象,即一個詞在不同場景下所屬的類目不同,僅依據數據庫和詞匯本身很難解決在類目識別中的歧義問題,導致類目識別的準確率變低。
發明內容
本發明要解決的技術問題是為了克服現有技術中多種類目的詞的類別識別準確率低的缺陷,提供一種搜索詞類目識別方法及其模型的訓練方法、裝置。
本發明是通過下述技術方案來解決上述技術問題:
根據本發明的第一方面,提供一種搜索詞類目識別模型的訓練方法,所述搜索詞類目識別模型的訓練方法包括:
獲取多個訓練樣本;其中,每個訓練樣本包括與搜索文本對應的搜索分詞序列和所述搜索分詞序列中與每個搜索分詞對應的真實類目標簽;
構建預訓練模型,所述預訓練模型包括嵌入層、編碼器層和全連接層;
將所述搜索分詞序列輸入所述嵌入層,得到token向量、segment向量和mask向量;其中,所述嵌入層包括token嵌入層、segment嵌入層和掩碼層;
將所述token向量、所述mask向量和所述segment向量輸入所述編碼器層進行特征提取,得到所述搜索分詞序列對應的文本特征,所述搜索分詞對應的第一詞特征和所述搜索分詞的字符對應的字特征;其中,所述編碼器層為多層Transformer結構;
基于所述segment向量對所述字特征進行聚合處理,得到所述搜索分詞的第二詞特征;
以所述文本特征、所述第一詞特征和所述第二詞特征為所述全連接層的輸入,所述真實類目標簽為輸出,訓練所述預訓練模型的網絡參數,得到所述搜索詞類目識別模型。
較佳地,所述將所述搜索分詞序列輸入所述嵌入層,得到token向量、segment向量和mask向量的步驟包括:
通過所述token嵌入層在所述搜索分詞序列的開頭插入CLS標記,在每個搜索分詞的結尾插入SEP標記,將所述CLS標記、所述SEP標記和所述搜索分詞序列的字符映射為token向量;
通過所述segment嵌入層將所述搜索分詞在所述搜索分詞序列的位置編碼映射為segment向量;
通過所述掩碼層依次對所述搜索分詞序列的字符使用MASK標記進行替換,將替換后的搜索分詞序列映射為mask向量。
較佳地,所述基于所述segment向量對所述字特征進行聚合處理的步驟包括:
基于所述segment向量獲取每個搜索分詞對應的字符片段;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于攜程旅游信息技術(上海)有限公司,未經攜程旅游信息技術(上海)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211370360.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種高爐渣排放量的實時測定方法
- 下一篇:一種石墨金屬復合纏繞墊片





