[發(fā)明專利]一種模型訓(xùn)練以及關(guān)鍵詞分類方法及裝置在審
| 申請?zhí)枺?/td> | 202111081477.3 | 申請日: | 2021-09-15 |
| 公開(公告)號: | CN113887221A | 公開(公告)日: | 2022-01-04 |
| 發(fā)明(設(shè)計)人: | 童詠之;湯彪;應(yīng)松晟;奚駿泉;校婭;沈元;張敏 | 申請(專利權(quán))人: | 北京三快在線科技有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/247;G06F16/906;G06K9/62;G06N20/00 |
| 代理公司: | 北京曼威知識產(chǎn)權(quán)代理有限公司 11709 | 代理人: | 方志煒 |
| 地址: | 100080 北京市海*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 模型 訓(xùn)練 以及 關(guān)鍵詞 分類 方法 裝置 | ||
本說明書公開了一種模型訓(xùn)練及關(guān)鍵詞分類方法及裝置,通過將各對應(yīng)關(guān)系類型的文本模板與非結(jié)構(gòu)性信息進行匹配,從各非結(jié)構(gòu)性信息中,確定第一訓(xùn)練樣本及其標(biāo)注,并根據(jù)第一訓(xùn)練樣本和與該第一訓(xùn)練樣本匹配的文本模板,確定關(guān)鍵詞,繼而確定包含該關(guān)鍵詞的其他非結(jié)構(gòu)性信息,作為第二訓(xùn)練樣本,并將該第一訓(xùn)練樣本的標(biāo)注作為該第二訓(xùn)練樣本的標(biāo)注,以第一訓(xùn)練樣本和第二訓(xùn)練樣本及其確定出的標(biāo)注,對待訓(xùn)練的關(guān)鍵詞分類模型進行訓(xùn)練。不需要人工對樣本進行標(biāo)注,減少了訓(xùn)練樣本的生成時間與成本,提高了關(guān)鍵詞分類模型的訓(xùn)練效率。
技術(shù)領(lǐng)域
本說明書涉及計算機技術(shù)領(lǐng)域,尤其涉及一種模型訓(xùn)練以及關(guān)鍵詞分類方法及裝置。
背景技術(shù)
目前,隨著計算機技術(shù)的發(fā)展,由用戶生成的信息已經(jīng)成為服務(wù)提供方的信息來源之一。且根據(jù)用戶搜索的關(guān)鍵詞,向用戶推薦商戶,已經(jīng)成為服務(wù)提供方需要解決的問題之一。但由于用戶生成的信息,如,用戶的評論等,不完全為正向信息,也就是說,無法直接基于非結(jié)構(gòu)性信息的關(guān)鍵詞進行應(yīng)用。則關(guān)鍵詞分類方法因為能夠基于非結(jié)構(gòu)性信息,確定該非結(jié)構(gòu)性信息中的關(guān)鍵詞是否可用作商戶的關(guān)鍵詞,被廣泛應(yīng)用于服務(wù)提供方為用戶推薦內(nèi)容的場景中。
在現(xiàn)有技術(shù)中,一種常用的關(guān)鍵詞分類方法是基于關(guān)鍵詞分類模型實現(xiàn)的。具體的,針對每個需要進行關(guān)鍵詞分類的非結(jié)構(gòu)性信息中的每個語句,對該語句進行特征提取,確定該語句對應(yīng)的句向量,然后將該句向量作為輸入,輸入到預(yù)先訓(xùn)練完成的關(guān)鍵詞分類模型中,得到該關(guān)鍵詞分類模型輸出的該非結(jié)構(gòu)性信息中的各語句對應(yīng)的關(guān)鍵詞的類型。其中,關(guān)鍵詞的類型為關(guān)鍵詞與商戶的關(guān)系。
但是,現(xiàn)有技術(shù)在訓(xùn)練關(guān)鍵詞分類模型時,需要人工對訓(xùn)練樣本進行標(biāo)注。而人工標(biāo)注成本高、時間長的特點,使得訓(xùn)練模型的周期過長,降低了模型訓(xùn)練的效率。
發(fā)明內(nèi)容
本說明書提供一種模型訓(xùn)練及關(guān)鍵詞分類方法及裝置,以部分的解決現(xiàn)有技術(shù)存在的上述問題。
本說明書采用下述技術(shù)方案:
本說明書提供關(guān)鍵詞分類模型的訓(xùn)練方法,包括:
獲取若干包含關(guān)鍵詞的非結(jié)構(gòu)性信息;
針對預(yù)設(shè)的各對應(yīng)關(guān)系類型,獲取該對應(yīng)關(guān)系類型對應(yīng)的文本模板,從各非結(jié)構(gòu)性信息中,確定與所述文本模板匹配的非結(jié)構(gòu)性信息,作為第一訓(xùn)練樣本,以及根據(jù)該對應(yīng)關(guān)系類型確定所述第一訓(xùn)練樣本的標(biāo)注,所述標(biāo)注表征所述訓(xùn)練樣本與所述訓(xùn)練樣本所屬用戶之間存在所述標(biāo)注的對應(yīng)關(guān)系;
針對每個第一訓(xùn)練樣本,根據(jù)該第一訓(xùn)練樣本匹配的文本模板,確定該訓(xùn)練樣本的關(guān)鍵詞,從其他各非結(jié)構(gòu)性信息中確定包含所述關(guān)鍵詞的非結(jié)構(gòu)性信息,作為第二訓(xùn)練樣本,以及將該第一訓(xùn)練樣本的標(biāo)注作為第二訓(xùn)練樣本的標(biāo)注;
根據(jù)第一訓(xùn)練樣本和第二訓(xùn)練樣本以及確定出的標(biāo)注,對待訓(xùn)練的關(guān)鍵詞分類模型進行訓(xùn)練,所述關(guān)鍵詞分類模型用于確定各非結(jié)構(gòu)性信息所屬用戶的關(guān)鍵詞。
可選地,所述方法還包括:
針對每種對應(yīng)關(guān)系類型以及每個第一用戶,獲取預(yù)存的與該第一用戶具有該對應(yīng)關(guān)系類型的對應(yīng)關(guān)系的關(guān)鍵詞,以及該第一用戶的各非結(jié)構(gòu)性信息,所述第一用戶為非結(jié)構(gòu)性信息所屬用戶;
從該第一用戶的各非結(jié)構(gòu)性信息中,確定包含確定出的關(guān)鍵詞的非結(jié)構(gòu)性信息,作為第三訓(xùn)練樣本,并根據(jù)該對應(yīng)關(guān)系類型,確定所述第三訓(xùn)練樣本的標(biāo)注;
根據(jù)第一訓(xùn)練樣本、第二訓(xùn)練樣本、第三訓(xùn)練樣本以及確定出的標(biāo)注,對待訓(xùn)練的關(guān)鍵詞分類模型進行訓(xùn)練。
可選地,所述對應(yīng)關(guān)系類型至少包括歧義類型,所述方法還包括:
獲取預(yù)存的各第一用戶的用戶標(biāo)識,所述各第一用戶為各非結(jié)構(gòu)性信息的所屬用戶;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京三快在線科技有限公司,未經(jīng)北京三快在線科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111081477.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 關(guān)鍵詞輸出設(shè)備和關(guān)鍵詞輸出方法
- 用于選擇用于網(wǎng)絡(luò)發(fā)布的關(guān)鍵詞的方法和設(shè)備
- 關(guān)鍵詞質(zhì)量度的檢測方法和裝置
- 關(guān)鍵詞排名的檢測方法和裝置
- 關(guān)鍵詞相似度獲取方法、裝置及服務(wù)器
- 關(guān)鍵詞推薦方法及裝置
- 一種關(guān)鍵詞檢索管理系統(tǒng)
- 一種信息推薦方法、電子設(shè)備、存儲介質(zhì)及系統(tǒng)
- 關(guān)鍵詞廣告投放自動化否定關(guān)鍵詞方法及裝置
- 一種長尾關(guān)鍵詞識別方法、關(guān)鍵詞搜索方法及計算機設(shè)備





