[發明專利]基于文本的行業識別模型的確定方法及裝置在審
| 申請號: | 202111150563.5 | 申請日: | 2021-09-29 |
| 公開(公告)號: | CN113688247A | 公開(公告)日: | 2021-11-23 |
| 發明(設計)人: | 黃于晏;陳瑩瑩;李展鏗 | 申請(專利權)人: | 有米科技股份有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 肖宇揚;江銀會 |
| 地址: | 510006 廣東省廣州*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 文本 行業 識別 模型 確定 方法 裝置 | ||
1.一種基于文本的行業識別模型的確定方法,其特征在于,所述方法包括:
基于確定出的樣本文本的詞集合中每個詞的特征向量,確定所述樣本文本的詞集合中每個所述詞的目標向量,每個所述詞的目標向量中包含與該詞相鄰詞的語義信息,所述樣本文本的詞集合包括所述樣本文本的中文文本的詞集合或所述樣本文本的英文文本的詞集合;
將所述樣本文本的詞集合中每個所述詞的目標向量執行連接操作,得到目標樣本文本,并基于所述目標樣本文本訓練確定出的基礎行業識別模型,得到訓練后的行業識別模型,所述行業識別模型用于分析待識別行業的文本,得到與待識別行業的所述文本匹配的行業類別;
當所述樣本文本的詞集合為所述樣本文本的中文文本的詞集合時,訓練后的所述行業識別模型為中文文本行業識別模型;
當所述樣本文本的詞集合為所述樣本文本的英文文本的詞集合時,訓練后的所述行業識別模型為英文文本行業識別模型。
2.根據權利要求1所述的基于文本的行業識別模型的確定方法,其特征在于,所述基于確定出的樣本文本的詞集合中每個詞的特征向量,確定所述樣本文本的詞集合中每個所述詞的目標向量,包括:
基于確定出的瓶頸層對樣本文本的詞集合中每個詞的特征向量執行行業分類學習操作,得到所述樣本文本的詞集合每個所述詞的瓶頸向量;
將所述樣本文本的詞集合中每個所述詞的瓶頸向量輸入確定出的雙向編碼器堆棧進行分析,得到所述樣本文本的詞集合中每個所述詞的目標向量。
3.根據權利要求2所述的基于文本的行業識別模型的確定方法,其特征在于,所述將所述樣本文本的詞集合中每個所述詞的瓶頸向量輸入確定出的雙向編碼器堆棧進行分析,得到所述樣本文本的詞集合中每個所述詞的目標向量,包括:
將所述樣本文本的詞集合中每個所述詞的瓶頸向量輸入確定出的雙向編碼器的多個卷積層及非線性層,得到所述樣本文本的詞集合中每個所述詞的門控向量,每個所述詞的門控向量包括該詞的輸入門控向量、遺忘門控向量及輸出門控向量;
根據每個所述詞的遺忘門控向量、所述雙向編碼器中上一時刻的神經元狀態及每個所述詞的輸入門控向量,確定當前時刻所述雙向編碼器的神經元狀態;
對每個所述詞的輸出門控向量與當前時刻所述雙向編碼器的神經元狀態執行卷積操作,得到每個所述詞的輸出向量,并對每個所述詞的輸出向量執行池化操作,得到每個所述詞的池化向量;
對每個所述詞的池化向量執行反方向池化操作,得到所述樣本文本的詞集合中每個所述詞的反池化向量,并對每個所述詞的反池化向量重新執行卷積和池化操作,得到每個所述詞的目標向量。
4.根據權利要求1-3任一項所述的基于文本的行業識別模型的確定方法,其特征在于,所述基于所述目標樣本文本訓練確定出的基礎行業識別模型,得到訓練后的行業識別模型,包括:
將所述目標樣本文本輸入確定出的基礎行業識別模型的全連接層執行分類操作,得到分類后的所述目標樣本文本;
基于確定出的交叉熵函數與分類后的所述目標樣本文本對所述基礎行業識別模型執行訓練操作,得到訓練后的行業識別模型。
5.根據權利要求4所述的基于文本的行業識別模型的確定方法,其特征在于,所述基于所述目標樣本文本訓練確定出的基礎行業識別模型,得到訓練后的行業識別模型,包括:
基于確定出的交叉熵函數與分類后的所述目標樣本文本對所述基礎行業識別模型執行訓練操作,得到分類后的所述目標樣本文本匹配的行業與該行業的預測概率;
基于確定出的校驗文本,對分類后的所述目標樣本文本匹配的行業與該行業的預測概率執行驗證操作,得到訓練后的基礎行業識別模型的精度;
判斷訓練后的基礎行業識別模型的精度是否大于等于確定出的精度閾值,當判斷結果為是時,確定訓練后的所述基礎行業識別模型,為訓練后的行業識別模型;
當判斷結果為否時,將另一樣本文本的詞集合中每個詞的特征向量更新為所述樣本文本的詞集合中每個詞的特征向量,重新執行所述的基于確定出的樣本文本的詞集合中每個詞的特征向量,確定所述樣本文本的詞集合中每個所述詞的目標向量的操作。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于有米科技股份有限公司,未經有米科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111150563.5/1.html,轉載請聲明來源鉆瓜專利網。





