[發(fā)明專利]文本分類模型訓(xùn)練和使用方法及裝置有效
| 申請?zhí)枺?/td> | 201910864487.0 | 申請日: | 2019-09-12 |
| 公開(公告)號: | CN110597958B | 公開(公告)日: | 2022-03-25 |
| 發(fā)明(設(shè)計)人: | 方艷;朱蘇;徐華;初敏 | 申請(專利權(quán))人: | 思必馳科技股份有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06K9/62 |
| 代理公司: | 北京商專永信知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11400 | 代理人: | 黃謙;鄧婷婷 |
| 地址: | 215123 江蘇省蘇州市蘇*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文本 分類 模型 訓(xùn)練 使用方法 裝置 | ||
1.一種文本分類模型訓(xùn)練方法,包括:
定義基礎(chǔ)領(lǐng)域、每個領(lǐng)域內(nèi)的強說法和每個領(lǐng)域內(nèi)的弱說法,其中,所述強說法是領(lǐng)域表達能力強的說法,所述強說法唯一對應(yīng)于某一領(lǐng)域,所述弱說法是領(lǐng)域表達能力弱的說法;
根據(jù)基礎(chǔ)領(lǐng)域、強說法和弱說法,對用戶說法進行人工標注;
采用雙向長短時記憶網(wǎng)絡(luò)對文本分類建立文本分類模型,其中,所述文本分類模型的輸入包括每個詞的詞向量和詞庫特征向量的拼接,所述模型的輸出是每個領(lǐng)域的強弱說法表示;
提取用戶說法中每個詞的詞向量和每個詞的詞庫特征向量,其中,所述詞庫特征向量由所述用戶說法中每個詞包含的詞庫信息提取轉(zhuǎn)換而成;
將每個詞的所述詞向量和所述詞庫特征向量輸入至所述文本分類模型并獲取所述文本分類模型的輸出;
利用人工標注的用戶說法作為所述輸出的目標對所述模型進行訓(xùn)練和更新。
2.根據(jù)權(quán)利要求1所述的方法,其中,在所述每個領(lǐng)域的強弱說法表示中,0表示本領(lǐng)域的弱說法對應(yīng)的標簽,-1表示不是本領(lǐng)域的說法對應(yīng)的標簽,1表示本領(lǐng)域的強說法對應(yīng)的標簽,所述方法還包括:
當所述模型判定所述用戶說法為對應(yīng)領(lǐng)域的強說法的概率大于等于預(yù)設(shè)閾值時,輸出標簽為1;
當模型判定所述用戶說法為對應(yīng)領(lǐng)域的弱說法的概率大于等于預(yù)設(shè)閾值時,輸出標簽為0;
當模型判斷所述用戶說法不是對應(yīng)領(lǐng)域的說法的概率大于等于預(yù)設(shè)閾值時,輸出標簽為-1。
3.一種文本分類模型使用方法,包括:
接收并提取用戶說法中每個詞包含的詞庫信息并轉(zhuǎn)換成詞庫特征向量,以及提取所述用戶說法中每個詞的詞向量;
將所述詞向量和所述詞庫特征向量拼接后作為根據(jù)權(quán)利要求1或2中任一項所述的方法訓(xùn)練后的模型的輸入;
接收所述模型的輸出,其中,所述輸出包括所述用戶說法的對于每個領(lǐng)域的強弱說法的表示。
4.根據(jù)權(quán)利要求3所述的方法,其中,0表示本領(lǐng)域的弱說法對應(yīng)的標簽,-1表示不是本領(lǐng)域的說法對應(yīng)的標簽,1表示本領(lǐng)域的強說法對應(yīng)的標簽,所述方法還包括:
若所述用戶說法采集自首輪對話,選擇領(lǐng)域輸出標簽為1的至少一個領(lǐng)域;
將所述至少一個領(lǐng)域的模型判定的概率按照從大到小的順序進行排序;
輸出排在前N位的概率對應(yīng)的領(lǐng)域作為最終領(lǐng)域分類結(jié)果。
5.根據(jù)權(quán)利要求4所述的方法,其中,所述方法還包括:
若所述用戶說法采集自非首輪對話,獲取領(lǐng)域輸出標簽為1或者0的至少一個領(lǐng)域;
判斷上一輪對話所在的領(lǐng)域是否屬于所述至少一個領(lǐng)域;
若屬于,將所述上一輪對話所在的領(lǐng)域作為所述用戶說法的最終領(lǐng)域分類結(jié)果;
若不屬于,輸出所述至少一個領(lǐng)域中標簽為1的領(lǐng)域作為最終領(lǐng)域分類結(jié)果。
6.根據(jù)權(quán)利要求4或5所述的方法,其中,所述方法還包括:
若不存在任意一個領(lǐng)域輸出標簽為1時,輸出null領(lǐng)域作為最終領(lǐng)域分類結(jié)果。
7.一種文本分類模型訓(xùn)練裝置,包括:
定義模塊,配置為定義基礎(chǔ)領(lǐng)域、每個領(lǐng)域內(nèi)的強說法和每個領(lǐng)域內(nèi)的弱說法,其中,所述強說法是領(lǐng)域表達能力強的說法,所述強說法唯一對應(yīng)于某一領(lǐng)域,所述弱說法是領(lǐng)域表達能力弱的說法;
人工標注模塊,配置為根據(jù)基礎(chǔ)領(lǐng)域、強說法和弱說法,對用戶說法進行人工標注;
建模模塊,配置為采用雙向長短時記憶網(wǎng)絡(luò)對文本分類建立文本分類模型,其中,所述文本分類模型的輸入包括每個詞的詞向量和詞庫特征向量的拼接,所述模型的輸出是每個領(lǐng)域的強弱說法表示;
提取模塊,配置為提取用戶說法中每個詞的詞向量和每個詞的詞庫特征向量,其中,所述詞庫特征向量由所述用戶說法中每個詞包含的詞庫信息提取轉(zhuǎn)換而成;
輸入輸出模塊,配置為將每個詞的所述詞向量和所述詞庫特征向量輸入至所述文本分類模型并獲取所述文本分類模型的輸出;
訓(xùn)練更新模塊,配置為利用人工標注的用戶說法作為所述輸出的目標對所述模型進行訓(xùn)練和更新。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于思必馳科技股份有限公司,未經(jīng)思必馳科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910864487.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





