[發(fā)明專利]意圖識別系統(tǒng)及方法有效
| 申請?zhí)枺?/td> | 202010147562.4 | 申請日: | 2020-03-05 |
| 公開(公告)號: | CN111382231B | 公開(公告)日: | 2022-07-08 |
| 發(fā)明(設計)人: | 曹家波 | 申請(專利權)人: | 思必馳科技股份有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F40/289;G06F40/30;G06F40/247;G06K9/62;G06N3/04 |
| 代理公司: | 北京商專永信知識產(chǎn)權代理事務所(普通合伙) 11400 | 代理人: | 黃謙;車江華 |
| 地址: | 215123 江蘇省蘇州市蘇*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 意圖 識別 系統(tǒng) 方法 | ||
本發(fā)明公開一種意圖識別系統(tǒng),包括:順序連接的編碼模塊和分類模塊,其中,所述編碼模塊配置為獲取待識別文本的語義特征向量;所述分類模塊配置為根據(jù)所述待識別文本的語義特征向量從預設的多個樣本意圖類別原型中確定所述待識別文本的文本意圖。本發(fā)明實現(xiàn)了對于小樣本領域的文本的意圖識別,解決了現(xiàn)有技術中對小樣本領域的文本進行意圖識別所存在的耗時耗力,且泛化性差,訓練成本太高的問題。
技術領域
本發(fā)明涉及人工智能技術領域,尤其涉及一種意圖識別系統(tǒng)及方法。
背景技術
現(xiàn)有技術中實現(xiàn)小樣本意圖識別的方法有:基于數(shù)據(jù)增強的小樣本意圖識別和基于語言模型fine-tune的小樣本意圖識別。
基于數(shù)據(jù)增強的小樣本意圖識別:意圖識別本質就是文本分類,文本分類的性能好壞與人工標注數(shù)據(jù)的多少有著直接的關系。實際的項目研究中,特別是剛起步階段,每種意圖的人工標注數(shù)據(jù)特別少,一是標注成本太高,二是冷啟動項目的待標注樣本本身就很少?;跀?shù)據(jù)增強的算法,大多是采用規(guī)則、回譯等手段來增加每種意圖的樣本個數(shù)。其中,規(guī)則指的是使用正則表達式對每種意圖樣本中的關鍵詞做同義詞替換,以此來增加樣本的個數(shù);回譯指的是通過翻譯軟件把中文樣本翻譯成各種第三方語言,然后再翻譯回來,通過這種方式增加每種意圖的樣本個數(shù)。最后,當所有意圖的樣本個數(shù)達到要求之后,就可以采用傳統(tǒng)文本分類算法如 SVM、LR、GBDT或者深度學習算法如CNN、LSTM、Transformer等完成意圖的識別。
基于語言模型fine-tune的小樣本意圖識別:這種方法是首先在大規(guī)模、通用的無監(jiān)督數(shù)據(jù)中,訓練一個語言模型。這個語言模型網(wǎng)絡參數(shù)不是隨機初始化的,而是在大量文本中,通過學習語言的先驗知識學習得到的。這是個通用模塊,在具體的項目開發(fā)中,雖然每種意圖的人工標注數(shù)量很少,但是在這個先驗的網(wǎng)絡結構的基礎之上開始做具體領域的fine-tune訓練,可以利用語言的通用知識,讓網(wǎng)絡結構更好的捕獲樣本的語義信息,從而提升小樣本的意圖識別性能。
基于數(shù)據(jù)增強的小樣本意圖識別:需耗費大量人力設計替換規(guī)則,完善同義詞字典。同時,回譯軟件質量的高低也對結果影響很大,翻譯過來的句子一般都是比較正式的書面語,對口語意圖識別不適用,應用場景受限。耗時耗力,且泛化性差,維護成本高,可移植性差。
基于語言模型fine-tune的小樣本意圖識別:基于海量文本(100G以上)的語言模型訓練需要大量的GPU或者TPU參與,訓練一次的代價很大,以目前最先進的基于BERT的語言模型為例,谷歌用了16個自己的 TPU集群(一共64塊TPU)來訓練BERT,一共花了約4天的時間,花費1.2萬美金,如果訓練XLNET,花費高達6.1萬美金。目前只有少數(shù)的大公司才能完成語言模型的訓練。語言模型在具體應用場景的最終性能好壞與特定領域的語料多少有關系,需要自定義訓練,代價太大?;诤A课谋镜恼Z言模型訓練成本太高,在特定領域不一定有很好的性能。
發(fā)明內容
本發(fā)明實施例提供一種意圖識別系統(tǒng)及方法,用于至少解決上述技術問題之一。
第一方面,本發(fā)明實施例提供一種意圖識別系統(tǒng),包括:順序連接的編碼模塊和分類模塊,其中,
所述編碼模塊配置為獲取待識別文本的語義特征向量;
所述分類模塊配置為根據(jù)所述待識別文本的語義特征向量從預設的多個樣本意圖類別原型中確定所述待識別文本的文本意圖。
在一些實施例中,所述多個樣本意圖類別原型中的每一個樣本意圖類別原型由各自對應的多個樣本待識別文本的語義特征向量的均值確定;
所述根據(jù)所述待識別文本的語義特征向量從預設的多個樣本意圖類別原型中確定所述待識別文本的文本意圖包括:
計算所述待識別文本的語義特征向量與預設的多個樣本意圖類別原型之間的相似度值;
根據(jù)計算得到的最大相似度值所對應的樣本意圖類別原型確定所述待識別文本的文本意圖。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于思必馳科技股份有限公司,未經(jīng)思必馳科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010147562.4/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





