[發(fā)明專利]一種基于深度主動(dòng)學(xué)習(xí)的用戶意圖識(shí)別方法及系統(tǒng)在審
| 申請(qǐng)?zhí)枺?/td> | 202110018869.9 | 申請(qǐng)日: | 2021-01-07 |
| 公開(公告)號(hào): | CN114741500A | 公開(公告)日: | 2022-07-12 |
| 發(fā)明(設(shè)計(jì))人: | 白琳;馬志柔;楊燕;葉丹 | 申請(qǐng)(專利權(quán))人: | 中國(guó)科學(xué)院軟件研究所 |
| 主分類號(hào): | G06F16/35 | 分類號(hào): | G06F16/35;G06F40/35;G06N3/08;G06N3/04 |
| 代理公司: | 北京君尚知識(shí)產(chǎn)權(quán)代理有限公司 11200 | 代理人: | 司立彬 |
| 地址: | 100190 *** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 深度 主動(dòng) 學(xué)習(xí) 用戶 意圖 識(shí)別 方法 系統(tǒng) | ||
本發(fā)明公開了一種基于深度主動(dòng)學(xué)習(xí)的用戶意圖識(shí)別方法及系統(tǒng)。本方法步驟包括:1)數(shù)據(jù)預(yù)處理模塊對(duì)描述用戶意圖的文本進(jìn)行預(yù)處理,得到一未標(biāo)注語料集U;2)分類模塊對(duì)該未標(biāo)注語料集U中的樣本進(jìn)行分類預(yù)測(cè),得到樣本的預(yù)測(cè)概率并輸出給選擇模塊;3)選擇模塊基于樣本的預(yù)測(cè)概率以及設(shè)定的多準(zhǔn)則選擇策略選取價(jià)值最高的k個(gè)樣本并對(duì)其進(jìn)行標(biāo)注后加入到標(biāo)注語料庫中,以及將該k個(gè)樣本從未標(biāo)注語料集U中刪除;然后利用更新后的標(biāo)注語料庫訓(xùn)練更新所述分類模塊;4)重復(fù)步驟2~3)直至滿足迭代終止條件,得到訓(xùn)練后的分類模塊;5)利用該訓(xùn)練后的分類模塊對(duì)待識(shí)別的文本進(jìn)行意圖分類預(yù)測(cè),得到預(yù)測(cè)的用戶意圖類別。
技術(shù)領(lǐng)域
本發(fā)明涉及一種基于深度主動(dòng)學(xué)習(xí)的用戶意圖識(shí)別方法及系統(tǒng),屬于軟件技術(shù)領(lǐng)域。
背景技術(shù)
精準(zhǔn)地識(shí)別用戶意圖是語義搜索、個(gè)性化推薦、智能問答等許多應(yīng)用的前提。意圖識(shí)別旨在通過用戶描述的語言確定其真實(shí)意圖,屬于一個(gè)分類問題。當(dāng)前,深度學(xué)習(xí)模型在文本分類問題中取得了巨大進(jìn)展,并達(dá)到了遠(yuǎn)超傳統(tǒng)方法的性能。然而,深度學(xué)習(xí)模型要想取得良好性能需要有大量的訓(xùn)練數(shù)據(jù)支撐。而實(shí)際應(yīng)用中,標(biāo)注好的訓(xùn)練語料往往很少且很難獲取。如何減少深度學(xué)習(xí)模型訓(xùn)練數(shù)據(jù)的標(biāo)注成本至關(guān)重要。
主動(dòng)學(xué)習(xí)提供了一種輔助標(biāo)注語料的方法,通過一定的選擇策略計(jì)算未標(biāo)注樣本的價(jià)值,主動(dòng)選擇更需要標(biāo)注的高價(jià)值的樣本交給專家標(biāo)注。然而,應(yīng)用主動(dòng)學(xué)習(xí)完成意圖識(shí)別任務(wù)的語料標(biāo)注還存在以下問題:一方面,主動(dòng)學(xué)習(xí)迭代過程中每一輪標(biāo)注完成后,需要更新語料庫重新訓(xùn)練模型,對(duì)于復(fù)雜的深度學(xué)習(xí)模型而言計(jì)算量是巨大的;另一方面,主動(dòng)學(xué)習(xí)中常用的基于不確定性的選擇策略沒有考慮樣本在語料空間中的價(jià)值,導(dǎo)致選出的樣本為孤立點(diǎn)或出現(xiàn)冗余問題。
發(fā)明內(nèi)容
針對(duì)現(xiàn)有用戶意圖識(shí)別技術(shù)中存在的問題,本發(fā)明的目的在于提供一種基于深度主動(dòng)學(xué)習(xí)的用戶意圖識(shí)別方法及系統(tǒng)。本發(fā)明采用主動(dòng)學(xué)習(xí)框架,一方面采用輕量級(jí)深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),同時(shí)采用增量訓(xùn)練方法,極大減少模型訓(xùn)練的計(jì)算量,提高系統(tǒng)執(zhí)行效率,另一方面采用多準(zhǔn)則選擇策略,基于樣本信息性、代表性及多樣性等多項(xiàng)準(zhǔn)則選取高價(jià)值樣本交由專家標(biāo)注,增加標(biāo)注樣本數(shù)量和質(zhì)量,提高意圖識(shí)別的整體性能。本發(fā)明不僅考慮單個(gè)樣本的信息,同時(shí)考慮樣本空間整體的分布情況,避免了選擇的待標(biāo)注樣本出現(xiàn)孤立點(diǎn)問題和冗余現(xiàn)象。
本發(fā)明的技術(shù)解決方案:基于深度主動(dòng)學(xué)習(xí)的用戶意圖識(shí)別方法及系統(tǒng),將深度學(xué)習(xí)與主動(dòng)學(xué)習(xí)相結(jié)合,利用深度學(xué)習(xí)解決用戶意圖分類問題,利用主動(dòng)學(xué)習(xí)解決深度學(xué)習(xí)模型訓(xùn)練過程中面臨的標(biāo)注語料稀缺問題。系統(tǒng)中,針對(duì)深度學(xué)習(xí)模型在不斷更新的語料集上迭代訓(xùn)練計(jì)算量大的問題,設(shè)計(jì)了輕量級(jí)的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),同時(shí)設(shè)計(jì)增量訓(xùn)練方法,在新一輪樣本選擇之前,使用少量迭代次數(shù)更新網(wǎng)絡(luò)權(quán)重;針對(duì)待標(biāo)注樣本選擇策略問題,采用基于樣本信息性、代表性及多樣性的多準(zhǔn)則選擇策略,避免選擇的待標(biāo)注樣本出現(xiàn)孤立點(diǎn)問題和冗余現(xiàn)象。系統(tǒng)包括數(shù)據(jù)預(yù)處理模塊、分類模塊、選擇模塊、迭代控制器和標(biāo)注語料庫。其中:
數(shù)據(jù)預(yù)處理模塊,對(duì)描述用戶意圖的文本進(jìn)行字符清洗、分詞等預(yù)處理操作。其輸入為未標(biāo)注的原始語料,即描述用戶意圖的文本;輸出為經(jīng)過上述預(yù)處理操作的未標(biāo)注語料集U。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國(guó)科學(xué)院軟件研究所,未經(jīng)中國(guó)科學(xué)院軟件研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110018869.9/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 主動(dòng)元件及主動(dòng)元件陣列基板
- 主動(dòng)降噪系統(tǒng)、主動(dòng)降噪耳機(jī)及主動(dòng)降噪方法
- 主動(dòng)定位方法及主動(dòng)定位系統(tǒng)
- 主動(dòng)降噪系統(tǒng)及主動(dòng)降噪耳機(jī)
- 主動(dòng)清除系統(tǒng)和主動(dòng)清除方法
- 主動(dòng)筆控制方法及主動(dòng)筆
- 筆尖、主動(dòng)筆和主動(dòng)筆系統(tǒng)
- 主動(dòng)降噪耳機(jī)和主動(dòng)降噪方法
- 主動(dòng)導(dǎo)管及主動(dòng)導(dǎo)管系統(tǒng)
- 主動(dòng)降噪算法及主動(dòng)降噪耳機(jī)
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)





