[發(fā)明專利]語料泛化方法及用于工業(yè)領(lǐng)域的人機(jī)對話情感分析方法在審
| 申請?zhí)枺?/td> | 202110246998.3 | 申請日: | 2021-03-05 |
| 公開(公告)號: | CN112860896A | 公開(公告)日: | 2021-05-28 |
| 發(fā)明(設(shè)計)人: | 王健健;蔣華晨;劉揚 | 申請(專利權(quán))人: | 三一重工股份有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/247;G06F40/289;G06F40/211;G06F40/279;G06F40/242 |
| 代理公司: | 北京路浩知識產(chǎn)權(quán)代理有限公司 11002 | 代理人: | 李文清 |
| 地址: | 102206 北*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語料 泛化 方法 用于 工業(yè) 領(lǐng)域 人機(jī)對話 情感 分析 | ||
1.一種語料泛化方法,其特征在于,包括:
獲取工業(yè)領(lǐng)域的初始文本語料,并對所述初始文本語料中的實體詞進(jìn)行替換,得到第一類文本語料;
對所述初始文本語料和/或所述第一類文本語料進(jìn)行分詞處理,并基于分詞處理得到的詞語的近義詞,對分詞處理得到的詞語進(jìn)行替換,得到第二類文本語料;
對所述初始文本語料、所述第一類文本語料以及所述第二類文本語料中的至少一項進(jìn)行依存句法分析,并基于分析的結(jié)果對所述至少一項進(jìn)行句式變換,得到第三類文本語料;
基于所述第一類文本語料、所述第二類文本語料以及所述第三類文本語料中的至少兩項,對所述初始文本語料進(jìn)行泛化。
2.根據(jù)權(quán)利要求1所述的語料泛化方法,其特征在于,所述對所述初始文本語料中的實體詞進(jìn)行替換,之前還包括:
構(gòu)建與所述初始文本語料具有相同業(yè)務(wù)場景的實體詞典;
基于實體識別模型和/或所述實體詞典,識別所述初始文本語料中的實體詞;所述實體識別模型基于攜帶有實體詞標(biāo)簽的文本語料訓(xùn)練得到。
3.根據(jù)權(quán)利要求2所述的語料泛化方法,其特征在于,所述對所述初始文本語料中的實體詞進(jìn)行替換,具體包括:
確定所述初始文本語料中的實體詞對應(yīng)的實體槽;
基于所述初始文本語料中的實體詞與所述實體詞典中各實體詞的相似度,選取所述實體詞典中的實體詞對所述實體槽進(jìn)行填充。
4.根據(jù)權(quán)利要求1所述的語料泛化方法,其特征在于,所述基于分詞處理得到的詞語的近義詞,對分詞處理得到的詞語進(jìn)行替換,得到第二類文本語料,之前還包括:
確定分詞處理得到的詞語中屬于目標(biāo)詞性的目標(biāo)詞語;
基于詞向量模型,計算所述目標(biāo)詞語的近義詞;
相應(yīng)的,所述基于分詞處理得到的詞語的近義詞,對分詞處理得到的詞語進(jìn)行替換,得到第二類文本語料,具體包括:
基于所述目標(biāo)詞語的近義詞,對所述目標(biāo)詞語進(jìn)行替換,得到所述第二類文本語料。
5.根據(jù)權(quán)利要求1所述的語料泛化方法,其特征在于,所述獲取工業(yè)領(lǐng)域的初始文本語料,之后還包括:
獲取所述初始文本語料的目標(biāo)模板;
對所述目標(biāo)模板進(jìn)行填充,確定第四類文本語料;
相應(yīng)地,所述基于所述第一類文本語料、所述第二類文本語料以及所述第三類文本語料,對所述初始文本語料進(jìn)行泛化,具體包括:
基于所述第一類文本語料、所述第二類文本語料、所述第三類文本語料以及所述第四類文本語料中的至少兩項,對所述初始文本語料進(jìn)行泛化。
6.根據(jù)權(quán)利要求5所述的語料泛化方法,其特征在于,所述獲取工業(yè)領(lǐng)域的初始文本語料,之后還包括:
將初始文本語料先翻譯后再回譯,確定第五類文本語料;
相應(yīng)地,所述基于所述第一類文本語料、所述第二類文本語料以及所述第三類文本語料,對所述初始文本語料進(jìn)行泛化,具體包括:
基于所述第一類文本語料、所述第二類文本語料、所述第三類文本語料、所述第四類文本語料以及所述第五類文本語料中的至少兩項,對所述初始文本語料進(jìn)行泛化。
7.一種用于工業(yè)領(lǐng)域的人機(jī)對話情感分析方法,其特征在于,包括:
獲取待分析人機(jī)對話文本數(shù)據(jù);
將所述待分析人機(jī)對話文本數(shù)據(jù)輸入至情感分類模型,得到所述情感分類模型輸出的所述待分析人機(jī)對話文本數(shù)據(jù)對應(yīng)的情感類型;
其中,所述情感分類模型基于攜帶有情感類型標(biāo)簽的人機(jī)對話文本數(shù)據(jù)樣本訓(xùn)練得到,所述人機(jī)對話文本數(shù)據(jù)樣本基于權(quán)利要求1至6中任一項所述的語料泛化方法進(jìn)行泛化得到。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于三一重工股份有限公司,未經(jīng)三一重工股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110246998.3/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





