[發(fā)明專利]一種基于語料領(lǐng)域的語料處理系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 201910009322.5 | 申請(qǐng)日: | 2019-01-04 |
| 公開(公告)號(hào): | CN109871533B | 公開(公告)日: | 2019-12-10 |
| 發(fā)明(設(shè)計(jì))人: | 孔洋洋;陳飛宇;朱勁松 | 申請(qǐng)(專利權(quán))人: | 北京車慧科技有限公司 |
| 主分類號(hào): | G06F17/27 | 分類號(hào): | G06F17/27;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 11393 北京市維詩律師事務(wù)所 | 代理人: | 李翔;楊安進(jìn) |
| 地址: | 100044 北京市海淀區(qū)西直門外大街16*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語料 向量 編碼模型 目標(biāo)領(lǐng)域 處理系統(tǒng) 訓(xùn)練模塊 標(biāo)簽數(shù)據(jù) 處理模型 領(lǐng)域語料 先驗(yàn)知識(shí) 向量訓(xùn)練 申請(qǐng) 參考 開放 | ||
本申請(qǐng)公開了一種基于語料領(lǐng)域的語料處理系統(tǒng)。該系統(tǒng)包括:第一訓(xùn)練模塊,用于根據(jù)開放領(lǐng)域語料訓(xùn)練第一編碼模型,根據(jù)目標(biāo)領(lǐng)域參考語料訓(xùn)練第二編碼模型;向量模塊,用于將目標(biāo)領(lǐng)域語料輸入所述第一編碼模型得到第一向量,將目標(biāo)領(lǐng)域語料輸入所述第二編碼模型得到第二向量,將目標(biāo)領(lǐng)域語料輸入第三模型得到第三向量;第二訓(xùn)練模塊,用于根據(jù)所述第一向量、所述第二向量以及所述第三向量訓(xùn)練語料處理模型。本申請(qǐng)的提供的技術(shù)方案,由于利用了開放領(lǐng)域的先驗(yàn)知識(shí),減少了標(biāo)簽數(shù)據(jù)使用量,使得不僅效果得到顯著提升,而且訓(xùn)練時(shí)間也大大縮短。
技術(shù)領(lǐng)域
本申請(qǐng)涉及語料處理領(lǐng)域,尤其涉及一種基于語料領(lǐng)域的語料處理系統(tǒng)。
背景技術(shù)
用戶生成內(nèi)容是目前自然語言處理的重要對(duì)象之一,通過對(duì)大量用戶生成內(nèi)容進(jìn)行數(shù)據(jù)挖掘,可以發(fā)現(xiàn)用戶生成內(nèi)容所反映出的信息,從而可以對(duì)用戶生成內(nèi)容進(jìn)行分類。例如,現(xiàn)有技術(shù)中,針對(duì)汽車領(lǐng)域的情感分析主要是通過用戶在發(fā)布用戶生成內(nèi)容的時(shí)候,強(qiáng)制其針對(duì)汽車的各個(gè)方面進(jìn)行評(píng)價(jià),從而達(dá)到分類的目的。根據(jù)用戶的評(píng)價(jià),可以通過機(jī)器學(xué)習(xí)的方式進(jìn)一步分析用戶具體評(píng)論的情感傾向,如是積極態(tài)度還是消極態(tài)度。
盡管現(xiàn)有技術(shù)中的技術(shù)方案在某些特定領(lǐng)域的應(yīng)用能夠起到不錯(cuò)的效果,并得到了廣泛使用,但是仍然存在一些缺點(diǎn)。首先,強(qiáng)制用戶針對(duì)汽車的各個(gè)方面進(jìn)行評(píng)價(jià),阻礙了一部分用戶主動(dòng)發(fā)布用戶生成內(nèi)容,因而損失了大量數(shù)據(jù)。其次,如果是用戶自身分類錯(cuò)誤,則得到的結(jié)果錯(cuò)誤。而且,目前的方案分類粒度較大,不夠細(xì)致。
此外,基于機(jī)器學(xué)習(xí)的方式實(shí)現(xiàn)起來比較耗時(shí)耗力,需要大量的標(biāo)注數(shù)據(jù)和復(fù)雜特征提取過程,對(duì)于深度學(xué)習(xí)的方式,雖然不需要特征提取,但還是需要大量的標(biāo)注數(shù)據(jù)訓(xùn)練模型,需要花費(fèi)巨大的人力、財(cái)力和物力。
發(fā)明內(nèi)容
有鑒于此,本申請(qǐng)?zhí)岢隽艘环N基于語料領(lǐng)域的語料處理系統(tǒng),以減少標(biāo)簽的數(shù)量,提高用戶生成內(nèi)容處理的效率。
根據(jù)本申請(qǐng)的一個(gè)方面,提出了一種基于語料領(lǐng)域的語料處理系統(tǒng),該系統(tǒng)包括:
第一訓(xùn)練模塊,用于根據(jù)開放領(lǐng)域語料訓(xùn)練第一編碼模型,根據(jù)目標(biāo)領(lǐng)域參考語料訓(xùn)練第二編碼模型;
向量模塊,用于將目標(biāo)領(lǐng)域語料輸入所述第一編碼模型得到第一向量,將目標(biāo)領(lǐng)域語料輸入所述第二編碼模型得到第二向量,將目標(biāo)領(lǐng)域語料輸入第三模型得到第三向量;
第二訓(xùn)練模塊,用于根據(jù)所述第一向量、所述第二向量以及所述第三向量訓(xùn)練語料處理模型。
優(yōu)選地,所述第一編碼模型為基于BiLSTM模型的自動(dòng)編碼器;和/或所述第二編碼模型為基于BiLSTM模型的自動(dòng)編碼器;和/或第三模型為BiLSTM模型。
優(yōu)選地,所述開放領(lǐng)域語料不包括汽車領(lǐng)域語料,和/或目標(biāo)領(lǐng)域參考語料包括汽車領(lǐng)域新聞?wù)Z料以及目標(biāo)領(lǐng)域語料為汽車領(lǐng)域語料。
優(yōu)選地,所述開放領(lǐng)域語料為開放領(lǐng)域?qū)嶓w語料,所述目標(biāo)領(lǐng)域語料為汽車領(lǐng)域?qū)嶓w語料;所述語料處理模型為評(píng)價(jià)對(duì)象抽取模型。
優(yōu)選地,所述評(píng)價(jià)對(duì)象抽取模型包括CRF模型。
優(yōu)選地,所述開放領(lǐng)域語料為開放領(lǐng)域情感分析語料,所述目標(biāo)領(lǐng)域語料為汽車領(lǐng)域情感分析語料;所述語料處理模型為情感傾向分析模型。
優(yōu)選地,所述情感傾向分析模型包括SoftMax模型。
優(yōu)選地,所述開放領(lǐng)域語料為去除標(biāo)簽后的開放領(lǐng)域語料。
優(yōu)選地,所述第二訓(xùn)練模塊,還用于在訓(xùn)練所述語料處理模型的過程中,凍結(jié)所述第一向量和所述第二向量,并優(yōu)化所述第三向量。
優(yōu)選地,該系統(tǒng)還包括:
預(yù)處理模塊,用于將待評(píng)論語句進(jìn)行預(yù)處理;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京車慧科技有限公司,未經(jīng)北京車慧科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910009322.5/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 一種語料提取器及提取語料的方法
- 軍事信息語料庫構(gòu)建方法及系統(tǒng)
- 待標(biāo)注語料的分配方法、裝置、可讀存儲(chǔ)介質(zhì)及電子設(shè)備
- 語料泛化方法、裝置、電子設(shè)備及可讀存儲(chǔ)介質(zhì)
- 語料數(shù)據(jù)的處理方法、裝置、計(jì)算機(jī)可讀介質(zhì)及電子設(shè)備
- 一種擴(kuò)展語料挖掘方法、裝置、服務(wù)器及存儲(chǔ)介質(zhì)
- 語料生成方法、語料生成裝置、和存儲(chǔ)介質(zhì)
- 短語語料獲取方法及短語語料獲取裝置
- 一種語料分類方法、裝置及服務(wù)器
- 一種輸入方法、裝置和電子設(shè)備
- 移動(dòng)向量解碼方法和移動(dòng)向量解碼裝置
- 一種用于支持向量機(jī)的在線向量選取方法
- 用于在幀序列中執(zhí)行運(yùn)動(dòng)估計(jì)的數(shù)據(jù)處理系統(tǒng)和方法
- 神經(jīng)網(wǎng)絡(luò)的處理方法及裝置、存儲(chǔ)介質(zhì)、電子設(shè)備
- 字符序列處理方法及設(shè)備
- 向量獲取方法、裝置、電子設(shè)備以及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 向量獲取方法、裝置、電子設(shè)備以及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 近鄰向量的召回方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 一種向量運(yùn)算裝置及運(yùn)算方法
- 生成類別向量的方法和裝置
- 一種多元遙感數(shù)據(jù)統(tǒng)一訪問的方法及系統(tǒng)
- 使用機(jī)器學(xué)習(xí)模型的自適應(yīng)信道編碼
- 一種機(jī)器學(xué)習(xí)模型的編碼解碼方法與裝置
- 自編碼模型訓(xùn)練方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種字形處理方法、系統(tǒng)、設(shè)備和介質(zhì)
- 特征編碼方法、裝置、電子設(shè)備及可讀存儲(chǔ)介質(zhì)
- 模型訓(xùn)練方法、模型使用方法、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 一種碼率確定模型訓(xùn)練方法、碼率確定方法及裝置
- 一種面向智慧鋼鐵的大規(guī)模MIMO混合預(yù)編碼方法及裝置
- 一種基于自動(dòng)編碼器的無監(jiān)督圖像分類方法
- 智能交通領(lǐng)域雙模式多目標(biāo)的成像控制方法及其裝置
- 一種面向領(lǐng)域服務(wù)目標(biāo)的知識(shí)庫構(gòu)建方法
- 領(lǐng)域?qū)蛹?jí)中的目標(biāo)領(lǐng)域的無效
- 基于領(lǐng)域適應(yīng)的改進(jìn)SSD監(jiān)控視頻目標(biāo)檢測(cè)方法
- 一種目標(biāo)領(lǐng)域指標(biāo)評(píng)估方法、裝置及系統(tǒng)
- 目標(biāo)領(lǐng)域知識(shí)庫的生成、問題解答方法及裝置
- 一種基于領(lǐng)域適配的水聲目標(biāo)輻射噪聲識(shí)別方法
- 基于目標(biāo)領(lǐng)域自監(jiān)督學(xué)習(xí)的無監(jiān)督領(lǐng)域適應(yīng)方法和系統(tǒng)
- 目標(biāo)領(lǐng)域的擴(kuò)充語料生成方法、裝置和電子設(shè)備
- 一種無源領(lǐng)域自適應(yīng)目標(biāo)檢測(cè)方法





