[發(fā)明專利]一種基于類別稠密向量表示的通用文本分類方法及系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 202010080710.5 | 申請(qǐng)日: | 2020-02-05 |
| 公開(公告)號(hào): | CN111259658B | 公開(公告)日: | 2022-08-19 |
| 發(fā)明(設(shè)計(jì))人: | 郭嘉豐;范意興;袁浩達(dá);程學(xué)旗 | 申請(qǐng)(專利權(quán))人: | 中國(guó)科學(xué)院計(jì)算技術(shù)研究所 |
| 主分類號(hào): | G06F40/279 | 分類號(hào): | G06F40/279;G06F40/216;G06K9/62 |
| 代理公司: | 北京律誠(chéng)同業(yè)知識(shí)產(chǎn)權(quán)代理有限公司 11006 | 代理人: | 祁建國(guó) |
| 地址: | 100080 北*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 類別 稠密 向量 表示 通用 文本 分類 方法 系統(tǒng) | ||
1.一種基于類別稠密向量表示的通用文本分類方法,其特征在于,包括:
步驟1、獲取包括以標(biāo)記類別文本的訓(xùn)練數(shù)據(jù),使用全連接網(wǎng)絡(luò)處理該訓(xùn)練數(shù)據(jù),得到各類別的類別稠密向量;
步驟2、將待分類文本輸入至深度神經(jīng)網(wǎng)絡(luò),得到該待分類文本中每個(gè)詞的詞稠密向量,并將每個(gè)詞的詞稠密向量相加,和/或最大值池化,和/或經(jīng)短期記憶網(wǎng)絡(luò)處理后得到該待分類文本的文本稠密向量;
步驟3、將該文本稠密向量和所有該類別稠密向量輸入至匹配度測(cè)量模型,得到該待分類文本屬于各類別的概率分布,將該待分類文本與該概率分布中概率最大的類別相匹配,作為該待分類文本的分類結(jié)果;
其中該步驟1包括:
對(duì)于訓(xùn)練數(shù)據(jù)Xn=[x1,…,xm],xi∈X,yn∈Y,其中X為詞典,Y為類別集合,[x1,…,xm]為詞序列,m為輸入文本長(zhǎng)度,N為數(shù)據(jù)集規(guī)模,利用全連接網(wǎng)絡(luò)獲得詞向量V=f1(Xn),其中P為文本特征空間的維度;通過(guò)對(duì)訓(xùn)練數(shù)據(jù)聚集得到類別的稠密向量表示C=[c1,…,cK],其中K為類別的數(shù)量;
步驟3中該匹配度測(cè)量模型,用于通過(guò)下式得到各類該類別稠密向量和該文本稠密向量的匹配特征,得到該匹配特征的過(guò)程具體包括:通過(guò)下式得到該類別稠密向和該文本稠密向量中每個(gè)詞的余弦相似度、雙向線性和元素乘;
Mbi-linear=CWbi-linearVT,
之后通過(guò)下式將相似度結(jié)果拼接,得到類別表示和每個(gè)詞的匹配特征M,再通過(guò)深度神經(jīng)網(wǎng)絡(luò)得到各類別和整個(gè)待分類文本的匹配特征Mmatching_feature,其中Q為匹配特征的維度:
M=concat(expand(Mcos),expand(Mbi-linear),Mponitwise-multi)
根據(jù)下式通過(guò)全連接層得到輸入文本和每個(gè)類別之間的匹配得分score,再經(jīng)過(guò)softmax層得到輸入文本屬于每個(gè)類別的概率分布其中⊙表示矩陣的對(duì)應(yīng)列分別求內(nèi)積;
2.如權(quán)利要求1所述的基于類別稠密向量表示的通用文本分類方法,其特征在于,該步驟1包括:在生成類別稠密向量時(shí),對(duì)該訓(xùn)練數(shù)據(jù)中所有屬于同一類別的文本中的詞向量表示取平均值,作為初始化的類別稠密向量。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國(guó)科學(xué)院計(jì)算技術(shù)研究所,未經(jīng)中國(guó)科學(xué)院計(jì)算技術(shù)研究所許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010080710.5/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種基于圖像形態(tài)學(xué)的稠密物體分割方法
- 矩陣處理裝置
- 基于稠密連接的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)改進(jìn)方法和系統(tǒng)
- 一種用于目標(biāo)重建的嵌套結(jié)構(gòu)的漸進(jìn)式稠密網(wǎng)絡(luò)
- 基于稠密多路卷積網(wǎng)絡(luò)的圖片分類方法與系統(tǒng)
- 矩陣處理裝置
- 人臉圖像的處理方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 結(jié)構(gòu)化稀疏參數(shù)的處理方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種訓(xùn)練模型和點(diǎn)云的處理方法及裝置
- 一種表面缺陷檢測(cè)方法和裝置
- 移動(dòng)向量解碼方法和移動(dòng)向量解碼裝置
- 一種用于支持向量機(jī)的在線向量選取方法
- 用于在幀序列中執(zhí)行運(yùn)動(dòng)估計(jì)的數(shù)據(jù)處理系統(tǒng)和方法
- 神經(jīng)網(wǎng)絡(luò)的處理方法及裝置、存儲(chǔ)介質(zhì)、電子設(shè)備
- 字符序列處理方法及設(shè)備
- 向量獲取方法、裝置、電子設(shè)備以及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 向量獲取方法、裝置、電子設(shè)備以及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 近鄰向量的召回方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 一種向量運(yùn)算裝置及運(yùn)算方法
- 生成類別向量的方法和裝置





