[發(fā)明專利]文本對象分類方法及裝置有效
| 申請?zhí)枺?/td> | 201710209192.0 | 申請日: | 2017-03-31 |
| 公開(公告)號: | CN108664512B | 公開(公告)日: | 2021-02-09 |
| 發(fā)明(設(shè)計(jì))人: | 劉曉華;李航;涂兆鵬;嚴(yán)哲峰 | 申請(專利權(quán))人: | 華為技術(shù)有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/31;G06N3/08 |
| 代理公司: | 北京三高永信知識產(chǎn)權(quán)代理有限責(zé)任公司 11138 | 代理人: | 羅振安 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文本 對象 分類 方法 裝置 | ||
1.一種文本對象分類方法,其特征在于,所述文本對象具有n層節(jié)點(diǎn)的樹結(jié)構(gòu),所述樹結(jié)構(gòu)中的第i層節(jié)點(diǎn)的文本內(nèi)容是所屬第i+1層節(jié)點(diǎn)的文本內(nèi)容的一部分,n和i為正整數(shù),1≤i<n,所述方法包括:
獲取第i層節(jié)點(diǎn)的節(jié)點(diǎn)特征,所述節(jié)點(diǎn)特征為:第一類特征和第二類特征拼接后得到的拼接特征,或者,所述第二類特征;
將屬于同一個(gè)第i+1層節(jié)點(diǎn)的各個(gè)第i層節(jié)點(diǎn)的所述節(jié)點(diǎn)特征,輸入所述第i+1層節(jié)點(diǎn)對應(yīng)的神經(jīng)網(wǎng)絡(luò),得到所述第i+1層節(jié)點(diǎn)的所述第二類特征;
當(dāng)所述第i+1層節(jié)點(diǎn)是根節(jié)點(diǎn)時(shí),將所述根節(jié)點(diǎn)的所述節(jié)點(diǎn)特征輸入分類器,通過所述分類器輸出所述文本對象的類別標(biāo)簽,所述樹結(jié)構(gòu)中的最頂層的節(jié)點(diǎn)為所述根節(jié)點(diǎn);
其中,所述第一類特征是通過人工特征工程提取的特征,所述第二類特征是通過機(jī)器學(xué)習(xí)到的特征,每個(gè)所述第i+1層節(jié)點(diǎn)對應(yīng)有各自的所述神經(jīng)網(wǎng)絡(luò),存在至少一個(gè)節(jié)點(diǎn)的節(jié)點(diǎn)特征是所述拼接特征。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,存在位于至少一個(gè)路徑和/或至少一層的節(jié)點(diǎn)的所述節(jié)點(diǎn)特征是所述拼接特征。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,同一類型的所述節(jié)點(diǎn)所對應(yīng)的所述神經(jīng)網(wǎng)絡(luò)是相同的,不同類型的所述節(jié)點(diǎn)所對應(yīng)的所述神經(jīng)網(wǎng)絡(luò)不同或相同。
4.根據(jù)權(quán)利要求1至3任一所述的方法,其特征在于,與所述第i+1層節(jié)點(diǎn)對應(yīng)的所述神經(jīng)網(wǎng)絡(luò)是第一類神經(jīng)網(wǎng)絡(luò);
所述將屬于同一個(gè)第i+1層節(jié)點(diǎn)的各個(gè)第i層節(jié)點(diǎn)的所述節(jié)點(diǎn)特征,輸入所述第i+1層節(jié)點(diǎn)對應(yīng)的神經(jīng)網(wǎng)絡(luò),得到所述第i+1層節(jié)點(diǎn)的所述第二類特征,包括:
將屬于同一個(gè)第i+1層節(jié)點(diǎn)的各個(gè)第i層節(jié)點(diǎn)的所述節(jié)點(diǎn)特征,輸入與所述第i+1層節(jié)點(diǎn)對應(yīng)的所述第一類神經(jīng)網(wǎng)絡(luò);
通過所述第一類神經(jīng)網(wǎng)絡(luò)對各個(gè)所述第i層節(jié)點(diǎn)的節(jié)點(diǎn)特征進(jìn)行多級拼接,得到所述第i+1層節(jié)點(diǎn)的第二類特征。
5.根據(jù)權(quán)利要求1至3任一所述的方法,其特征在于,與所述第i+1層節(jié)點(diǎn)對應(yīng)的所述神經(jīng)網(wǎng)絡(luò)是第二類神經(jīng)網(wǎng)絡(luò);所述第i+1層節(jié)點(diǎn)包括m個(gè)所述第i層節(jié)點(diǎn),最左側(cè)為第1個(gè)第i層節(jié)點(diǎn),最右側(cè)為第m個(gè)第i層節(jié)點(diǎn),m為正整數(shù),m1;
所述將屬于同一個(gè)第i+1層節(jié)點(diǎn)的各個(gè)第i層節(jié)點(diǎn)的所述節(jié)點(diǎn)特征,輸入所述第i+1層節(jié)點(diǎn)對應(yīng)的神經(jīng)網(wǎng)絡(luò),得到所述第i+1層節(jié)點(diǎn)的所述第二類特征,包括:
將m個(gè)所述第i層節(jié)點(diǎn)的節(jié)點(diǎn)特征從左往右依次輸入所述第二類神經(jīng)網(wǎng)絡(luò),得到第一特征;
將m個(gè)所述第i層節(jié)點(diǎn)的節(jié)點(diǎn)特征從右往左依次輸入所述第二類神經(jīng)網(wǎng)絡(luò),得到第二特征;
將所述第一特征和所述第二特征進(jìn)行拼接,得到所述第i+1層節(jié)點(diǎn)的第二類特征。
6.根據(jù)權(quán)利要求1至3任一所述的方法,其特征在于,所述當(dāng)所述第i+1層節(jié)點(diǎn)是所述根節(jié)點(diǎn)時(shí),將所述根節(jié)點(diǎn)的所述節(jié)點(diǎn)特征輸入分類器,通過所述分類器輸出所述文本對象的類別標(biāo)簽,包括:
當(dāng)所述第i+1層節(jié)點(diǎn)是所述根節(jié)點(diǎn)時(shí),將所述根節(jié)點(diǎn)的所述節(jié)點(diǎn)特征輸入所述分類器,得到所述文本對象屬于各個(gè)類別標(biāo)簽的概率值;
將概率值最大的類別標(biāo)簽確定為所述文本對象對應(yīng)的類別標(biāo)簽。
7.根據(jù)權(quán)利要求1至3任一所述的方法,其特征在于,所述分類器和所述神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程包括如下步驟:
步驟1:初始化所述分類器和所述神經(jīng)網(wǎng)絡(luò)的訓(xùn)練參數(shù);
步驟2:獲取訓(xùn)練樣本,所述訓(xùn)練樣本包括樣本內(nèi)容和所述樣本內(nèi)容對應(yīng)的樣本標(biāo)簽,所述樣本內(nèi)容具有所述樹結(jié)構(gòu);
步驟3:將所述樣本內(nèi)容輸入所述神經(jīng)網(wǎng)絡(luò),計(jì)算得到所述樣本內(nèi)容的根節(jié)點(diǎn)對應(yīng)的節(jié)點(diǎn)特征;
步驟4:將所述節(jié)點(diǎn)特征輸入所述分類器,計(jì)算得到所述樣本標(biāo)簽屬于所述樣本標(biāo)簽的概率值;
步驟5:將各個(gè)所述樣本內(nèi)容屬于各自對應(yīng)的所述樣本標(biāo)簽的概率值相加,計(jì)算得到概率值之和;
步驟6:根據(jù)所述概率值之和,使用梯度上升算法計(jì)算出調(diào)整后的所述訓(xùn)練參數(shù);
當(dāng)未達(dá)到迭代結(jié)束條件時(shí),迭代執(zhí)行上述步驟3至步驟6;
當(dāng)達(dá)到所述迭代結(jié)束條件時(shí),將最后一次迭代計(jì)算出的訓(xùn)練參數(shù)確定為訓(xùn)練好的訓(xùn)練參數(shù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華為技術(shù)有限公司,未經(jīng)華為技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710209192.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲介質(zhì)
- 文本生成方法、裝置和電子設(shè)備





