[發(fā)明專利]基于內(nèi)容的大文本高階語義張量化分類方法和系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 201710687437.0 | 申請(qǐng)日: | 2017-08-11 |
| 公開(公告)號(hào): | CN107506415B | 公開(公告)日: | 2020-07-21 |
| 發(fā)明(設(shè)計(jì))人: | 譚培波;史曉凌;茹海燕 | 申請(qǐng)(專利權(quán))人: | 北京智通云聯(lián)科技有限公司 |
| 主分類號(hào): | G06F16/35 | 分類號(hào): | G06F16/35;G06F40/30;G06F40/284 |
| 代理公司: | 北京遠(yuǎn)大卓悅知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11369 | 代理人: | 史霞 |
| 地址: | 100012 北京市朝陽*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 內(nèi)容 文本 語義 量化 分類 方法 系統(tǒng) | ||
1.一種基于內(nèi)容的大文本高階語義張量化分類方法,其特征在于,包括如下步驟:
步驟一、構(gòu)造類的DEC張量模型:
1.1)對(duì)多個(gè)大文本的詞語進(jìn)行3級(jí)領(lǐng)域分詞,并建立每個(gè)大文本的大文本詞集合與類的對(duì)應(yīng)關(guān)系;
2.1)構(gòu)件大文本的DEC張量:對(duì)每個(gè)類對(duì)應(yīng)的每個(gè)大文本進(jìn)行分詞,得到代表其領(lǐng)域Domain的分詞集合D、代表業(yè)務(wù)活動(dòng)Concept的分詞集合C和代表相關(guān)要素的分詞集合Element分詞集合E;
2.2)首先得到E的獨(dú)立一維向量,再從E獨(dú)立一維向量張成CE張量;
2.3)從CE張量張成DEC張量;
2.4)從步驟2.3)到2.1)循環(huán),完成整個(gè)類的張量構(gòu)建;
3.1)任意選定一個(gè)類,剩余類張量相加得到該類的反例張量;
3.2)整個(gè)類的張量減去類的反例張量,得到該類的特征張量;
步驟二、獲取待分類的大文本中的部分文本,首先依照步驟2.1)到2.3),利用該部分文本構(gòu)建該待分類大文本的DEC張量,之后加載步驟一中的類的特征張量,將該待分類大文本的DEC張量和每個(gè)類的特征張量邏輯相乘,然后再將邏輯相乘后的類張量按照DEC的3個(gè)維度全部降維相加,得到待分類的大文本屬于該類的強(qiáng)度,最后展示輸出結(jié)果。
2.如權(quán)利要求1所述的基于內(nèi)容的大文本高階語義張量化分類方法,其特征在于,在步驟一中,構(gòu)造類的DEC張量模型時(shí),還包括如下步驟:
首先選取代表領(lǐng)域Domain的多個(gè)詞作為領(lǐng)域詞集合,且建立D表;選取代表業(yè)務(wù)活動(dòng)Concept的多個(gè)詞作為業(yè)務(wù)活動(dòng)詞集合,且建立C表;
步驟2.1)中,對(duì)每個(gè)大文本進(jìn)行分詞時(shí),首先讀取D表和C表,之后將大文本的分詞集合排除掉D表和C表中的元素后,其余的詞集合為分詞集合E,建立E表。
3.如權(quán)利要求2所述的基于內(nèi)容的大文本高階語義張量化分類方法,其特征在于,步驟2.2)中,首先得到E的獨(dú)立一維向量,再從E獨(dú)立一維向量張成CE張量照的具體方法包括:
首先,按照D表和C表對(duì)大文本的D和C分詞集合進(jìn)行排序,構(gòu)建D和C各自單獨(dú)的一維向量,E分詞集合按在E表中頻次排序,得到E的獨(dú)立一維向量;
然后,構(gòu)建一個(gè)大小和E向量一樣的0向量,即每個(gè)元素都為0,將這個(gè)0向量和E向量按行組合為一個(gè)0→E向量對(duì);將這個(gè)向量對(duì)按行重復(fù)n次,得到CE張量的候選集,其中n為C向量的維度;
最后,根據(jù)C向量的大小得到在CE候選集中0→E對(duì)的分割序號(hào)向量,該分割序號(hào)向量和C向量相加,得到的集合即為從候選集中按C向量值挑選0向量或者E向量的序號(hào),進(jìn)行挑選,完成從E向量張成CE張量。
4.如權(quán)利要求2所述的基于內(nèi)容的大文本高階語義張量化分類方法,其特征在于,步驟2.3)中,從CE張量張成DEC張量的具體方法包括:
將CE張量展平成為一階向量,構(gòu)造一個(gè)同樣維度的0向量,構(gòu)造0→CE向量對(duì);
將0→CE向量對(duì)按行擴(kuò)展n倍,構(gòu)成0→CE向量候選集,其中n是D向量的維數(shù);
按照D向量的維度確定0→CE對(duì)的序號(hào)向量;這個(gè)向量和D向量相加,得到DEC向量的序號(hào);
實(shí)施挑選,得到大文本的DEC張量。
5.如權(quán)利要求1所述的基于內(nèi)容的大文本高階語義張量化分類方法,其特征在于,步驟1.1)中,首先將每個(gè)不同格式的大文本轉(zhuǎn)換為txt文件;每個(gè)大文本的大文本詞集合可對(duì)應(yīng)多個(gè)類。
6.如權(quán)利要求1所述的基于內(nèi)容的大文本高階語義張量化分類方法,其特征在于,在步驟3.2)之后,步驟二之前,還包括如下步驟:
3.3)將該類的特征張量變換為適合調(diào)用的json字典格式,輸出,作為步驟二中加載的輸入。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京智通云聯(lián)科技有限公司,未經(jīng)北京智通云聯(lián)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710687437.0/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 內(nèi)容再現(xiàn)系統(tǒng)、內(nèi)容提供方法、內(nèi)容再現(xiàn)裝置、內(nèi)容提供裝置、內(nèi)容再現(xiàn)程序和內(nèi)容提供程序
- 內(nèi)容記錄系統(tǒng)、內(nèi)容記錄方法、內(nèi)容記錄設(shè)備和內(nèi)容接收設(shè)備
- 內(nèi)容服務(wù)系統(tǒng)、內(nèi)容服務(wù)器、內(nèi)容終端及內(nèi)容服務(wù)方法
- 內(nèi)容分發(fā)系統(tǒng)、內(nèi)容分發(fā)裝置、內(nèi)容再生終端及內(nèi)容分發(fā)方法
- 內(nèi)容發(fā)布、內(nèi)容獲取的方法、內(nèi)容發(fā)布裝置及內(nèi)容傳播系統(tǒng)
- 內(nèi)容提供裝置、內(nèi)容提供方法、內(nèi)容再現(xiàn)裝置、內(nèi)容再現(xiàn)方法
- 內(nèi)容傳輸設(shè)備、內(nèi)容傳輸方法、內(nèi)容再現(xiàn)設(shè)備、內(nèi)容再現(xiàn)方法、程序及內(nèi)容分發(fā)系統(tǒng)
- 內(nèi)容發(fā)送設(shè)備、內(nèi)容發(fā)送方法、內(nèi)容再現(xiàn)設(shè)備、內(nèi)容再現(xiàn)方法、程序及內(nèi)容分發(fā)系統(tǒng)
- 內(nèi)容再現(xiàn)裝置、內(nèi)容再現(xiàn)方法、內(nèi)容再現(xiàn)程序及內(nèi)容提供系統(tǒng)
- 內(nèi)容記錄裝置、內(nèi)容編輯裝置、內(nèi)容再生裝置、內(nèi)容記錄方法、內(nèi)容編輯方法、以及內(nèi)容再生方法
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 面向語義Web服務(wù)程序設(shè)計(jì)的語義數(shù)據(jù)表示和處理方法
- 一種基于語義的三維模型檢索系統(tǒng)和方法
- 一種計(jì)算機(jī)語義工程系統(tǒng)
- 導(dǎo)航方法及裝置
- 一種分層次多語義網(wǎng)系統(tǒng)及方法
- 一種基于上下文的語義匹配方法和系統(tǒng)
- 遠(yuǎn)程語義識(shí)別方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種基于語義依存關(guān)系的醫(yī)療文本標(biāo)注方法
- 基于多級(jí)語義表征和語義計(jì)算的信號(hào)語義識(shí)別方法
- 語義分類方法及裝置、存儲(chǔ)介質(zhì)及電子設(shè)備





