[發(fā)明專利]一種基于文本內(nèi)容的信息源識(shí)別方法與裝置有效
| 申請?zhí)枺?/td> | 201710499053.6 | 申請日: | 2017-06-27 |
| 公開(公告)號(hào): | CN107451433B | 公開(公告)日: | 2020-05-22 |
| 發(fā)明(設(shè)計(jì))人: | 柳廳文;李全剛;李柢穎;亞靜;時(shí)金橋;譚建龍 | 申請(專利權(quán))人: | 中國科學(xué)院信息工程研究所 |
| 主分類號(hào): | G06F21/16 | 分類號(hào): | G06F21/16;G06F40/211;G06F40/284;G06N3/04 |
| 代理公司: | 北京君尚知識(shí)產(chǎn)權(quán)代理有限公司 11200 | 代理人: | 邵可聲 |
| 地址: | 100093 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 文本 內(nèi)容 信息源 識(shí)別 方法 裝置 | ||
1.一種基于文本內(nèi)容的信息源識(shí)別方法,包括以下步驟:
將輸入的文本按句子切分并分詞;
識(shí)別出各句子中包含的類型為信息源的實(shí)體,包括:
用基于百度百科訓(xùn)練word2vec得到的詞向量表示句子中的每個(gè)詞;
在模型訓(xùn)練和測試時(shí),輸入為詞向量序列,輸出為與詞向量序列等長的標(biāo)簽序列;
標(biāo)簽采用2tag方法,若詞屬于媒體名稱指示詞,則對應(yīng)標(biāo)簽為‘1’,否則標(biāo)簽為‘0’;
網(wǎng)絡(luò)結(jié)構(gòu)包括輸入層,雙向LSTM層和輸出層;
將多個(gè)標(biāo)簽為‘1’的詞拼接起來,得到所在句子的候選信息源實(shí)體;通過采用基于CNN的句子分類方法,判定類型為信息源的實(shí)體是否為其所在句子的信息源,如所述實(shí)體為其所在句子的信息源,則將其作為一信息源實(shí)體,判定類型為信息源的實(shí)體是否為其所在句子的信息源包括:
首先需要將識(shí)別出的候選信息源實(shí)體合并為一個(gè)詞,其次每個(gè)詞的向量包含n維的詞向量和m維的位置向量,每個(gè)詞的向量長度為n+m;
對每個(gè)詞的詞向量表示拼接位置向量,然后輸入到一卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中;
依據(jù)網(wǎng)絡(luò)輸出的分類結(jié)果,判定該實(shí)體是否為其所在句子的信息源;
整合各句子得到的信息源實(shí)體,作為文本信息識(shí)別結(jié)果。
2.如權(quán)利要求1所述的基于文本內(nèi)容的信息源識(shí)別方法,其特征在于,對輸入的文本按句子切分并分詞時(shí),設(shè)定一預(yù)設(shè)句子長度,并通過截取或補(bǔ)充的方式使各句子長度與該預(yù)設(shè)句子長度一致。
3.如權(quán)利要求1所述的基于文本內(nèi)容的信息源識(shí)別方法,其特征在于,通過采用基于雙向LSTM的實(shí)體識(shí)別方法,各句子中包含的類型為信息源的實(shí)體。
4.如權(quán)利要求1所述的基于文本內(nèi)容的信息源識(shí)別方法,其特征在于,所述卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)包括輸入層,卷積層,最大池化層,全連接層及輸出層,網(wǎng)絡(luò)的輸出為0或1的分類結(jié)果。
5.如權(quán)利要求1所述的基于文本內(nèi)容的信息源識(shí)別方法,其特征在于,依據(jù)預(yù)先設(shè)定的文本最大信息源個(gè)數(shù)整合各句子得到的信息源實(shí)體,若信息源實(shí)體數(shù)量超過所述文本最大信息源個(gè)數(shù),優(yōu)先選取所在句子位置在前的信息源實(shí)體。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國科學(xué)院信息工程研究所,未經(jīng)中國科學(xué)院信息工程研究所許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710499053.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F21-00 防止未授權(quán)行為的保護(hù)計(jì)算機(jī)或計(jì)算機(jī)系統(tǒng)的安全裝置
G06F21-02 .通過保護(hù)計(jì)算機(jī)的特定內(nèi)部部件
G06F21-04 .通過保護(hù)特定的外圍設(shè)備,如鍵盤或顯示器
G06F21-06 .通過感知越權(quán)操作或外圍侵?jǐn)_
G06F21-20 .通過限制訪問計(jì)算機(jī)系統(tǒng)或計(jì)算機(jī)網(wǎng)絡(luò)中的節(jié)點(diǎn)
G06F21-22 .通過限制訪問或處理程序或過程
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 內(nèi)容再現(xiàn)系統(tǒng)、內(nèi)容提供方法、內(nèi)容再現(xiàn)裝置、內(nèi)容提供裝置、內(nèi)容再現(xiàn)程序和內(nèi)容提供程序
- 內(nèi)容記錄系統(tǒng)、內(nèi)容記錄方法、內(nèi)容記錄設(shè)備和內(nèi)容接收設(shè)備
- 內(nèi)容服務(wù)系統(tǒng)、內(nèi)容服務(wù)器、內(nèi)容終端及內(nèi)容服務(wù)方法
- 內(nèi)容分發(fā)系統(tǒng)、內(nèi)容分發(fā)裝置、內(nèi)容再生終端及內(nèi)容分發(fā)方法
- 內(nèi)容發(fā)布、內(nèi)容獲取的方法、內(nèi)容發(fā)布裝置及內(nèi)容傳播系統(tǒng)
- 內(nèi)容提供裝置、內(nèi)容提供方法、內(nèi)容再現(xiàn)裝置、內(nèi)容再現(xiàn)方法
- 內(nèi)容傳輸設(shè)備、內(nèi)容傳輸方法、內(nèi)容再現(xiàn)設(shè)備、內(nèi)容再現(xiàn)方法、程序及內(nèi)容分發(fā)系統(tǒng)
- 內(nèi)容發(fā)送設(shè)備、內(nèi)容發(fā)送方法、內(nèi)容再現(xiàn)設(shè)備、內(nèi)容再現(xiàn)方法、程序及內(nèi)容分發(fā)系統(tǒng)
- 內(nèi)容再現(xiàn)裝置、內(nèi)容再現(xiàn)方法、內(nèi)容再現(xiàn)程序及內(nèi)容提供系統(tǒng)
- 內(nèi)容記錄裝置、內(nèi)容編輯裝置、內(nèi)容再生裝置、內(nèi)容記錄方法、內(nèi)容編輯方法、以及內(nèi)容再生方法
- 對信息管理系統(tǒng)訪問的數(shù)據(jù)進(jìn)行組織的系統(tǒng)和方法
- 信息源的遠(yuǎn)程注冊方法和系統(tǒng)
- 組合信息源的組合方法及物聯(lián)網(wǎng)信息源組合訪問方法
- 多輪播件的選擇性數(shù)字服務(wù)信息源
- 一種報(bào)文信息源抽取方法及其系統(tǒng)
- 信息交換方法及裝置
- 基于信息源傳播路徑建立關(guān)系網(wǎng)的方法
- 一種基于大數(shù)據(jù)分析的企業(yè)信用評(píng)價(jià)系統(tǒng)
- 一種多機(jī)多源共屏信息溯源方法、系統(tǒng)、智能終端以及存儲(chǔ)介質(zhì)
- 一種遠(yuǎn)動(dòng)信息源的自動(dòng)審核方法及系統(tǒng)





