[發(fā)明專利]一種基于深度學(xué)習(xí)的信息技術(shù)數(shù)據(jù)實(shí)體屬性抽取方法在審
| 申請(qǐng)?zhí)枺?/td> | 202010316616.5 | 申請(qǐng)日: | 2020-04-21 |
| 公開(公告)號(hào): | CN111914055A | 公開(公告)日: | 2020-11-10 |
| 發(fā)明(設(shè)計(jì))人: | 郭紹翠;楊旭;宋正強(qiáng);孫維夫 | 申請(qǐng)(專利權(quán))人: | 煙臺(tái)職業(yè)學(xué)院 |
| 主分類號(hào): | G06F16/31 | 分類號(hào): | G06F16/31;G06F16/35;G06F40/295;G06F16/332 |
| 代理公司: | 深圳紫晴專利代理事務(wù)所(普通合伙) 44646 | 代理人: | 付欽偉 |
| 地址: | 264670 山東省煙臺(tái)*** | 國省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 深度 學(xué)習(xí) 信息技術(shù) 數(shù)據(jù) 實(shí)體 屬性 抽取 方法 | ||
本發(fā)明公開了一種基于深度學(xué)習(xí)的信息技術(shù)數(shù)據(jù)實(shí)體屬性抽取方法,包括插入、編碼、處理和判定四個(gè)步驟,將文本信息里的字或者詞變成一個(gè)稠密的向量,便于取機(jī)器的識(shí)別,并創(chuàng)建一個(gè)為待變成稠密向量的詞與實(shí)體之間的位置;通過算法對(duì)文本信息里的多個(gè)實(shí)體進(jìn)行頭實(shí)體的辨別,并通過多輪問答的方式對(duì)對(duì)應(yīng)的頭實(shí)體進(jìn)行提問,得到對(duì)應(yīng)的實(shí)體與頭實(shí)體之間的關(guān)系,并通過制表的方式將頭實(shí)體與實(shí)體之間的關(guān)系實(shí)現(xiàn)一一對(duì)應(yīng),便于機(jī)器根據(jù)算法進(jìn)行文本信息內(nèi)多個(gè)實(shí)體之間層級(jí)關(guān)系的區(qū)分,不會(huì)因兩個(gè)實(shí)體之間的距離大小受到限制,通過表格使各個(gè)實(shí)體之間的關(guān)系更加的明顯,防止出現(xiàn)關(guān)系錯(cuò)雜的情況,導(dǎo)致機(jī)器對(duì)文本信息的識(shí)別準(zhǔn)確率下降。
技術(shù)領(lǐng)域
本發(fā)明涉及信息抽取技術(shù)領(lǐng)域,具體涉及一種基于深度學(xué)習(xí)的信息技術(shù)數(shù)據(jù)實(shí)體屬性抽取方法。
背景技術(shù)
信息抽取是把文本里包含的信息進(jìn)行結(jié)構(gòu)化處理,變成表格一樣的組織形式。輸入信息抽取系統(tǒng)的是原始文本,輸出的是固定格式的信息點(diǎn)。信息點(diǎn)從各種各樣的文檔中被抽取出來,然后以統(tǒng)一的形式集成在一起。這就是信息抽取的主要任務(wù)。信息以統(tǒng)一的形式集成在一起的好處是方便檢查和比較。信息抽取技術(shù)并不試圖全面理解整篇文檔,只是對(duì)文檔中包含相關(guān)信息的部分進(jìn)行分析。至于哪些信息是相關(guān)的,那將由系統(tǒng)設(shè)計(jì)時(shí)定下的領(lǐng)域范圍而定。
現(xiàn)有技術(shù)存在以下不足:
1、現(xiàn)有的信息抽取傳統(tǒng)技術(shù)對(duì)層級(jí)關(guān)系的處理較困難,導(dǎo)致工作人員難以根據(jù)文本信息里的多個(gè)實(shí)體之間進(jìn)行建模,使文本信息里的多個(gè)實(shí)體之間的層級(jí)關(guān)系難以被機(jī)器區(qū)分。
2、現(xiàn)有的信息抽取傳統(tǒng)技術(shù)在對(duì)一段文本信息進(jìn)行處理時(shí),文本信息里的兩個(gè)實(shí)體之間的距離較遠(yuǎn),且兩個(gè)實(shí)體之間相互存在關(guān)系,使機(jī)器在進(jìn)行信息抽取的過程中易因關(guān)系的錯(cuò)雜,導(dǎo)致識(shí)別準(zhǔn)確率下降的情況。
在所述背景技術(shù)部分公開的上述信息僅用于加強(qiáng)對(duì)本公開的背景的理解,因此它可以包括不構(gòu)成對(duì)本領(lǐng)域普通技術(shù)人員已知的現(xiàn)有技術(shù)的信息。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種基于深度學(xué)習(xí)的信息技術(shù)數(shù)據(jù)實(shí)體屬性抽取方法,通過算法對(duì)文本信息里的多個(gè)實(shí)體進(jìn)行頭實(shí)體的辨別,并通過多輪問答的方式對(duì)對(duì)應(yīng)的頭實(shí)體進(jìn)行提問,得到對(duì)應(yīng)的實(shí)體與頭實(shí)體之間的關(guān)系,通過表格體現(xiàn)出的各個(gè)實(shí)體之間的關(guān)系,便于機(jī)器根據(jù)算法進(jìn)行文本信息內(nèi)多個(gè)實(shí)體之間層級(jí)關(guān)系的區(qū)分,防止出現(xiàn)關(guān)系錯(cuò)雜的情況,導(dǎo)致機(jī)器對(duì)文本信息的識(shí)別準(zhǔn)確率下降,以解決技術(shù)中的上述不足之處。
為了實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:一種基于深度學(xué)習(xí)的信息技術(shù)數(shù)據(jù)實(shí)體屬性抽取方法,包括以下具體步驟:
一、插入——將字或者詞變成一個(gè)稠密的向量,一般認(rèn)為待變成稠密向量的詞與實(shí)體之間的位置是一個(gè)相對(duì)位置;
二、編碼——對(duì)于關(guān)系識(shí)別來說,即包含卷積神經(jīng)網(wǎng)絡(luò)相關(guān)的,也包含運(yùn)行相關(guān)的,把上下文的信息考慮進(jìn)來。舉例說明,一個(gè)脈沖耦合神經(jīng)網(wǎng)絡(luò)可通過兩個(gè)實(shí)體把句子分為多個(gè)部分,每個(gè)部分分別做卷積神經(jīng)網(wǎng)絡(luò)的最大值池化,再經(jīng)過Softmax分類器進(jìn)行分類;
三、處理——處理器可以處理分辨出兩個(gè)實(shí)體是由于哪個(gè)詞分辨出是顧傭的關(guān)系;
四、判定——對(duì)定長的向量進(jìn)行判定分類,主要是把兩部分的一些模型的參數(shù)在底層被共享起來。
優(yōu)選的,將文本信息里的字或者詞變成一個(gè)稠密的向量,便于取機(jī)器的識(shí)別。
優(yōu)選的,創(chuàng)建一個(gè)為待變成稠密向量的詞與實(shí)體之間的位置。
優(yōu)選的,在獲取對(duì)應(yīng)位置的稠密向量后,使脈沖耦合神經(jīng)網(wǎng)絡(luò)通過兩個(gè)實(shí)體把句子分為多個(gè)部分,每個(gè)部分分別做卷積神經(jīng)網(wǎng)絡(luò)的最大值池化。
優(yōu)選的,再將最大值池化的每個(gè)部分經(jīng)過Softmax分類器進(jìn)行分類,避免因直接對(duì)多個(gè)部分進(jìn)行最大值池化造成數(shù)據(jù)信息的丟失,提高機(jī)器抽取的準(zhǔn)確度。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于煙臺(tái)職業(yè)學(xué)院,未經(jīng)煙臺(tái)職業(yè)學(xué)院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010316616.5/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)
- 虛擬信息技術(shù)助理
- 信息技術(shù)設(shè)備管理系統(tǒng)、管理方法及電子裝置
- 信息技術(shù)運(yùn)用評(píng)價(jià)裝置及信息技術(shù)運(yùn)用評(píng)價(jià)方法
- 一種散熱效果好的信息技術(shù)終端
- 一種信息技術(shù)咨詢系統(tǒng)
- 信息技術(shù)運(yùn)用評(píng)價(jià)裝置、信息技術(shù)運(yùn)用評(píng)價(jià)系統(tǒng)及信息技術(shù)運(yùn)用評(píng)價(jià)方法
- 一種具有散熱處理的信息技術(shù)終端
- 管理安全性相關(guān)的信息技術(shù)服務(wù)
- 機(jī)箱(信息技術(shù)工程)
- 一種信息技術(shù)咨詢系統(tǒng)





