[發(fā)明專(zhuān)利]一種面向知識(shí)圖譜構(gòu)建的實(shí)體關(guān)系抽取方法及系統(tǒng)在審
| 申請(qǐng)?zhí)枺?/td> | 202210049823.8 | 申請(qǐng)日: | 2022-01-17 |
| 公開(kāi)(公告)號(hào): | CN114491066A | 公開(kāi)(公告)日: | 2022-05-13 |
| 發(fā)明(設(shè)計(jì))人: | 譚杰駿;王建軍;金曉偉;郭官峰;胡文斌 | 申請(qǐng)(專(zhuān)利權(quán))人: | 鄭州鍥穎信息科技有限公司 |
| 主分類(lèi)號(hào): | G06F16/36 | 分類(lèi)號(hào): | G06F16/36;G06F16/35;G06F40/194;G06F40/295;G06N3/04;G06N3/08 |
| 代理公司: | 武漢科皓知識(shí)產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 42222 | 代理人: | 肖明洲 |
| 地址: | 450053 河南省鄭州市金*** | 國(guó)省代碼: | 河南;41 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 面向 知識(shí) 圖譜 構(gòu)建 實(shí)體 關(guān)系 抽取 方法 系統(tǒng) | ||
1.一種面向知識(shí)圖譜構(gòu)建的實(shí)體關(guān)系抽取方法,其特征在于,包括以下步驟:
步驟1:獲取領(lǐng)域中非結(jié)構(gòu)化文本,并進(jìn)行數(shù)據(jù)預(yù)處理,標(biāo)注文本中出現(xiàn)的實(shí)體、實(shí)體類(lèi)型和實(shí)體之間的關(guān)系,得到訓(xùn)練數(shù)據(jù);
步驟2:構(gòu)建神經(jīng)網(wǎng)絡(luò)模型;
所述神經(jīng)網(wǎng)絡(luò)模型,由依次連接的prompt層、預(yù)訓(xùn)練語(yǔ)言模型PLM和類(lèi)集中化分類(lèi)器組成;
所述prompt層,用于在原始句子后面加上一個(gè)帶空缺的后綴,將原始句子轉(zhuǎn)化為一個(gè)帶空缺的句子;
所述預(yù)訓(xùn)練語(yǔ)言模型PLM,最前一層是詞嵌入層,用于將原始句子逐詞轉(zhuǎn)為詞向量;包括把每一個(gè)空缺的詞當(dāng)作特殊字符,也轉(zhuǎn)化為詞向量;
所述類(lèi)集中化分類(lèi)器,輸入層連接預(yù)訓(xùn)練語(yǔ)言模型PLM,輸出詞向量屬于每個(gè)類(lèi)的概率;
步驟3:將步驟1中的訓(xùn)練數(shù)據(jù)輸入步驟2中的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,分別訓(xùn)練成為實(shí)體類(lèi)型分類(lèi)模型,實(shí)體關(guān)系分類(lèi)模型;
步驟4:將實(shí)體類(lèi)型分類(lèi)模型和實(shí)體關(guān)系分類(lèi)模型關(guān)聯(lián)起來(lái)整體運(yùn)作,對(duì)新數(shù)據(jù)先鑒定實(shí)體類(lèi)型再在此基礎(chǔ)上抽取實(shí)體關(guān)系。
2.根據(jù)權(quán)利要求1所述的面向知識(shí)圖譜構(gòu)建的實(shí)體關(guān)系抽取方法,其特征在于,步驟1中所述進(jìn)行數(shù)據(jù)預(yù)處理,是在非結(jié)構(gòu)化文本中標(biāo)注出實(shí)體、實(shí)體類(lèi)型和實(shí)體關(guān)系;令原始文本序列為x={x1,x2,...x|x|),設(shè)x包含一對(duì)具有某種關(guān)系的實(shí)體,記為主語(yǔ)sx和賓語(yǔ)ox,其中主語(yǔ)和賓語(yǔ)都是x的子序列,主語(yǔ)屬于的實(shí)體類(lèi)型記為t(sx),賓語(yǔ)屬于的實(shí)體類(lèi)型記為t(ox),他們之間的關(guān)系記為r(sx,ox);然后根據(jù)原始數(shù)據(jù)確定所有可能出現(xiàn)的主語(yǔ)實(shí)體類(lèi)型賓語(yǔ)實(shí)體類(lèi)型和所有實(shí)體關(guān)系類(lèi)型R={r1,r2,...},...屬于t(sx),...屬于t(ox);
將數(shù)據(jù)按照不同的主語(yǔ)賓語(yǔ)實(shí)體類(lèi)型對(duì)p={t(sx),t(ox)}進(jìn)行劃分,在數(shù)據(jù)集中出現(xiàn)的所有主語(yǔ)賓語(yǔ)實(shí)體類(lèi)型對(duì)記為P={p1,p2,...};對(duì)于每種主語(yǔ)賓語(yǔ)實(shí)體類(lèi)型對(duì),都有特定而有限的實(shí)體類(lèi)型并且R(pk)∈R。
3.根據(jù)權(quán)利要求1所述的面向知識(shí)圖譜構(gòu)建的實(shí)體關(guān)系抽取方法,其特征在于,步驟3的具體實(shí)現(xiàn)包括以下子步驟:
步驟3.1:將步驟1中的訓(xùn)練數(shù)據(jù)輸入步驟2中的神經(jīng)網(wǎng)絡(luò)模型的prompt層添加后綴,實(shí)體類(lèi)型分類(lèi)模型訓(xùn)練過(guò)程中的prompt層添加后綴為“即[實(shí)體]是_”;實(shí)體關(guān)系分類(lèi)模型中的prompt層添加后綴為“即[主語(yǔ)]_[賓語(yǔ)]”;
步驟3.2:prompt層將帶空缺詞的句子輸入預(yù)訓(xùn)練語(yǔ)言模型PLM,預(yù)訓(xùn)練語(yǔ)言模型PLM輸出空缺詞的預(yù)測(cè)詞向量,再把預(yù)測(cè)詞向量輸入類(lèi)集中化分類(lèi)器;
步驟3.3:類(lèi)集中化分類(lèi)器將空缺詞的預(yù)測(cè)詞向量與每個(gè)類(lèi)別的標(biāo)準(zhǔn)詞向量作對(duì)比,根據(jù)空缺詞向量與哪個(gè)標(biāo)準(zhǔn)詞向量更接近,判斷詞向量屬于哪個(gè)類(lèi);
步驟3.4:類(lèi)集中化分類(lèi)器比對(duì)預(yù)訓(xùn)練語(yǔ)言模型PLM輸出的空缺詞的預(yù)測(cè)詞向量v,和每個(gè)類(lèi)的標(biāo)準(zhǔn)詞向量c,計(jì)算它們的相似度;
步驟3.5:在迭代預(yù)定的輪次之后,得到訓(xùn)練完成的模型。
4.根據(jù)權(quán)利要求3所述的面向知識(shí)圖譜構(gòu)建的實(shí)體關(guān)系抽取方法,其特征在于,步驟3.2中,預(yù)訓(xùn)練語(yǔ)言模型PLM輸出空缺詞的預(yù)測(cè)詞向量,是從原始句子到高維向量空間的映射fθ:x→V,其中θ是預(yù)訓(xùn)練語(yǔ)言模型PLM中包含的所有可訓(xùn)練的參數(shù)。
5.根據(jù)權(quán)利要求3所述的面向知識(shí)圖譜構(gòu)建的實(shí)體關(guān)系抽取方法,其特征在于,步驟3.3中,所述標(biāo)準(zhǔn)詞向量,是在詞嵌入空間隨機(jī)生成張量,即用與空缺詞的預(yù)測(cè)詞向量相同維度的隨機(jī)向量作為標(biāo)注詞向量的初始值,然后在后續(xù)訓(xùn)練過(guò)程中逐步調(diào)整標(biāo)準(zhǔn)詞向量;實(shí)體類(lèi)別分類(lèi)模型抽取主語(yǔ)類(lèi)型時(shí)有標(biāo)準(zhǔn)詞向量集合:實(shí)體類(lèi)別分類(lèi)模型抽取賓語(yǔ)類(lèi)型時(shí)有標(biāo)準(zhǔn)詞向量對(duì)每個(gè)主語(yǔ)類(lèi)型-賓語(yǔ)類(lèi)型對(duì)pk有標(biāo)準(zhǔn)詞向量
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于鄭州鍥穎信息科技有限公司,未經(jīng)鄭州鍥穎信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210049823.8/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 基于本體的知識(shí)地圖繪制系統(tǒng)
- 基于知識(shí)地圖的領(lǐng)域知識(shí)瀏覽方法
- 一種基于知識(shí)本體的知識(shí)體系的建模方法
- 一種知識(shí)工程系統(tǒng)
- 知識(shí)自動(dòng)化系統(tǒng)和方法以及存儲(chǔ)器
- 基于SOLR的知識(shí)管理系統(tǒng)
- 基于知識(shí)節(jié)點(diǎn)所屬度的知識(shí)圖譜構(gòu)建方法和裝置
- 一種基于知識(shí)圖譜的稅務(wù)知識(shí)庫(kù)系統(tǒng)
- 一種智聯(lián)網(wǎng)中的網(wǎng)絡(luò)知識(shí)統(tǒng)一表征架構(gòu)及實(shí)現(xiàn)方法
- 知識(shí)點(diǎn)存儲(chǔ)方法、裝置、服務(wù)器及介質(zhì)
- 用于圖譜界面的數(shù)據(jù)處理方法及系統(tǒng)
- 用于內(nèi)容特征圖譜化的特征圖譜布局的服務(wù)器及介質(zhì)
- 圖譜的構(gòu)建方法及裝置、電子設(shè)備
- 信息圖譜構(gòu)建方法、裝置及設(shè)備
- 知識(shí)圖譜的完善方法及裝置、數(shù)據(jù)處理方法及裝置
- 一種知識(shí)圖譜的構(gòu)建方法、裝置、知識(shí)圖譜系統(tǒng)及設(shè)備
- 一種基于知識(shí)圖譜的故障判別推理方法
- 一種事件圖譜的匹配方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種用于創(chuàng)建知識(shí)圖譜的計(jì)算機(jī)設(shè)備
- 一種支持增量實(shí)體關(guān)聯(lián)的關(guān)系圖譜計(jì)算方法
- 構(gòu)建墊、實(shí)體圖像構(gòu)建物和構(gòu)建構(gòu)建物支撐件的方法
- 支持松耦合的軟件構(gòu)建方法、系統(tǒng)及該系統(tǒng)的實(shí)現(xiàn)方法
- 版本的構(gòu)建系統(tǒng)及方法
- 工程構(gòu)建系統(tǒng)及其構(gòu)建方法
- 實(shí)例構(gòu)建方法、裝置及軟件系統(tǒng)
- 軟件構(gòu)建方法、軟件構(gòu)建裝置和軟件構(gòu)建系統(tǒng)
- 天花板地圖構(gòu)建方法、構(gòu)建裝置以及構(gòu)建程序
- 一種項(xiàng)目構(gòu)建方法、持續(xù)集成系統(tǒng)及終端設(shè)備
- 并行構(gòu)建的方法、裝置及設(shè)備
- 構(gòu)建肺癌預(yù)測(cè)模型構(gòu)建方法





