[發(fā)明專(zhuān)利]一種面向開(kāi)放域的實(shí)體關(guān)系抽取方法、裝置及終端設(shè)備在審
| 申請(qǐng)?zhí)枺?/td> | 202010540594.0 | 申請(qǐng)日: | 2020-06-12 |
| 公開(kāi)(公告)號(hào): | CN111831829A | 公開(kāi)(公告)日: | 2020-10-27 |
| 發(fā)明(設(shè)計(jì))人: | 徐波 | 申請(qǐng)(專(zhuān)利權(quán))人: | 廣州多益網(wǎng)絡(luò)股份有限公司;廣東利為網(wǎng)絡(luò)科技有限公司;多益網(wǎng)絡(luò)有限公司 |
| 主分類(lèi)號(hào): | G06F16/36 | 分類(lèi)號(hào): | G06F16/36;G06F40/211;G06F40/253;G06F40/295;G06F40/30;G06F16/35;G06N3/04 |
| 代理公司: | 廣州三環(huán)專(zhuān)利商標(biāo)代理有限公司 44202 | 代理人: | 麥小嬋;郝傳鑫 |
| 地址: | 510000 廣*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 面向 開(kāi)放 實(shí)體 關(guān)系 抽取 方法 裝置 終端設(shè)備 | ||
1.一種面向開(kāi)放域的實(shí)體關(guān)系抽取方法,其特征在于,所述方法包括:
獲取待處理的開(kāi)放域數(shù)據(jù);
將所述開(kāi)放域數(shù)據(jù)輸入訓(xùn)練好的實(shí)體關(guān)系抽取模型,獲得所述開(kāi)放域數(shù)據(jù)中的實(shí)體關(guān)系;其中,所述實(shí)體關(guān)系抽取模型采用有監(jiān)督學(xué)習(xí)算法進(jìn)行訓(xùn)練。
2.根據(jù)權(quán)利要求1所述的面向開(kāi)放域的實(shí)體關(guān)系抽取方法,其特征在于,所述實(shí)體關(guān)系抽取模型預(yù)先通過(guò)以下步驟進(jìn)行訓(xùn)練:
獲取原始數(shù)據(jù);
對(duì)所述原始數(shù)據(jù)進(jìn)行預(yù)處理,獲取標(biāo)注數(shù)據(jù);
根據(jù)所述標(biāo)注數(shù)據(jù)對(duì)預(yù)設(shè)的實(shí)體關(guān)系抽取模型進(jìn)行訓(xùn)練。
3.根據(jù)權(quán)利要求2所述的面向開(kāi)放域的實(shí)體關(guān)系抽取方法,其特征在于,所述對(duì)所述原始數(shù)據(jù)進(jìn)行預(yù)處理,獲取標(biāo)注數(shù)據(jù),具體包括:
對(duì)所述原始數(shù)據(jù)中的N個(gè)句子分別進(jìn)行復(fù)合句拆分,獲得M個(gè)拆分后的句子,M≥N;
對(duì)M個(gè)所述拆分后的句子分別進(jìn)行標(biāo)注,獲取M組所述標(biāo)注數(shù)據(jù)。
4.根據(jù)權(quán)利要求3所述的面向開(kāi)放域的實(shí)體關(guān)系抽取方法,其特征在于,所述標(biāo)注數(shù)據(jù)包括第一標(biāo)注序列、第二標(biāo)注序列以及第三標(biāo)注序列;
則,所述對(duì)M個(gè)所述拆分后的句子分別進(jìn)行標(biāo)注,獲取M組標(biāo)注數(shù)據(jù),具體包括:
根據(jù)預(yù)設(shè)的標(biāo)注類(lèi)別對(duì)M個(gè)所述拆分后的句子分別進(jìn)行標(biāo)注,對(duì)應(yīng)獲得M個(gè)第一標(biāo)注序列;其中,每一個(gè)所述第一標(biāo)注序列為每一個(gè)拆分后的句子中的所有實(shí)體的標(biāo)注序列;
根據(jù)預(yù)設(shè)的標(biāo)注類(lèi)別對(duì)M個(gè)所述拆分后的句子分別進(jìn)行標(biāo)注,對(duì)應(yīng)獲得M個(gè)第二標(biāo)注序列;其中,每一個(gè)所述第二標(biāo)注序列為每一個(gè)拆分后的句子中的實(shí)體關(guān)系的標(biāo)注序列;
根據(jù)預(yù)設(shè)的標(biāo)注類(lèi)別對(duì)M個(gè)所述拆分后的句子分別進(jìn)行標(biāo)注,對(duì)應(yīng)獲得M個(gè)第三標(biāo)注序列;其中,每一個(gè)所述第三標(biāo)注序列為每一個(gè)拆分后的句子中的尾實(shí)體的標(biāo)注序列。
5.根據(jù)權(quán)利要求4所述的面向開(kāi)放域的實(shí)體關(guān)系抽取方法,其特征在于,所述預(yù)設(shè)的標(biāo)注類(lèi)別為L(zhǎng)={B,I,E,O};其中,B表示實(shí)體詞首,I表示實(shí)體詞中間,E表示實(shí)體詞尾,O表示非實(shí)體詞。
6.根據(jù)權(quán)利要求3至5任一項(xiàng)所述的面向開(kāi)放域的實(shí)體關(guān)系抽取方法,其特征在于,所述對(duì)所述原始數(shù)據(jù)中的N個(gè)句子分別進(jìn)行復(fù)合句拆分,獲得M個(gè)拆分后的句子,具體包括:
根據(jù)依存句法分析器分析所述原始數(shù)據(jù)中的N個(gè)句子的結(jié)構(gòu);
基于所述結(jié)構(gòu),根據(jù)句法分析標(biāo)簽設(shè)計(jì)規(guī)則對(duì)所述原始數(shù)據(jù)中的N個(gè)句子進(jìn)行復(fù)合句拆分,獲得M個(gè)所述拆分后的句子。
7.根據(jù)權(quán)利要求6所述的面向開(kāi)放域的實(shí)體關(guān)系抽取方法,其特征在于,所述方法還包括:
對(duì)實(shí)體關(guān)系相同的拆分后的句子,進(jìn)行頭實(shí)體替換以及尾實(shí)體替換。
8.根據(jù)權(quán)利要求1所述的面向開(kāi)放域的實(shí)體關(guān)系抽取方法,其特征在于,所述訓(xùn)練好的實(shí)體關(guān)系抽取模型包括頭實(shí)體預(yù)測(cè)模塊、實(shí)體關(guān)系和尾實(shí)體聯(lián)合預(yù)測(cè)模塊;
則,所述將所述開(kāi)放域數(shù)據(jù)輸入訓(xùn)練好的實(shí)體關(guān)系抽取模型,抽取所述開(kāi)放域數(shù)據(jù)中的實(shí)體關(guān)系,具體包括:
將所述開(kāi)放域數(shù)據(jù)輸入所述頭實(shí)體預(yù)測(cè)模塊獲取第一預(yù)測(cè)標(biāo)注序列、句子特征向量以及頭實(shí)體表示向量;
將所述句子特征向量與所述頭實(shí)體表示向量拼接得到拼接向量;
將所述拼接向量輸入所述實(shí)體關(guān)系和尾實(shí)體聯(lián)合預(yù)測(cè)模塊獲取第二預(yù)測(cè)標(biāo)注序列、第三預(yù)測(cè)標(biāo)注序列;
將所述第一預(yù)測(cè)標(biāo)注序列、所述第二預(yù)測(cè)標(biāo)注序列以及所述第三預(yù)測(cè)標(biāo)注序列依次連接獲得所述開(kāi)放域數(shù)據(jù)中的實(shí)體關(guān)系。
9.一種面向開(kāi)放域的實(shí)體關(guān)系抽取裝置,其特征在于,所述裝置包括:
數(shù)據(jù)獲取模塊,用于獲取待處理的開(kāi)放域數(shù)據(jù);
關(guān)系抽取模塊,用于將所述開(kāi)放域數(shù)據(jù)輸入訓(xùn)練好的實(shí)體關(guān)系抽取模型,獲得所述開(kāi)放域數(shù)據(jù)中的實(shí)體關(guān)系;其中,所述實(shí)體關(guān)系抽取模型采用有監(jiān)督學(xué)習(xí)算法進(jìn)行訓(xùn)練。
10.一種終端設(shè)備,其特征在于,所述終端設(shè)備包括處理器、存儲(chǔ)器以及存儲(chǔ)在所述存儲(chǔ)器中且被配置為由所述處理器執(zhí)行的計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被所述處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1至8任一項(xiàng)所述的面向開(kāi)放域的實(shí)體關(guān)系抽取方法。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于廣州多益網(wǎng)絡(luò)股份有限公司;廣東利為網(wǎng)絡(luò)科技有限公司;多益網(wǎng)絡(luò)有限公司,未經(jīng)廣州多益網(wǎng)絡(luò)股份有限公司;廣東利為網(wǎng)絡(luò)科技有限公司;多益網(wǎng)絡(luò)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010540594.0/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 網(wǎng)絡(luò)實(shí)體監(jiān)控方法及裝置
- 一種實(shí)體鏈接方法及裝置
- 一種基于深度學(xué)習(xí)的實(shí)體鏈接方法
- 實(shí)體發(fā)現(xiàn)方法及裝置
- 一種數(shù)據(jù)處理方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種實(shí)體關(guān)系識(shí)別方法、裝置及設(shè)備
- 尾實(shí)體鏈接方法、裝置、服務(wù)器及存儲(chǔ)介質(zhì)
- 基于實(shí)體對(duì)齊的屬性融合方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種實(shí)體召回方法及相關(guān)裝置
- 實(shí)體表征模型的訓(xùn)練和表征方法、電子設(shè)備和存儲(chǔ)介質(zhì)
- 關(guān)系視圖
- 位置關(guān)系檢測(cè)裝置以及位置關(guān)系檢測(cè)系統(tǒng)
- 關(guān)系建模
- 關(guān)系分析方法、關(guān)系分析程序、以及關(guān)系分析裝置
- 實(shí)體關(guān)系分類(lèi)裝置和實(shí)體關(guān)系分類(lèi)方法
- 用戶(hù)關(guān)系抽取方法和用戶(hù)關(guān)系抽取系統(tǒng)
- 融合依存關(guān)系與篇章修辭關(guān)系的事件時(shí)序關(guān)系識(shí)別方法
- 開(kāi)關(guān)系統(tǒng)
- 視頻視覺(jué)關(guān)系檢測(cè)的關(guān)系片段連接方法
- 開(kāi)關(guān)系統(tǒng)





