[發(fā)明專利]一種基于依存樹的中文實(shí)體關(guān)系挖掘的控制裝置有效
| 申請?zhí)枺?/td> | 201210349668.8 | 申請日: | 2012-09-18 |
| 公開(公告)號: | CN102968431B | 公開(公告)日: | 2018-08-10 |
| 發(fā)明(設(shè)計(jì))人: | 鄭珊珊;林欣 | 申請(專利權(quán))人: | 華東師范大學(xué) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 隆天知識產(chǎn)權(quán)代理有限公司 72003 | 代理人: | 張龍哺;馮志云 |
| 地址: | 200241 *** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 依存 中文 實(shí)體 關(guān)系 挖掘 控制 裝置 | ||
1.一種在數(shù)據(jù)挖掘系統(tǒng)中基于依存樹的中文實(shí)體關(guān)系挖掘的控制裝置,其特征在于,包括如下裝置:
輸入裝置,其用于輸入種子元組;
模板生成裝置,其基于依存樹解析根據(jù)輸入的種子元組生成與所述元組相適應(yīng)的元組模板,所述模板生成裝置包括:
最小子樹確定裝置,其用于根據(jù)所述種子元組獲取共現(xiàn)句生成的依存樹中,確定連接所述種子元組中實(shí)體以及關(guān)系詞的最小子樹,所述最小子樹確定裝置包括:
元組共現(xiàn)句抽取裝置,其用于根據(jù)所述種子元組中的元素抽取共現(xiàn)句集合;
第一依存樹解析裝置,其用于對所述共現(xiàn)句集合中每一個共現(xiàn)句生成一個依存樹,并對每一個依存樹進(jìn)行解析,獲取所述依存樹的結(jié)構(gòu);以及
最小子樹生成裝置,其用于根據(jù)所述依存樹解析裝置獲取的每一個依存樹結(jié)構(gòu)生成連接所述種子元組的實(shí)體及其關(guān)系詞的最小子樹;
最小子樹擴(kuò)展裝置,其用于根據(jù)預(yù)定擴(kuò)展規(guī)則對所述最小子樹進(jìn)行擴(kuò)展;
最小子樹結(jié)構(gòu)抽取裝置,其用于抽取所述擴(kuò)展后的最小子樹的結(jié)構(gòu);以及
元組模板生成裝置,其用于根據(jù)上述擴(kuò)展后最小子樹的結(jié)構(gòu)生成元組模板;
模板匹配裝置,其基于依存樹解析以及上述元組模板生成裝置生成的元組模板生成中間元組并將所述中間元組作為種子元組輸入上述元組模板生成裝置;以及
輸出裝置,其用于輸出所有中間元組作為新元組集合。
2.根據(jù)權(quán)利要求1所述的控制裝置,其特征在于,所述依存樹結(jié)構(gòu)包括:
-連接兩節(jié)點(diǎn)的邊,由該邊連接的兩個節(jié)點(diǎn)的關(guān)系、該邊發(fā)出的節(jié)點(diǎn)以及該邊指向的節(jié)點(diǎn)描述;
-邊發(fā)出的節(jié)點(diǎn),由該節(jié)點(diǎn)在其所在句子中的位置描述;以及
-邊指向的節(jié)點(diǎn),由該節(jié)點(diǎn)在其所在句子中的位置描述。
3.根據(jù)權(quán)利要求1所述的控制裝置,其特征在于,所述種子元組與所述中間元組至少包括實(shí)體一,實(shí)體二以及所述實(shí)體一和實(shí)體二的關(guān)系詞。
4.根據(jù)權(quán)利要求1所述的控制裝置,其特征在于,所述最小子樹擴(kuò)展裝置將預(yù)先定義所述依存樹擴(kuò)展的節(jié)點(diǎn)和邊的類型作為所述預(yù)定擴(kuò)展規(guī)則。
5.根據(jù)權(quán)利要求4所述的控制裝置,其特征在于,所述共現(xiàn)句的獲取由所述種子元組的實(shí)體及其關(guān)系作為搜索關(guān)鍵詞的搜索結(jié)果中的標(biāo)題以及摘要生成。
6.根據(jù)權(quán)利要求5所述的控制裝置,所述最小子樹確定裝置使用最短路徑算法獲取所述種子元組中的兩個實(shí)體之間的最短路徑和一個實(shí)體與關(guān)系詞的最短路徑,再結(jié)合這兩類路徑確定一棵連接所述種子元組中兩個實(shí)體和關(guān)系詞最小子樹。
7.根據(jù)權(quán)利要求6所述的控制裝置,所述依存樹的邊的長度依據(jù)不同節(jié)點(diǎn)間關(guān)系的重要性預(yù)先定義。
8.根據(jù)權(quán)利要求1至7任一項(xiàng)所述的控制裝置,其特征在于,所述元組模板由以下元素描述:
-實(shí)體關(guān)系,由實(shí)體關(guān)系的具體含義、實(shí)體一以及實(shí)體二所描述;
-實(shí)體一,由與其相適應(yīng)地所述種子元組中實(shí)體類型以及該實(shí)體類型在所述種子元組中的位置描述;以及
-實(shí)體二,由與其相適應(yīng)地所述種子元組中實(shí)體類型以及該實(shí)體類型在所述種子元組中的位置描述。
9.根據(jù)權(quán)利要求1至7任一項(xiàng)所述的控制裝置,其特征在于,所述模板匹配裝置包含以下裝置:
模板共現(xiàn)句抽取裝置,其用于根據(jù)所述元組模板中的詞作為搜索關(guān)鍵詞,獲取包含所述元組模板中所有詞的模板共現(xiàn)句集合;
第二依存樹解析裝置,其用于對所述元組模板共現(xiàn)句集合中每一個共現(xiàn)句生成一個依存樹,并對每一個依存樹進(jìn)行解析,獲取所述依存樹的結(jié)構(gòu);
候選元組抽取裝置,用于根據(jù)將所述第二依存樹解析模塊獲得的所述依存樹和所述模板相比較,獲得候選元組;以及
候選元組實(shí)體類型驗(yàn)證模塊,用于根據(jù)抽取出所述候選元組的所述模板中所述種子元組的實(shí)體類型,確認(rèn)候選元組的正確性,過濾不符合實(shí)體類型的候選元組,生成中間元組。
10.一種在數(shù)據(jù)挖掘系統(tǒng)中基于依存樹的中文實(shí)體關(guān)系挖掘的控制方法,其特征在于,包括如下步驟:
a.輸入種子元組;
b.基于依存樹解析根據(jù)輸入的種子元組生成與所述元組相適應(yīng)的元組模板,所述步驟b包括:
b1.根據(jù)所述種子元組獲取共現(xiàn)句生成的依存樹中,確定連接所述種子元組中實(shí)體以及關(guān)系詞的最小子樹,所述步驟b1包括:
根據(jù)所述種子元組中的元素抽取共現(xiàn)句集合;
對所述共現(xiàn)句集合中每一個共現(xiàn)句生成一個依存樹,并對每一個依存樹進(jìn)行解析,獲取所述依存樹的結(jié)構(gòu);以及
根據(jù)所述依存樹解析裝置獲取的每一個依存樹結(jié)構(gòu)生成連接所述種子元組的實(shí)體及其關(guān)系詞的最小子樹;
b2.根據(jù)預(yù)定擴(kuò)展規(guī)則對所述最小子樹進(jìn)行擴(kuò)展;
b3.抽取所述擴(kuò)展后的最小子樹的結(jié)構(gòu);以及
b4.根據(jù)上述擴(kuò)展后最小子樹的結(jié)構(gòu)生成元組模板;
c.基于依存樹解析以及上述步驟b生成的元組模板生成中間元組;
d.輸出中間元組并將所述中間元組加入新元組集合,將所述中間元組作為所述種子元組;
e.重復(fù)執(zhí)行上述步驟a至上述步驟d,至所述元組模板或者所述中間元組不能生成;以及
f.生成新元組集合。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華東師范大學(xué),未經(jīng)華東師范大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210349668.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:供水組件及洗碗機(jī)
- 下一篇:一種配電箱結(jié)構(gòu)
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 網(wǎng)絡(luò)實(shí)體監(jiān)控方法及裝置
- 一種實(shí)體鏈接方法及裝置
- 一種基于深度學(xué)習(xí)的實(shí)體鏈接方法
- 實(shí)體發(fā)現(xiàn)方法及裝置
- 一種數(shù)據(jù)處理方法、裝置、電子設(shè)備及存儲介質(zhì)
- 一種實(shí)體關(guān)系識別方法、裝置及設(shè)備
- 尾實(shí)體鏈接方法、裝置、服務(wù)器及存儲介質(zhì)
- 基于實(shí)體對齊的屬性融合方法、裝置、設(shè)備及存儲介質(zhì)
- 一種實(shí)體召回方法及相關(guān)裝置
- 實(shí)體表征模型的訓(xùn)練和表征方法、電子設(shè)備和存儲介質(zhì)





