[發(fā)明專利]一種面向文本的知識單元關(guān)聯(lián)關(guān)系挖掘方法有效
| 申請?zhí)枺?/td> | 201110312882.1 | 申請日: | 2011-10-15 |
| 公開(公告)號: | CN102436480A | 公開(公告)日: | 2012-05-02 |
| 發(fā)明(設(shè)計(jì))人: | 劉均;鄭慶華;葉俊挺 | 申請(專利權(quán))人: | 西安交通大學(xué) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 西安通大專利代理有限責(zé)任公司 61200 | 代理人: | 朱海臨 |
| 地址: | 710049 *** | 國省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 面向 文本 知識 單元 關(guān)聯(lián) 關(guān)系 挖掘 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及一種網(wǎng)絡(luò)數(shù)據(jù)的檢索方法,特別涉及一種面向文本的知識單元關(guān)聯(lián)關(guān)系挖掘方法。
背景技術(shù)
隨著計(jì)算機(jī)網(wǎng)絡(luò)的迅速發(fā)展和日益普及,因特網(wǎng)上的信息以指數(shù)增長。信息時(shí)代帶來了海量的數(shù)字化文本,日益積累的數(shù)據(jù)使得信息的獲取越來越困難。人們的時(shí)間和精力是有限的,面對如此巨大的數(shù)字資源,無法從大量數(shù)據(jù)中迅速而準(zhǔn)確地找到有用的信息,因而需要自動化的抽取工具,來幫助人們檢索海量數(shù)據(jù)。申請人經(jīng)過查新,沒有找到面向文本的知識單元關(guān)聯(lián)關(guān)系挖掘方法的專利,因而檢索了三篇與關(guān)系挖掘相關(guān)的專利,它們分別是:
1.Relation?extraction?system[International?Publication?Number:WO2009/017464A1];
2.Method?and?a?system?for?semantic?relation?extraction[Publication?Number:US?2009/0019032?A1];
3.一種詞關(guān)系挖掘方法和裝置[申請公布號:CN?102129427?A]。
在專利1中,發(fā)明人提出一種將有監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)相結(jié)合的方法,抽取出文本間的關(guān)系,在專利2中,發(fā)明人提出一種基于概率統(tǒng)計(jì)模型抽取出兩個詞條間的語義關(guān)系,在專利3中,發(fā)明人提出一種通過計(jì)算候選關(guān)系、關(guān)系頻度以及詞條的詞頻計(jì)算互信息,根據(jù)互信息對關(guān)系進(jìn)行排序,將符合預(yù)設(shè)閾值的關(guān)系作為詞條關(guān)系輸出。上述三種相關(guān)專利發(fā)明所述方法都需要對所有可能的關(guān)系對進(jìn)行分類,存在計(jì)算量大、計(jì)算復(fù)雜度高的缺點(diǎn)。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種面向文本的知識單元關(guān)聯(lián)關(guān)系挖掘方法,通過挖掘文本間的關(guān)系、篩選候選知識單元對和知識單元特征抽取的方法,對文本中的知識單元關(guān)聯(lián)關(guān)系進(jìn)行挖掘,從而可以大大減少計(jì)算量,降低計(jì)算復(fù)雜度。所述知識單元是指具有完備知識表達(dá)的最小單元。所述知識單元關(guān)聯(lián)關(guān)系是指知識單元間內(nèi)在的語義關(guān)系。
為達(dá)到以上目的,本發(fā)明是采取如下技術(shù)方案予以實(shí)現(xiàn)的:
一種面向文本的知識單元關(guān)聯(lián)關(guān)系挖掘方法,包括如下步驟:
(1)文本關(guān)聯(lián)挖掘:對文本集合進(jìn)行聚類,找到具有相似主題的文本對,并利用核心術(shù)語分布的不對稱性,挖掘文本間的線性關(guān)聯(lián)關(guān)系;
(2)生成候選知識單元對:利用知識單元關(guān)聯(lián)關(guān)系的局部性,產(chǎn)生候選的知識單元對;
(3)特征選擇及知識單元關(guān)聯(lián)關(guān)系挖掘:基于知識單元對的術(shù)語詞頻、距離和語義類型特征,使用SVM分類器將候選的知識單元對進(jìn)行二值分類,挖掘知識單元間的關(guān)聯(lián)關(guān)系。
其中,步驟(1)所述挖掘文本間的線性關(guān)聯(lián)關(guān)系按照如下過程:
1)依據(jù)向量空間模型VSM,將文本轉(zhuǎn)換為對應(yīng)的術(shù)語向量;
2)根據(jù)歐式距離的定義,計(jì)算任意兩個術(shù)語向量之間的距離;
3)基于術(shù)語向量之間的距離,使用AGNES聚類方法對文本集合進(jìn)行聚類,在AGNES聚類過程中,以下三種情況生成文本對k=(ti,tj):
a.如果文本ti與文本tj的術(shù)語向量距離最小,將文本ti和文本tj合并為一個簇;
b.如果文本ti與文本tj的術(shù)語向量距離最小,且ti屬于簇S中,將文本tj放入簇S中;
c.如果文本ti與文本tj的術(shù)語向量距離最小,且ti屬于簇S,tj屬于簇S′,將簇S和簇S′合并為一個新的簇;
當(dāng)集合中只存在一個簇,且所有文本都在此簇中,則聚類過程結(jié)束;
4)在文本線性關(guān)聯(lián)關(guān)系已知的文本集合T中,文本tm線性關(guān)聯(lián)于文本tn,計(jì)算其術(shù)語分布特征值F(m,n);
術(shù)語分布特征值F(m,n)的定義如下:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西安交通大學(xué),未經(jīng)西安交通大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110312882.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲介質(zhì)
- 文本生成方法、裝置和電子設(shè)備





