[發(fā)明專利]基于對(duì)稱和互逆關(guān)系統(tǒng)計(jì)的知識(shí)圖譜數(shù)據(jù)擴(kuò)展方法有效
| 申請(qǐng)?zhí)枺?/td> | 202010848473.2 | 申請(qǐng)日: | 2020-08-21 |
| 公開(公告)號(hào): | CN112115261B | 公開(公告)日: | 2022-04-26 |
| 發(fā)明(設(shè)計(jì))人: | 應(yīng)堅(jiān)超;楊柏林;蒲飛 | 申請(qǐng)(專利權(quán))人: | 浙江工商大學(xué) |
| 主分類號(hào): | G06F16/35 | 分類號(hào): | G06F16/35;G06F16/36 |
| 代理公司: | 杭州奧創(chuàng)知識(shí)產(chǎn)權(quán)代理有限公司 33272 | 代理人: | 王佳健 |
| 地址: | 310018 浙江*** | 國(guó)省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 對(duì)稱 關(guān)系 統(tǒng)計(jì) 知識(shí) 圖譜 數(shù)據(jù) 擴(kuò)展 方法 | ||
本發(fā)明公開了一種基于對(duì)稱和互逆關(guān)系統(tǒng)計(jì)的知識(shí)圖譜數(shù)據(jù)擴(kuò)展方法。本發(fā)明首先對(duì)其進(jìn)行查重刪減與信息脫敏簡(jiǎn)化并編成字典;其次,通過二維矩陣儲(chǔ)存對(duì)稱關(guān)系與互逆關(guān)系三元組的可靠的成對(duì)數(shù)目,并計(jì)算符合特殊關(guān)系的三元組百分比,得到特殊關(guān)系矩陣表;然后,設(shè)置有效閾值,百分比超過閾值的關(guān)系(關(guān)系對(duì))認(rèn)定為完全對(duì)稱(互逆)關(guān)系,可以創(chuàng)建在該關(guān)系(關(guān)系對(duì))下未成對(duì)的三元組以擴(kuò)展數(shù)據(jù)集。本發(fā)明采用了全新的基于對(duì)稱關(guān)系和互逆關(guān)系統(tǒng)計(jì)推理的數(shù)據(jù)擴(kuò)展方法,直接并有效增加了數(shù)據(jù)集數(shù)量,挖掘了知識(shí)圖譜隱藏的信息,提升了知識(shí)圖譜表示學(xué)習(xí)模型訓(xùn)練效果。
技術(shù)領(lǐng)域
本發(fā)明屬于知識(shí)圖譜領(lǐng)域,具體涉及一種基于對(duì)稱和互逆關(guān)系統(tǒng)計(jì)的知識(shí)圖譜數(shù)據(jù)擴(kuò)展方法。
背景技術(shù)
知識(shí)系統(tǒng)是由人類知識(shí)結(jié)構(gòu)化重新組織而成,例如WordNet語言知識(shí)庫(kù)、Freebase世界知識(shí)庫(kù)等。知識(shí)庫(kù)是推動(dòng)人工智能學(xué)科發(fā)展和支撐智能信息服務(wù)應(yīng)用(如智能搜索、智能問答、個(gè)性化推薦等)的重要基礎(chǔ)技術(shù)。知識(shí)庫(kù)主要描述的是現(xiàn)實(shí)客觀世界中實(shí)體間的關(guān)系。這些知識(shí)蘊(yùn)藏在無(半)結(jié)構(gòu)的互聯(lián)網(wǎng)信息中,而知識(shí)庫(kù)則是有結(jié)構(gòu)的。因此,知識(shí)庫(kù)的主要研究目標(biāo)是:從無(半)結(jié)構(gòu)的互聯(lián)網(wǎng)信息中獲取有結(jié)構(gòu)知識(shí),自動(dòng)融合構(gòu)建知識(shí)庫(kù)、服務(wù)知識(shí)推理等相關(guān)應(yīng)用。
知識(shí)表示是知識(shí)獲取與應(yīng)用的基礎(chǔ),因此知識(shí)表示學(xué)習(xí)問題是貫穿知識(shí)庫(kù)的構(gòu)建與應(yīng)用全過程的關(guān)鍵問題。人們通常以網(wǎng)絡(luò)的形式組織知識(shí)庫(kù)中的知識(shí),網(wǎng)絡(luò)中每個(gè)節(jié)點(diǎn)代表實(shí)體(人名、地名、機(jī)構(gòu)名、概念等),而每條連邊則代表實(shí)體間的關(guān)系。因此,大部分知識(shí)往往可以用三元組(實(shí)體1,關(guān)系,實(shí)體2)來表示,對(duì)應(yīng)著知識(shí)庫(kù)網(wǎng)絡(luò)中的一條連邊及其連接的2個(gè)實(shí)體.這是知識(shí)庫(kù)的通用表示方式。
然而,基于網(wǎng)絡(luò)形式的知識(shí)表示存在計(jì)算效率低下、數(shù)據(jù)稀疏的問題,缺乏可學(xué)習(xí)性和可計(jì)算性。獨(dú)熱表示是一種始發(fā)的、簡(jiǎn)單的數(shù)據(jù)表示方案,該方案將研究對(duì)象表示為向量,只是該向量只有某一維非零,其他維度上的值均為0。但是獨(dú)熱表示的缺點(diǎn)也非常明顯。獨(dú)熱表示方案假設(shè)所有對(duì)象都是相互獨(dú)立的。也就是說,在獨(dú)熱表示空間中,所有對(duì)象的向量都是相互正交的,通過余弦距離或歐氏距離計(jì)算的語義相似度均為0。這顯然是不符合實(shí)際情況的,會(huì)丟失大量有用信息。近年來,以深度學(xué)習(xí)為代表的表示學(xué)習(xí)技術(shù)逐漸興起,在語音識(shí)別、圖像分析和自然語言處理領(lǐng)域獲得廣泛關(guān)注。表示學(xué)習(xí)旨在將研究對(duì)象的語義信息表示為稠密低維實(shí)值向量。在該低維向量空間中,2個(gè)對(duì)象距離越近則說明其語義相似度越高。
知識(shí)表示學(xué)習(xí)是面向知識(shí)庫(kù)中的實(shí)體和關(guān)系進(jìn)行表示學(xué)習(xí),可以在低維空間中高效計(jì)算實(shí)體和關(guān)系的語義聯(lián)系,有效解決數(shù)據(jù)稀疏問題,使知識(shí)獲取、融合和推理的性能得到顯著提升。那么能否對(duì)知識(shí)進(jìn)行更好的訓(xùn)練使其達(dá)到更好的語義表達(dá)效果成為了知識(shí)表示學(xué)習(xí)的關(guān)鍵。目前絕大多數(shù)的開放域知識(shí)圖譜在內(nèi)容表達(dá)上都不完整,在訓(xùn)練表達(dá)模型時(shí),正樣本的不足會(huì)直接影響知識(shí)表示的準(zhǔn)確性。而知識(shí)圖譜是具有可推理性的,若能通過合理的方法完善知識(shí)圖譜的內(nèi)容或結(jié)構(gòu),將直接提高模型的表示效果,從而使知識(shí)的向量表示更加符合語義關(guān)系,進(jìn)而提高在語義搜索、關(guān)系抽取、自動(dòng)問答等應(yīng)用上的效能。
發(fā)明內(nèi)容
本發(fā)明針對(duì)當(dāng)前知識(shí)圖譜建模訓(xùn)練數(shù)據(jù)的不足,提供了一種基于對(duì)稱和互逆關(guān)系統(tǒng)計(jì)的知識(shí)圖譜數(shù)據(jù)擴(kuò)展方法。
本發(fā)明方法具體是:
步驟1、實(shí)體關(guān)系標(biāo)注
(1.1)根據(jù)待處理的知識(shí)圖譜文本數(shù)據(jù),使用相應(yīng)的標(biāo)注工具將文本中涉及的實(shí)體、實(shí)體之間的關(guān)系標(biāo)注出來,得到知識(shí)圖譜中的實(shí)體、關(guān)系構(gòu)成。
(1.2)整理從各類文本中獲得的所有實(shí)體與關(guān)系,對(duì)其進(jìn)行去重和實(shí)體對(duì)齊處理。
(1.3)獲得實(shí)體和關(guān)系的知識(shí)庫(kù)表示形式RDF,即以三元組(實(shí)體1,關(guān)系,實(shí)體2)的方式保存。
步驟2、三元組集清洗
(2.1)在已有三元組集合的情況下,對(duì)三元組進(jìn)行查重和結(jié)構(gòu)檢驗(yàn),將重復(fù)出現(xiàn)的三元組刪去,保證每一個(gè)三元組的獨(dú)立性和完整性。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江工商大學(xué),未經(jīng)浙江工商大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010848473.2/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 關(guān)系視圖
- 位置關(guān)系檢測(cè)裝置以及位置關(guān)系檢測(cè)系統(tǒng)
- 關(guān)系建模
- 關(guān)系分析方法、關(guān)系分析程序、以及關(guān)系分析裝置
- 實(shí)體關(guān)系分類裝置和實(shí)體關(guān)系分類方法
- 用戶關(guān)系抽取方法和用戶關(guān)系抽取系統(tǒng)
- 融合依存關(guān)系與篇章修辭關(guān)系的事件時(shí)序關(guān)系識(shí)別方法
- 開關(guān)系統(tǒng)
- 視頻視覺關(guān)系檢測(cè)的關(guān)系片段連接方法
- 開關(guān)系統(tǒng)
- 統(tǒng)計(jì)系統(tǒng)、統(tǒng)計(jì)裝置和統(tǒng)計(jì)方法
- 人數(shù)統(tǒng)計(jì)方法和人數(shù)統(tǒng)計(jì)系統(tǒng)
- 統(tǒng)計(jì)物體數(shù)量的統(tǒng)計(jì)系統(tǒng)
- 網(wǎng)絡(luò)處理器的統(tǒng)計(jì)計(jì)數(shù)方法
- 統(tǒng)計(jì)信息上報(bào)方法及裝置
- 稿件統(tǒng)計(jì)方法和稿件統(tǒng)計(jì)系統(tǒng)
- 數(shù)據(jù)統(tǒng)計(jì)方法及裝置
- 獲取數(shù)據(jù)的統(tǒng)計(jì)狀態(tài)的方法及裝置
- 信息統(tǒng)計(jì)方法和信息統(tǒng)計(jì)裝置
- 電量統(tǒng)計(jì)系統(tǒng)及電量統(tǒng)計(jì)方法





