[發明專利]一種基于UCL語義標引的知識圖譜構建方法及裝置在審
| 申請號: | 202010194484.3 | 申請日: | 2020-03-19 |
| 公開(公告)號: | CN111428047A | 公開(公告)日: | 2020-07-17 |
| 發明(設計)人: | 楊鵬;李超;紀雯;馬衛東 | 申請(專利權)人: | 東南大學 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/951;G06F40/30 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 孟紅梅 |
| 地址: | 211102 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 ucl 語義 標引 知識 圖譜 構建 方法 裝置 | ||
本發明公開了一種基于UCL語義標引的知識圖譜構建方法及裝置。本發明首先從開放鏈接數據庫中提取實體和關系,構建基礎實體庫;然后利用爬蟲爬取各大門戶網站中的新聞信息,對這些信息進行清洗解析形成UCL實體,完成實體消歧,并將UCL實體與基礎實體庫進行語義融合構建知識圖譜;最后利用改進的關系推理算法完成對知識圖譜的自動化補全,提高知識圖譜的自動化水平。本發明能夠利用UCL國家標準對互聯網信息進行規范化、細粒度語義標引,使知識圖譜所表示的語義信息更加豐富,為基于語義深度處理的內容大數據應用提供基于UCL語義標引的知識圖譜支持。
技術領域
本發明涉及一種基于UCL語義標引的知識圖譜構建方法及裝置,屬于互聯網技術領域。
背景技術
隨著互聯網的迅速普及和數字信息的爆炸式增長,一方面帶來了寶貴的信息財富,而另一方面如何從這些龐大的數據中檢索有效信息對于搜索引擎也是一個較大挑戰。傳統的搜索引擎主要通過索引網頁中的內容,匹配用戶搜索請求中的關鍵詞反饋給用戶相關的網頁鏈接,并利用網頁排序算法對結果進行排序。這種模式給互聯網信息檢索帶來了極大便利,但是返回結果過于單一,用戶必須點進網頁鏈接做二次檢索才能獲取所需信息。互聯網用戶希望當搜索時能夠獲取準確的、直接的和豐富的信息,搜索引擎需要提供智能語義搜索服務。
知識圖譜可以將互聯網的信息表達成更接近人類認知世界的形式,提供了一種更好的組織、管理和利用海量信息的方式,目前已經廣泛應用于智能語義搜索中。目前國內外關于知識圖譜的相關研究已經取得了豐富的成果,對本發明的研究工作具有借鑒意義,但在知識圖譜構建上仍有較大提升空間。首先,目前知識圖譜的知識表示方式主要是以較為簡單的三元組形式將結構化數據組織,這樣便于機器處理,但是丟失了實體的“上下文信息”,降低知識圖譜語義表達的準確性。另外,目前關系推理算法主要基于Transe算法進行改進,但是這類算法忽略了實體與關系在語義上的多樣性,缺乏對“一對多”和“多對一”類型關系的有效處理,從而大大降低了關系推理的準確性。
發明內容
發明目的:針對現有技術中存在的問題與不足,本發明提出了一種基于UCL語義標引的知識圖譜構建方法及裝置,能夠對互聯網信息進行規范化、細粒度標引,使知識圖譜所表示的語義信息更豐富,同時能夠完善傳統關系推理算法在處理“一對多”和“多對一”類型關系時,如果對于關系兩側實體分別實施替換干擾得到的推理性能表現不均衡的問題。
技術方案:為實現上述發明目的,本發明所述的一種基于UCL語義標引的知識圖譜構建方法,利用爬蟲爬取各大門戶網站中的新聞信息,對這些信息進行清洗解析形成UCL實體,并從百度百科、維基百科和wikidata等開放鏈接數據中提取實體和關系構建基礎實體庫,將UCL實體與該基礎實體庫進行語義融合最終構建知識圖譜,最后利用改進的關系推理算法完成對知識圖譜的自動化補全,提高知識圖譜的自動化水平。具體步驟如下:
(1)構建基礎實體庫:從開放鏈接數據庫中提取實體、實體基礎屬性和實體間關聯關系構建基礎實體庫。
(2)構建初始UCL知識圖譜:對獲取的新聞信息進行清洗、語義解析標引成UCL實體。并根據新聞的5W特性,將UCL實體與基礎實體庫中普通實體間的關系分類,然后分別計算各普通實體在UCL實體中的語義重要程度,從而得到UCL實體與普通實體間的關聯度,將UCL實體融入基礎實體庫,完成初始UCL知識圖譜的構建。
(3)改進關系推理算法完成對UCL知識圖譜的自動化補全:根據普通實體與UCL實體間的關聯關系,將UCL實體作為普通實體間關系的“上下文”,利用關系的語義環境區分實體間的關系,據此在Transe算法模型中引入屬于特定關系的上下文環境變量訓練得到詞向量,利用訓練好的詞向量模型對知識圖譜補全,提高知識圖譜的自動化程度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東南大學,未經東南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010194484.3/2.html,轉載請聲明來源鉆瓜專利網。





