[發明專利]一種基于跨語言知識鏈接的領域本體質量控制方法在審
| 申請號: | 201910547138.6 | 申請日: | 2019-06-24 |
| 公開(公告)號: | CN110442727A | 公開(公告)日: | 2019-11-12 |
| 發明(設計)人: | 肖清林 | 申請(專利權)人: | 廈門美域中央信息科技有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06N5/02;G06Q10/06;G06Q50/26 |
| 代理公司: | 北京勁創知識產權代理事務所(普通合伙) 11589 | 代理人: | 王志敏 |
| 地址: | 361008 福建省廈門市軟件園*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語言知識 領域本體 語言模型 關聯度 質量控制 構建 鏈接 等價 知識庫 語言 關聯 校正 對齊模塊 翻譯模塊 篩選模塊 輸入模塊 可信度 多語言 詞條 剔除 抽取 預測 配合 | ||
一種基于跨語言知識鏈接的領域本體質量控制方法,方法步驟包括:知識的收集,構建知識庫;在知識庫中抽取關鍵詞條,構建多個單語言本體;跨語言模型的構建;跨語言模型包括輸入模塊、翻譯模塊、篩選模塊和對齊模塊;對不同本體之間跨語言等價關聯的關聯度進行訓練;對不同本體間跨語言等價關聯的關聯度進行預測;對具有可信度較低關聯度的本體進行剔除并校正;對領域本體質量控制。本發明建立跨語言模型,在跨語言知識鏈接的基礎上對不同本體之間進行跨語言等價關聯,再配合不斷校正,改善了多語言知識的大量缺失的情況,達到對不同語言知識的本體質量進行控制的目的。
技術領域
本發明涉及本體質量控制方法領域,尤其涉及一種基于跨語言知識鏈接的領域本體質量控制方法。
背景技術
跨語言知識鏈接是指在描述相同內容的不同語言的在線百科文章之間建立聯系。目前在線百科中多語言信息框大量缺失,主要以中文為主,不同語言的本體質量差異較大,匹配度低,影響了人們學習。
為解決上述問題,本申請中提出一種基于跨語言知識鏈接的領域本體質量控制方法。
發明內容
(一)發明目的
為解決背景技術中存在的技術問題,本發明提出一種基于跨語言知識鏈接的領域本體質量控制方法,本發明建立跨語言模型,在跨語言知識鏈接的基礎上對不同本體之間進行跨語言等價關聯,再配合不斷校正,改善了多語言知識的大量缺失的情況,達到對不同語言知識的本體質量進行控制的目的。
(二)技術方案
為解決上述問題,本發明提供了一種基于跨語言知識鏈接的領域本體質量控制方法,方法步驟包括:
S1、知識的收集,構建知識庫;
S2、在知識庫中抽取關鍵詞條,構建多個單語言本體;
S3、跨語言模型的構建;跨語言模型包括輸入模塊、翻譯模塊、篩選模塊和對齊模塊;
S4、對不同本體之間跨語言等價關聯的關聯度進行訓練;
S5、對不同本體間跨語言等價關聯的關聯度進行預測;
S6、對具有可信度較低關聯度的本體進行剔除并校正;
S7、對領域本體質量控制。
優選的,在S1中,知識庫為中文知識庫。
優選的,在S2中,關鍵詞條包括時間、地點、人物和事件。
優選的,在S2中,構建多個單語言本體所依據的函數為:
g1=v×v→[0,1]
g2=v'×v'→[0,1],輸出結果表示兩個本體之間存在正確語義關系的概率。
優選的,在S3中,輸入模塊用于單語言本體的輸入。
優選的,在S3中,翻譯模塊將單語言本體的多個關鍵詞條自動翻譯成多個語言,構成多語言本體。
優選的,在S3中,篩選模塊對多語言本體進行篩選、排序。
優選的,在S3中,對齊模塊用于篩選后的多語言本體的匹配、對齊和提取,并通過跨語言知識鏈接在多語言本體之間產生跨語言等價關聯
優選的,在S3中,實現多語言本體的匹配的函數為:
f=X×X'→[0,1],輸出結果表示兩個本體之間存在正確的等價關聯的概率。
優選的,在S6中,采用啟發式校正方法。
本發明的上述技術方案具有如下有益的技術效果:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門美域中央信息科技有限公司,未經廈門美域中央信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910547138.6/2.html,轉載請聲明來源鉆瓜專利網。





