[發明專利]一種以人為中心的基本知識體系構建方法在審
| 申請號: | 202210084386.3 | 申請日: | 2022-01-24 |
| 公開(公告)號: | CN114417014A | 公開(公告)日: | 2022-04-29 |
| 發明(設計)人: | 胡飛雪;張振海;劉丹丹;顏靖義 | 申請(專利權)人: | 同方知網(北京)技術有限公司;同方知網數字出版技術股份有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F40/30;G06N5/02 |
| 代理公司: | 北京天奇智新知識產權代理有限公司 11340 | 代理人: | 陳新勝 |
| 地址: | 100084 北京市海淀區清華園清華*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 人為 中心 基本知識 體系 構建 方法 | ||
本發明公開了一種以人為中心的基本知識體系構建方法,包括構建語義知識框架;從已有詞表或詞典中選取相應詞條;確定并標注詞條的語義體系標簽;生成以詞條、詞條信息和語義體系標簽為內容的語義知識體系;將所構建的語義知識體系運用于文本語義標注,服務于文本自然語言理解和自然語言處理。
技術領域
本發明涉及本體構建和自然語言處理技術領域,尤其涉及一種以人為中心的基本知識體系構建方法。
背景技術
隨著自然語言處理和人工智能技術的發展,人們也越來越認識到語義詞典、知識圖譜、知識庫和知識本體構建在自然語言處理和自然語言理解中的重要性。知識庫和本體本身,不僅是機器理解分析自然語言文本的背景語境基礎,也是將語義信息引入機器理解和分析處理自然語言的關鍵。
知識庫發展,從20世紀提出以來,早期WordNet(英文)、HowNet(中文)和其他一些知識庫或知識本體多以人工構建為主,以同義詞、詞義信息分析等標注集合,數據準確,質量較高,但規模較小。
也有不少方案結合了語言學理論、語法信息等來進行數據標注和知識庫構建,偏向語言學角度的知識庫如CLKB的詞典(詞語、術語、同義詞等)、語法信息和語料庫綜合型語言知識庫等,但這類知識庫僅標注詞性、語法等,詞匯的語義信息較少。
近些年來的通用一般領域或全領域知識庫、知識圖譜、知識本體等,大多基于網絡百科、海量網頁等數據,多與互聯網機構如搜索引擎、問答等相聯系,依靠數據抓取、社區編輯和多種機器提取方法構建,往往規模巨大。依賴百度百科、維基百科、互動百科等網絡百科和其他網頁數據的知識庫中,大規模實體都是實例類專名,關系為各類百科標簽屬性屬性值(信息框、標簽、屬性信息、上下位實例、同義)等。實體名和關系數目動輒千萬級到億級。
早期人工構建的語義詞典、知識庫大多規模受限,基于語言學語法信息的知識庫語法結構和類別較少應用于語義理解,近年來依靠百科網頁等大規模自動構建的知識庫語義類別多為實體名??偟膩碚f要么詞條規模和覆蓋面受限,要么語義結構類別較為單一,我們認為,人工智能的實現應以模擬人類認識世界的方式,建立人類基本語義認知體系和世界觀人生觀價值觀。
發明內容
為解決上述技術問題,本發明的目的是提供一種以人為中心的基本知識體系構建方法。
本發明的目的通過以下的技術方案來實現:
一種以人為中心的基本知識體系構建方法,包括:
步驟A構建語義知識框架;
步驟B從已有詞表或詞典中選取相應詞條;
步驟C確定并標注詞條的語義體系標簽;
步驟D生成以詞條、詞條信息和語義體系標簽為內容的語義知識體系;
步驟E將所構建的語義知識體系運用于文本語義標注。
與現有技術相比,本發明的一個或多個實施例可以具有如下優點:
針對現有的知識庫或知識本體與人類認知體系的差異,如詞條規?;蛘Z義覆蓋面有限、語義結構不成體系等,結合人對世界、人生的基本認識和價值判斷,從人的世界觀、人生觀、價值觀出發,設計構建了符合人類基本認知體系的語義知識框架,解決了語義體系框架的問題,語義覆蓋全面,基本涵蓋人對主客觀世界基本認知和判斷的方方面面,在大類完整,小類盡量全面的情況下,也可根據語料和知識處理實際來增改小類;運用該知識體系框架對詞庫詞條進行語義體系標簽的標注,可以達到提綱挈領、綱舉目張的效果,詞條數量規模不受限制,力求語義體系結構下各類語義的詞條應標盡標;所形成的語義知識體系和語義結構立體全面,詞條數量規模不受限,語義類別豐富。人工介入在認知框架設計和語義體系標簽標注中也起到了保證語義體系完整性和詞條語義信息準確性的作用。最終形成的語義知識體系能夠促進機器從語義維度上理解和分析處理自然語言文本。
附圖說明
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于同方知網(北京)技術有限公司;同方知網數字出版技術股份有限公司,未經同方知網(北京)技術有限公司;同方知網數字出版技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210084386.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:泵體結構及凈水設備
- 下一篇:一種廣譜土壤重金屬鈍化菌劑及其制備方法與應用





