[發明專利]中文自然語言實體語義關系的自動辨識算法在審
| 申請號: | 201810796558.3 | 申請日: | 2018-07-19 |
| 公開(公告)號: | CN109062894A | 公開(公告)日: | 2018-12-21 |
| 發明(設計)人: | 于立洋 | 申請(專利權)人: | 南京源成語義軟件科技有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 南京知識律師事務所 32207 | 代理人: | 李吉寬 |
| 地址: | 211500 江蘇省*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 實體關系 算法 自然語言 實體語義 自動辨識 語句庫 中文 辨識 語句 文本 自然語言文本 讀取 結構化數據 辨識模型 基于機器 機器學習 人工標注 實體集合 語言文本 原始自然 自動學習 三元組 文本庫 構建 建模 標注 圖譜 搜索 | ||
本發明公開了中文自然語言實體語義關系的自動辨識算法。首先從輸入的原始自然語言文本中提取“實體關系”訓練用文本,并存入“實體關系”訓練用文本庫,然后從該庫中讀取文本,提取實體集合,辨識出相關實體對,構造“實體關系”語句,并存入訓練用“實體關系”語句庫,對“實體關系”語句庫中的每個語句進行人工標注,對標注后的“實體關系”語句庫進行機器學習并建模,至此“實體關系”辨識模型得以建立。本發明還提出一種利用上述中文自然語言實體語義關系的自動辨識算法對給定的中文自然語言文本生成“實體關系“三元組的算法。本發明基于機器自動學習的算法來辨識和構建實體之間的關系,突破和避免了中文知識圖譜只能搜索結構化數據的限制。
技術領域
本發明屬于自然語言的識別和機器學習技術領域,具體涉及一種中文自然語言實體語義關系的自動辨識算法。
背景技術
近年來,隨著互聯網的發展,網絡數據內容呈現爆炸式增長的態勢。由于互聯網內容的大規模、異質多元、組織結構松散的特點,給人們有效獲取信息和知識提出了挑戰。知識圖譜(Knowledge Graph)以其強大的語義處理能力和開放組織能力,為互聯網時代的知識化組織和智能應用奠定了基礎。
具體說來,知識圖譜旨在描述真實世界中存在的各種實體(概念)及其關系,進而構成一張巨大的語義網絡圖,圖中以節點表示實體(概念),邊則由屬性或關系構成。現在的知識圖譜已被用來泛指各種大規模的知識庫。
大規模知識圖譜的構建,作為知識圖譜的起步,在學術界和工業界引起了足夠的注意力。其中,知識提取技術則是知識圖譜構建的第一步。而知識提取技術常常要求從一些公開的、非結構化的文本中提取出實體、關系、屬性等知識要素。
在中文知識圖譜的構建中,非結構化的文本常常表現為中文自然語言文本。這樣,中文自然語言的理解就成構建中文知識圖譜的重要工具。到目前為止,在中文自然語言的理解方面已經取得了許多成績。例如中文自然語言的自動分詞、詞性標注、句法分析、實體提取等等,國內外都有許多軟件可以支持。盡管這些技術從很大程度上加強了中文知識圖譜的構建,但是到目前為止,如何辨識實體之間的關系仍然是中文自然語言理解中一個沒有解決的關鍵問題,也是阻礙中文知識圖譜構建的關鍵技術。
為了進一步理解這個關鍵技術,需要先來理解知識圖譜中實體的概念。在知識圖譜中,實體可以是一個實實在在存在的事物,比如一個人、一本書、一個建筑物等等。同時,實體也可以是一個抽象的概念,比如說馬克思主義。中文自然語言的處理工具已經可以從中文自然語言文本中辨識實體,這些可以辨識的實體包括人、時間、地點、組織等等。但是,中文自然語言的處理工具沒有辦法辨識這些實體之間的關系,而實體之間的關系的辨別是構造中文知識圖譜的關鍵環節。
例如在一個中文自然語言的文本中,利用自然語言的處理工具辨識出“美國網球公開賽”(事件)和“紐約”(地點)這兩個實體,但是“美國網球公開賽”和“紐約”這兩個實體是如何關聯的卻無法得知。事實上美國網球公開賽是在紐約進行的。又比如,通過中文自然語言工具辨識出費德勒是一個人的名字,同時辨識出上海是一座城市的名字,但是自然語言工具無法辨識出費德勒與上海這座城市的關系。事實上,費德勒與上海的關系是費德勒來上海參加一年一度的大師杯網球公開賽。到目前為止,中文自然語言的理解還沒有能力分辨出這些關系,可是這些恰恰對于構建知識圖譜來說是非常重要的。
綜上所舉的例子,因為沒有能力辨識實體之間的關系,在這樣的知識圖譜基礎上搭建起來的應用系統,比如人工智能和自動應答系統,其系統能力就被極大地束縛了。假如用戶的問題是“費德勒去過哪些城市參加比賽”,所建立的知識圖譜就沒有能力回答這個問題,盡管它能夠看出來費德勒與上海、紐約有所關聯,但是它完全沒有能力辨識出與這些城市關聯的具體原因。
基于上述的困難和限制,在建立中文知識圖譜的時候,工業界避免進行實體關系的抽取。比如“百度知識圖譜”(由百度創建)建立在進行結構化數據搜索所收獲的數據上,而不進行非結構化數據(自然語言文本)的搜索。另一個著名的“搜狗知識圖譜”,也是同樣只搜索結構化數據,而避免非結構化數據的搜索。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京源成語義軟件科技有限公司,未經南京源成語義軟件科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810796558.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于全文注意力機制的商品名稱識別方法
- 下一篇:一種智能語義處理方法





