[發(fā)明專利]一種基于知識圖譜的命名實體識別方法在審
| 申請?zhí)枺?/td> | 202010071248.2 | 申請日: | 2020-01-21 |
| 公開(公告)號: | CN111241840A | 公開(公告)日: | 2020-06-05 |
| 發(fā)明(設計)人: | 劉華 | 申請(專利權)人: | 中科曙光(南京)計算技術有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F16/36;G06N5/04 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 李靜 |
| 地址: | 211805 江蘇省*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 知識 圖譜 命名 實體 識別 方法 | ||
本發(fā)明公開了一種基于知識圖譜的命名實體識別方法,該方法基于已有知識圖譜中實體關系三元組(h,r,t),對關系指示詞r和尾實體t進行推理。在此基礎上提出新的模型以用于開放領域知識庫中提取的三元組實體關系間的表示學習,從而實現(xiàn)知識圖譜中的關系發(fā)掘與知識推理,達到優(yōu)化關聯(lián)搜索與個性化推薦效果的作用。本發(fā)明相比于傳統(tǒng)知識庫,利用開放域知識庫使用關系指示詞代替關系類型,實體更為豐富,粒度更加細膩。
技術領域
本發(fā)明涉及一種命名實體識別方法,尤其涉及一種基于知識圖譜的命名實體識別方法。
背景技術
在過去的十幾年里,隨著人工智能、云計算等技術不斷發(fā)展,大規(guī)模的知識庫構建已經有了很好的進展,已經廣泛應用在電商、文化娛樂、金融、物流等行業(yè)客戶的多項業(yè)務中,取得了良好的效果。
目前廣泛應用于自然語言處理領域的“命名實體”最初于1996年在第六屆信息理解會議(MUC-6)上提出,主要是從給定文本中抽取諸如公司活動和國防活動等特定的信息,這些文本可以是結構化、半結構化或非結構化的數據。在進行信息抽取任務時,把文本中某些具有特殊意義的實體,如人名、機構名稱和地名及具有特殊意義的時間稱為“命名實體識別”。
目前已有許多關于命名實體識別和知識圖譜生成的研究,2015年Zhiheng Huang,Wei Xu,和Kai Yu發(fā)表于Computer Science的“Bidirectional LSTM-CRF Models forSequence Tagging”比較了NLP幾個經典任務:詞性標注,命名實體識別上的模型,包括CRF,LSTM,Bi-LSTM,LSTM-CRF,Bi-LSTM-CRF,Bi-LSTM-CRF在這幾個任務上取得了最好的準確度和健壯性,對詞語特征工程的依賴最小。2017年Suncong Zheng等人發(fā)表的“JointExtraction of Entities and Relations Based on a Novel Tagging Scheme”提出了一種新的處理實體識別和關系抽取的方法,傳統(tǒng)的NER和RC任務是分離的,這樣就忽視了實體和關系之間的關聯(lián),并且實體抽取標注中的錯誤會牽連到關系抽取。作者采用新的標注方法將實體和關系信息融合到一個標簽里接著采用Bi-LSTM作為編碼器,LSTM作為解碼器,采用端到端模型對實體識別關系抽取任務進行訓練。2018年Yanyao Shen等人發(fā)表的“DeepActive Learning for Named Entity Recognition”證明當深度學習與主動學習(activelearning)相結合時,標記的訓練數據的量可以大大減少。
領域非結構化文本數據通過自然語言處理解析并轉變?yōu)榭梢员挥嬎銠C高效處理的結構化數據,它們組成的知識庫通常以網狀的拓撲結構組織起來,網絡中每個節(jié)點代表實體,而每條連邊則代表實體間的關系。為了利用這種網狀知識庫中的數據,往往需要專門設計復雜度較高的圖算法。但是這些算法并不能很好的適用于知識推理,隨著知識庫的數據規(guī)模不斷擴大,這些基于網狀表示形式的算法存在以下兩個問題:1、計算效率不足;2、針對稀疏數據無法獲得很好的反饋。基于網狀結構知識庫的知識推理很難較好地滿足實時計算的需求。以符號為基礎的網狀形式的知識庫無法應對連續(xù)空間里的數值計算。單純的符號和邏輯的表示使得知識庫中的知識越來越離散化,知識之間無法很好的整合在一起,這也使得智能系統(tǒng)無法更加靈活地使用知識庫進行知識推理。
發(fā)明內容
發(fā)明目的:本發(fā)明提出一種改進的知識圖譜中命名實體的表示學習知識推理方法,通過OWL語言對知識圖譜中實體進行表述,然后將抽取的實體與關系進行向量化映射,然后通過訓練集中已有的三元組關系優(yōu)化映射的實體關系向量數據,從而進行實體知識推理與關系發(fā)掘,達到優(yōu)化關聯(lián)搜索與個性化推薦效果的作用。
技術方案:本發(fā)明所述的基于知識圖譜的命名實體識別方法,包括以下步驟:
(1)從知識庫中抽取命名實體,得到關系三元組集合;
(2)構造超平面對實體進行投影,得到改進的TransE模型;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中科曙光(南京)計算技術有限公司,未經中科曙光(南京)計算技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010071248.2/2.html,轉載請聲明來源鉆瓜專利網。





