[發明專利]一種基于向量空間模型的關系詞映射方法有效
| 申請號: | 201711453984.9 | 申請日: | 2017-12-28 |
| 公開(公告)號: | CN108153736B | 公開(公告)日: | 2021-07-02 |
| 發明(設計)人: | 溫延龍;劉云鵬;袁曉潔 | 申請(專利權)人: | 南開大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/30;G06F40/284 |
| 代理公司: | 天津耀達律師事務所 12223 | 代理人: | 張耀 |
| 地址: | 300071 *** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 向量 空間 模型 系詞 映射 方法 | ||
本發明公布了一種基于向量空間模型的關系詞映射方法,屬于自然語言處理領域。本發明方法的基本步驟如下:首先采用關系詞與實體對之間的對應關系,通過統計實體對出現的頻率及特異性構造每個關系詞的特征向量。其次采用向量空間模型計算關系詞與對應謂語的相似度,選取相似度值較高的謂語作為關系詞的候選。最后將所有關系詞的候選排序,選取具有最高可信度的謂語候選構造映射詞典。本發明提出的關系詞謂語映射方法,能夠為自然語言中關系詞與RDF圖數據中謂語的自動映射提供一種有效的解決方案,達到使自然語言轉換為圖數據進行相應匹配的目的。
技術領域
本發明屬于自然語言處理領域,具體涉及一種新型的自然語言關系詞與RDF圖數據中謂語映射的技術。
背景技術
隨著計算機技術的發展,數字化信息成倍增長,海量的數據可供人們使用。然而,面對信息爆炸式增長形成的大量累積數據,基于文本的搜索引擎只能夠根據關鍵詞進行排序索引,并不能夠真正回答用戶提出的問題。與此同時,越來越多的知識圖譜開始出現,迫切希望能夠直接通過結構化的信息及RDF問答技術,對用戶的問題進行理解及解答。在RDF問答系統中,對自然語言的處理尤為重要。自然語言一般包含關系詞以及實體等要素,能否正確將自然語言中的這些要素正確的轉化為結構化數據,決定著得到答案的正確與否。而在這些要素中,關系詞的處理是能夠使自然語言成功轉化的第一步。
可見,關系詞的映射為自然語言轉化成結構化數據以及自然語言問答提供了基礎。然而,由于自然語言多變的形式,往往不能根據特定的詞語檢測確定出對應的映射規則。若能根據自然語言的關系詞的特征,結合大量的實體對,自動生成關系詞的映射關系,將會提高自然語言結構化的準確率,從而有助于自動化的問答系統。
關系詞謂語映射的研究,既能滿足自然語言結構化準確、快速的迫切需求,又能為自然語言問答奠定了良好的基礎。目前,在自然語言處理領域,已有大量的研究提高關系詞謂語映射的準確率,可見自然語言關系詞的謂語映射具有廣泛的工程應用前景。
發明內容
本發明的目的是解決自然語言關系詞無法直接轉化為RDF圖數據中謂語從而生成結構化語言的問題,結合向量空間模型中向量相似度的計算方法,提出一種基于向量空間模型的關系詞映射方法。
本發明提供的基于向量空間模型的關系詞映射方法的具體步驟如下:
第1、利用RDF圖數據中實體對之間的路徑,確定每一個關系詞的可能候選謂語或謂語路徑;
候選謂語或謂語路徑的確定步驟如下:
第1.1、將自然語言轉化為關系詞和實體對的組合,
定義1:自然語言語句S可以轉化為一個實體對和關系詞的組合,用三元組G=(R,E1,E2)表示,其中:
①.R為關系詞,關系詞是一段普通文本,表示兩個實體之間的聯系。
②.E1、E2為實體,兩個實體共同構成一個實體對。
第1.2、實體在RDF圖數據中映射為頂點,
定義2:根據實體的標簽,每個實體可以對應到RDF圖數據中的一個實例,每個實例代表一個頂點,該實體的對應頂點為:
Vi=F(Ei)
第1.3、將頂點間的簡單路徑作為一個關系詞對應的候選。
定義3:簡單路徑是指頂點序列中頂點不重復出現的路徑,路徑中不存在閉環。
定義4:圖上兩個頂點間的簡單路徑即為自然語言中關系詞的一個語義可能候選。令和分別表示關系詞Ri所連接的兩個實體和在圖上的對應頂點,則頂點間一條簡單路徑P定義為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南開大學,未經南開大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711453984.9/2.html,轉載請聲明來源鉆瓜專利網。





