[發明專利]一種基于組合理論的類自然語言的語義信息抽取方法及系統在審
| 申請號: | 201410347424.5 | 申請日: | 2014-07-21 |
| 公開(公告)號: | CN104166682A | 公開(公告)日: | 2014-11-26 |
| 發明(設計)人: | 賈巖 | 申請(專利權)人: | 安徽華貞信息科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 合肥市長遠專利代理事務所(普通合伙) 34119 | 代理人: | 程篤慶;黃樂瑜 |
| 地址: | 230000 安徽省合肥市高*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 組合 理論 自然語言 語義 信息 抽取 方法 系統 | ||
技術領域
本發明涉及信息提取技術領域,尤其涉及一種基于組合理論的類自然語言的語義信息抽取方法及系統。
背景技術
信息抽取就是從文本中抽取特定的實時信息。在大多數的信息抽取中,都是通過識別文本中的實體,對實體進行語義分析來確定文本語義信息的,但是該類方法局限性大,在語義分析過程中,語義信息的描述過于機械化,容易遺漏,特征項的選取較片面,語義表達不完整甚至錯誤,總而言之,現有的語義抽取技術,準確率和召回率達不到要求,從而難以對文本進行有效利用。
因此,現有技術中,在進行文本語義處理的過程中,如何做到對文本信息進行有效利用,是亟待解決的問題。
發明內容
基于背景技術存在的技術問題,本發明提出了一種基于組合理論的類自然語言的語義信息抽取方法及系統,其語義信息豐富、準確率和召回率高,成本低,可產業化。
本發明提出的一種基于組合理論的類自然語言的語義信息抽取方法,包括:
S1、根據已有的本體、語義詞典和分類體系建立規則體系,其語義規則以類似自然語言的書寫格式定義;
S2、根據規則體系中的語義規則組合匹配訓練集,生成可選語義規則的機制;
S3、根據匹配訓練集對目標文本進行數據匹配,并獲得目標文本的語義信息。
優選地,步驟S1具體包括:
S11、獲取目標文本;
S12、根據目標文本在預制本體、語義詞典和分類體系中獲取對應的本體、語義詞典和分類體系;
S13、根據對應的本體、語義詞典和分類體系建立規則體系。
優選地,步驟S12中還包括:根據本體、語義詞典和分類體系對目標文本進行標注。
優選地,步驟S3具體為:根據規則體系對目標文本進行段落級、句子級或詞語級的數據匹配,再根據匹配結果進行語義歸納和篩選,獲得目標文本的語義信息。
優選地,步驟S1中,語義規則的組成元素可細化到短句、詞匯或字符層面。
優選地,步驟S2中,語義規則的組合邏輯為布爾表達邏輯、類正則表達邏輯、連接表達邏輯和位置表達邏輯。
一種基于組合理論的類自然語言的語義信息抽取系統,包括:
規則建立模塊,用于根據已有的本體、語義詞典和分類體系建立規則體系,其語義規則以類似自然語言的書寫格式定義;
規則組合模塊,連接規則建立模塊,用于根據規則體系組合匹配訓練集,生成可選語義規則的機制;
數據匹配模塊,連接規則組合模塊,用于根據匹配訓練集對目標文本進行數據匹配,并獲得目標文本的語義信息。
優選地,規則建立模塊還用于獲取目標文本,根據目標文本獲取對應的本體、語義詞典和分類體系。
優選地,規則建立模塊還用于根據本體、語義詞典和分類體系對目標文本進行標注。
優選地,數據匹配模塊中根據規則體系對目標文本進行段落級、句子級或詞語級的數據匹配,再根據匹配結果進行語義歸納和篩選以獲得目標文本的語義信息。
本發明中通過已有的本體、語義詞典和分類體系構建規則體系,極大降低了基礎規則的編寫成本;將語義規則以類似自然語言的書寫格式定義,有效抑制機械的規則匹配導致的錯誤和歧義,提供豐富的、準確的語義信息提取機制,同時,其極易書寫性、可重用性和天然的可組合性使其可以真正商業化和產業化實施。本發明提供的基于組合理論的類自然語言語義信息抽取系統是實用的、可產業化的、語義信息豐富的、準確率和召回率高的語義信息抽取系統
附圖說明
圖1為本發明提出的一種基于組合理論的類自然語言的語義信息抽取方法流程圖;
圖2為本發明提出的一種基于組合理論的類自然語言的語義信息抽取系統的結構圖。
具體實施方式
參照圖1,本發明提出的一種基于組合理論的類自然語言的語義信息抽取方法,包括以下步驟:
S1、根據已有的本體、語義詞典和分類體系建立規則體系,其語義規則以類似自然語言的書寫格式定義;
S2、根據規則體系中的語義規則組合匹配訓練集,生成可選語義規則的機制;
S3、根據匹配訓練集對目標文本進行數據匹配,并獲得目標文本的語義信息。
步驟S1具體包括:
S11、獲取目標文本;
S12、根據目標文本在預制本體、語義詞典和分類體系中獲取對應的本體、語義詞典和分類體系;
S13、根據對應的本體、語義詞典和分類體系建立規則體系。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于安徽華貞信息科技有限公司,未經安徽華貞信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410347424.5/2.html,轉載請聲明來源鉆瓜專利網。





