[發明專利]一種結合推理和半自動學習的行為知識提取方法和裝置無效
| 申請號: | 201310452292.8 | 申請日: | 2013-09-26 |
| 公開(公告)號: | CN103455638A | 公開(公告)日: | 2013-12-18 |
| 發明(設計)人: | 毛文吉;曾大軍;葛安生;孔慶超;王磊 | 申請(專利權)人: | 中國科學院自動化研究所 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 中科專利商標代理有限責任公司 11021 | 代理人: | 宋焰琴 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 結合 推理 半自動 學習 行為 知識 提取 方法 裝置 | ||
技術領域
本發明屬于計算機科學技術領域,具體涉及一種基于少量的初始行為知識提取模板,結合推理和半自動學習的行為知識提取方法和裝置,用于從海量文本中增量地獲取行為知識。
背景技術
行為知識是一類十分重要的知識類型,在多個涉及行為建模、分析和預測的領域具有十分重要的應用。隨著互聯網技術的發展和普及,網上積聚的海量文本給行為知識獲取工作帶來數據支持的同時也提出了嚴峻的技術挑戰。
以往的行為知識提取工作一般采用基于有監督學習或基于手工規則的方法,代表性工作包括:Sil等(Extracting?action?and?event?semantics?from?web?text,in?AAAI?Fall?Symposium?on?Common-Sense?Knowledge(AAAI-CSK),2010)利用支持向量機提取行為前提和結果知識;Li等(Automatic?construction?of?domain?theory?for?attack?planning,in2010IEEE?International?Conference?on?Intelligence?and?Security?Informatics(IEEE-ISI),2010,pp.65-70)利用手工模板提取行為前提和結果。以往行為知識提取方法主要存在以下不足:(1)需要大量手工標注的語料或完全依賴于手工構建提取模板,因而導致效率較低下;(2)僅提取行為前提和結果知識,忽略了對行為之間關系的提取,特別是獲取行為間的時序關系這類重要的行為知識;(3)僅單獨提取每種行為知識,不能利用行為知識間的語義關聯促進不同種行為知識間的相互擴充。
發明內容
本發明要解決的技術問題是:針對海量的開源文本,使用少量的行為知識提取模板并利用行為知識間的語義關聯,增量地從文本中獲取行為前提、行為結果和行為間的時序關系三種主要的行為知識。
為解決上述技術問題,本發明提出一種行為知識提取方法,包括如下步驟:
S1、利用模板和行為知識之間的共現關系和語義相關信息,計算候選模板和行為知識集、候選知識和模板集之間的統計關聯度,以及候選行為知識與行為知識集之間、候選模板與模板集之間的語義相似度,進而計算候選行為知識和模板的可信度,并根據所述可信度得到新的行為知識集和模板集;
S2、利用不同種類的行為知識間的語義關聯,通過知識推理方法擴充行為知識集;
S3、對行為知識進行知識求精,主要包括合并相似情形和去除矛盾情形,以提高行為知識提取的質量。
根據本發明的一種具體實施方式,所述步驟S1包括多次迭代,每次迭代包括增量獲取模板和增量獲取行為知識這兩個分步驟。增量是指隨著迭代的進行,每一輪得到比上一輪更多的模板和行為知識。
根據本發明的一種具體實施方式,所述增量獲取模板的分步驟如下:
S1.1、基于上一輪迭代獲得的行為知識,從輸入文本中得到候選模板集;利用當前行為知識集和候選模板間的共現關系計算其統計關聯度,并計算候選模板與上一輪迭代獲取的模板集之間的語義相似度,進而得到候選模板的可信度。
S1.2、對候選模板按可信度由高到低進行排序,選取前k個模板作為本輪迭代得到的模板。其中k為上一輪迭代的模板數量與nt之和,nt是指每次迭代新增加的模板數量,取值由具體實施方式確定。
根據本發明的一種具體實施方式,所述增量獲取行為知識的分步驟如下:
S1.3、基于本輪迭代獲得的模板,從輸入文本中得到候選行為知識集;利用當前模板集和候選行為知識間的共現關系計算其統計關聯度,并計算候選行為知識與上一輪迭代獲取的行為知識集之間的語義相似度,進而得到候選行為知識的可信度。
S1.4、分別對三類行為知識按可信度由高到低進行排序,并選取前k個作為本輪迭代獲得的行為知識。其中k為上一輪迭代的每種行為知識數量與nk之和,nk是指每輪迭代每種行為知識新增加的數量,取值由具體實施方式確定。
根據本發明的一種具體實施方式,所述模板和行為知識的可信度定義如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院自動化研究所,未經中國科學院自動化研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310452292.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種安全注射針
- 下一篇:一種提高網頁顯示速度的方法及裝置





