[發明專利]用于識別系列文檔中的語義信息的方法和設備在審
| 申請號: | 201210392483.5 | 申請日: | 2012-10-16 |
| 公開(公告)號: | CN103729381A | 公開(公告)日: | 2014-04-16 |
| 發明(設計)人: | 黃耀海;李榮軍;胡欽諳 | 申請(專利權)人: | 佳能株式會社 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 中國國際貿易促進委員會專利商標事務所 11038 | 代理人: | 歐陽帆 |
| 地址: | 日本*** | 國省代碼: | 日本;JP |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 識別 系列 文檔 中的 語義 信息 方法 設備 | ||
技術領域
本發明涉及自然語言理解和數據挖掘領域,并且更特別地涉及用于識別系列文檔中的語義信息的方法和設備。?
背景技術
許多類型的文檔表現出系列性質。這種文檔包括,例如:產品手冊,其中系列指的是產品的系列;會議記錄,其中系列指的是具有類似主題的會議的時序;網站,其中系列指的是更新的序列;操作指南,其中系列指的是產品的系列;說明書,其中系列指的是更新的版本的系列;技術報告,其中系列指的是具有類似技術細節的報告的時序;等等。?
在系列文檔中隱藏有許多語義信息。以一個版本的產品手冊中的功能為例,關于該功能的典型的語義信息包括:該功能是否是更新功能,該功能是否是可選或特殊功能,該功能是否是在某一時段期間快速革新的功能,等等。?
識別系列文檔中的語義信息是非常有意義的,并且對于較寬范圍的應用(諸如,問答推薦、手冊寫作輔助、對于產品功能的生命周期分析輔助等)也是至關緊要的。?
迄今為止,在本領域中沒有用于識別系列文檔中的上述語義信息的完整的解決方案。僅僅存在用于解決一些有關任務的技術。例如,美國專利申請No.2009/0112825和美國專利申請No.2009/0119336已經提出了用于基于公司的隨時間的商業關系變化來檢測公司之間的重要的商業事件的技術。然而,這些專利申請不能被用來從系列文檔中挖掘事件。?
Eamonn?Keogh和Shruti?Kasetty的論文(“On?the?Need?for?Time?Series?Data?Mining?Benchmarks:A?Survey?and?EmpiricalDemonstration”,Data?Mining?and?Knowledge?Discovery,7(4),2003)已經總結了許多用于挖掘隨時間變化的數據的技術。然而,該論文沒有提出挖掘系列文檔中的上述語義信息(諸如關于產品手冊中的功能的語義信息)的技術。?
發明內容
因此,需要用于識別系列文檔中的語義信息的方法和設備。?
為了解決上述技術問題,本發明提供了一種用于識別系列文檔中的語義信息的方法,其包括如下步驟:a)識別系列文檔中的每個文檔中的實體項(item);b)將所識別的實體項與其在系列文檔中的其它文檔中的對應的實體項映射;c)計算所映射的實體項之間的相似度;d)從序列關系結構中提取描述所映射的實體項中的至少一個實體項的穩定程度的語義信息;其中,所述序列關系結構由N個所映射的實體項以及所映射的實體項之間的N-1個關系構成;并且其中,所述關系由所映射的實體項之間的相似度度量,并且在每兩個所映射的實體項之間存在不多于一個的關系。?
另外,為了解決上述技術問題,本發明提供了一種用于識別系列文檔中的語義信息的設備,其包括:單元a),被配置為識別系列文檔中的每個文檔中的實體項;單元b),被配置為將所識別的實體項與其在系列文檔中的其它文檔中的對應的實體項映射;單元c),被配置為計算所映射的實體項之間的相似度;單元d),被配置為從序列關系結構中提取描述所映射的實體項中的至少一個實體項的穩定程度的語義信息;其中,所述序列關系結構由N個所映射的實體項以及所映射的實體項之間的N-1個關系構成;并且其中,所述關系由所映射的實體項之間的相似度度量,并且在每兩個所映射的實體項之間存在不多于一個的關系。?
利用根據本發明的上述方法和設備,可以從系列文檔中提取語義信息,這將有助于對系列文檔的智能處理和分析。?
根據參照附圖的以下描述,本發明的其它特性特征和優點將變得清晰。?
附圖說明
并入說明書中并且構成說明書的一部分的附圖示出了本發明的實施例,并且與描述一起用于說明本發明的原理。?
圖1是示出能夠實施本發明的實施例的計算機系統的硬件配置的框圖。?
圖2是示出了根據本發明的一個實施例的用于識別系列文檔中的語義信息的方法的流程圖。?
圖3示出了鏈形拓撲圖的一個示例。?
圖4示出了鏈形拓撲圖的另一個示例。?
圖5(a)~5(d)示出了用于從鏈形拓撲圖中提取文檔的數量相對于時間的函數的示例性的過程。?
圖6示出了具有所有可能的連接的相似度圖的示例。?
圖7(a)~7(d)示出了通過使用最大生成樹(maximum?spanningtree)方法來構造樹形拓撲圖的示例性過程。?
圖8(a)和圖8(b)示出了具有時間信息的樹形拓撲圖的兩個示例。?
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于佳能株式會社,未經佳能株式會社許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210392483.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種激光器用臥式水冷模塊
- 下一篇:一種自動接線裝置





