[發明專利]信息處理設備、信息處理方法和程序無效
| 申請號: | 201210184817.X | 申請日: | 2012-06-06 |
| 公開(公告)號: | CN102982018A | 公開(公告)日: | 2013-03-20 |
| 發明(設計)人: | 宮嵜充弘;高松慎吾 | 申請(專利權)人: | 索尼公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/24;G06F17/30 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 朱勝;陳煒 |
| 地址: | 日本*** | 國省代碼: | 日本;JP |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 信息處理 設備 方法 程序 | ||
技術領域
本公開內容涉及一種信息處理設備、信息處理方法和程序,更具體地,涉及使得能夠從大量文檔中提取記載了關于關注目標(諸如,人、內容和想法)的知識的深奧文本的信息處理設備、信息處理方法和程序。
背景技術
在現有技術中,已廣泛地嘗試通過統計地分析大量文檔(對大量文檔執行統計自然語言處理)來獲得知識。例如,在沒有創建辭典的專業領域中,通過對專業領域中的文檔執行統計自然語言處理來自動創建該專業領域的辭典。
在統計自然語言處理中,經常使用上下文信息(表示包括文檔中引起關注的詞和出現在該詞前后的預定數量的詞的詞群)的特征量。另外,通過計算上下文信息的特征量的類似度,執行引起關注的詞的同義詞的分析、多義性的分析、兩個名詞之間的關系的分析、詞的情態(modality)的分析等。例如,在Takaaki?Hasegawa,Satoshi?Sekine?and?Ralph?Grishman在Proceedings?of?the?Conference?of?the?Association?for?Computational?Linguistics?2004中發表的文獻“Discovering?Relations?among?Named?Entities?from?Large?Corpora”中,在專有名詞的關系的同義分析中使用上下文信息的特征量。
發明內容
因特網包含記載了關注目標(諸如,人、內容和想法)的大量文檔。存在如下技術:其僅對這樣大量的文檔進行搜索以得到記載了關注目標的文檔并且還總結搜索結果的文檔,但是尚未建立提取記載了關于關注目標的知識的深奧文本的技術。
這里,深奧文本表示以區分的表述(表述方式)來記載與關注目標有關的預定主題(局部主題)的文檔。
本公開內容是對這種情形的反映,并且實現了從大量文檔中提取深奧文本。
作為本公開內容的一方面的信息處理設備包括:收集單元,收集包括一個或多個語句的文檔;主題分析單元,通過對所收集的文檔執行主題分析,計算表示構成所收集的文檔的每個語句對于局部主題的每個項目的適合度的概率;語言分析單元,通過對所收集的文檔執行語言分析,檢測局部主題的每個項目中的特有表述方式;評價設置單元,基于評價者對構成所收集的文檔的每個語句的評價,設置該語句的主題有用度,并且基于主題分析結果和主題有用度而對局部主題的每個項目設置總評價值;以及深奧文本提取單元,基于總評價值選擇局部主題的項目,并且從所收集的文檔中提取適合于所選擇的局部主題的項目中的特有表述方式的語句作為深奧文本候選。
深奧文本提取單元可以基于總評價值選擇局部主題的項目,并且從所收集的提取目標文檔提取適合于所選擇的局部主題的項目中的特有表述方式的語句作為深奧文本候選。
評價設置單元可以基于評價者對構成所收集的文檔的每個語句的評價設置構成該語句的深奧度,對語句的多維特征量和深奧度執行機器學習,從而確定多維特征量空間中深奧文本的分布的邊界,并且深奧文本提取單元可以基于所確定的邊界從深奧文本候選中提取深奧文本。
作為本公開內容的一方面的信息處理設備還可以包括呈現單元,該呈現單元向用戶呈現與指定的關注目標對應的深奧文本候選或深奧文本。
作為本公開內容的一方面的信息處理設備還可以包括編輯單元,該編輯單元對所收集的文檔進行編輯。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于索尼公司,未經索尼公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210184817.X/2.html,轉載請聲明來源鉆瓜專利網。





