[發明專利]信息處理器、處理信息的方法以及程序無效
| 申請號: | 201110006193.8 | 申請日: | 2011-01-13 |
| 公開(公告)號: | CN102129446A | 公開(公告)日: | 2011-07-20 |
| 發明(設計)人: | 高松慎吾 | 申請(專利權)人: | 索尼公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 北京市柳沈律師事務所 11105 | 代理人: | 黃小臨 |
| 地址: | 日本*** | 國省代碼: | 日本;JP |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 信息 處理器 處理 方法 以及 程序 | ||
1.一種對文檔執行統計自然語言處理的信息處理器,所述信息處理器包括:
特征量提取組件,用于從所述文檔中檢測包含專有名詞對的上下文信息,并提取所檢測的上下文信息的特征量;
特征量分析組件,用于通過使用概率模型分析所提取的上下文信息的特征量,來估計所述概率模型中的潛在變量和上下文主題比率,其中在所述概率模型中,考慮意味著所述文檔的整個主題的文檔主題和意味著所述文檔的局部主題的上下文主題;以及
聚類組件,用于基于關于各個上下文信息的特征量而估計的上下文主題比率,聚類包含在所述上下文信息中的專有名詞對。
2.如權利要求1所述的信息處理器,還包括:
基本信息產生組件,用于基于聚類包含在所述上下文信息中的專有名詞對的結果,產生對應于所述上下文信息的基本信息。
3.如權利要求2所述的信息處理器,還包括:
選擇組件,用于基于關于各個上下文信息的特征量而估計的上下文主題比率,選擇所述特征量中的元素。
4.如權利要求2所述的信息處理器,其中
所述特征量分析組件還通過使用所述概率模型分析所提取的上下文信息的特征量,來估計所述文檔主題和所述上下文主題的混合比率。
5.如權利要求2所述的信息處理器,其中所述特征量提取組件包括:
檢測組件,用于檢測所述文檔中的專有名詞;
照應語分析組件,用于對所述文檔執行照應語分析;
提取組件,用于在照應語分析的文檔中設置專有名詞對,并提取包含所述專有名詞對之前和之后的多個詞并包含所述專有名詞對的上下文信息;以及
設置組件,用于僅將從所提取的上下文信息中留下的、在預先準備的詞典中注冊的詞設置為所述上下文信息的特征量。
6.如權利要求2所述的信息處理器,其中所述統計自然語言處理是同義詞分析、多義詞分析、兩個名詞之間的相關性分析或詞的特性分析。
7.一種對文檔執行統計自然語言處理的信息處理器的處理信息的方法,所述信息處理器包括:
特征量提取組件,用于從所述文檔中檢測包含專有名詞對的上下文信息,并提取所檢測的上下文信息的特征量;
特征量分析組件,用于通過使用概率模型分析所提取的上下文信息的特征量來估計所述概率模型中的潛在變量和上下文主題比率,其中在所述概率模型中,考慮意味著所述文檔的整個主題的文檔主題和意味著所述文檔的局部主題的上下文主題;以及
聚類組件,用于基于關于各個上下文信息的特征量而估計的上下文主題比率,聚類包含在所述上下文信息中的專有名詞對,所述方法包括:
第一特征量提取步驟,由所述特征量提取組件從用于學習的文檔中檢測包含專有名詞對的上下文信息,并提取所檢測的上下文信息的特征量;
第一特征量分析步驟,由所述特征量分析組件通過使用所述概率模型分析從所述用于學習的文檔中提取的上下文信息的特征量,來估計所述概率模型中的潛在變量;
第二特征量提取步驟,由所述特征量提取組件從用于分析的文檔中檢測包含專有名詞對的上下文信息,并提取所檢測的上下文信息的特征量;
第二特征量分析步驟,由所述特征量分析組件通過使用所述概率模型分析從所述用于分析的文檔中提取的上下文信息的特征量,來估計所述概率模型中的上下文主題比率;以及
聚類步驟,由所述聚類組件基于關于各個上下文信息的特征量而估計的上下文主題比率,聚類包含在所述上下文信息中的專有名詞對。
8.一種使對文檔執行統計自然語言處理的計算機作為如下功能組件來工作的程序,所述功能組件包括:
特征量提取組件,用于從所述文檔中檢測包含專有名詞對的上下文信息,并提取所檢測的上下文信息的特征量;
特征量分析組件,用于通過使用概率模型分析所提取的上下文信息的特征量來估計所述概率模型中的潛在變量和上下文主題比率,其中在所述概率模型中,考慮意味著所述文檔的整個主題的文檔主題和意味著所述文檔的局部主題的上下文主題;以及
聚類組件,用于基于關于各個上下文信息的特征量而估計的上下文主題比率,聚類包含在所述上下文信息中的專有名詞對。
9.一種對文檔執行統計自然語言處理的信息處理器,所述信息處理器包括:
特征量提取單元,其被構造為從所述文檔中檢測包含專有名詞對的上下文信息,并提取所檢測的上下文信息的特征量;
特征量分析單元,其被構造為通過使用概率模型分析所提取的上下文信息的特征量來估計所述概率模型中的潛在變量和上下文主題比率,其中在所述概率模型中,考慮意味著所述文檔的整個主題的文檔主題和意味著所述文檔的局部主題的上下文主題;以及
聚類單元,其被構造為基于關于各個上下文信息的特征量而估計的上下文主題比率,聚類包含在所述上下文信息中的專有名詞對。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于索尼公司,未經索尼公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110006193.8/1.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





