[發(fā)明專利]信息處理設(shè)備、信息處理方法及程序無(wú)效
| 申請(qǐng)?zhí)枺?/td> | 201110096344.3 | 申請(qǐng)日: | 2011-04-14 |
| 公開(kāi)(公告)號(hào): | CN102236692A | 公開(kāi)(公告)日: | 2011-11-09 |
| 發(fā)明(設(shè)計(jì))人: | 高松慎吾 | 申請(qǐng)(專利權(quán))人: | 索尼公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 北京集佳知識(shí)產(chǎn)權(quán)代理有限公司 11227 | 代理人: | 康建峰;李春暉 |
| 地址: | 日本*** | 國(guó)省代碼: | 日本;JP |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 信息處理 設(shè)備 方法 程序 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及一種信息處理設(shè)備、信息處理方法及程序。
背景技術(shù)
近年來(lái),在計(jì)算機(jī)的信息處理能力增強(qiáng)的背景下,在自然語(yǔ)言處理領(lǐng)域中統(tǒng)計(jì)地處理文本的語(yǔ)義方面的技術(shù)正引起關(guān)注。此技術(shù)的一個(gè)示例是分析文檔的內(nèi)容并將各個(gè)文檔分類到各種類別的文檔分類技術(shù)。另一個(gè)示例是從所累積的文本的集合中提取有益信息的文本挖掘技術(shù),其中,上述所累積的文本的集合例如是互聯(lián)網(wǎng)上的網(wǎng)頁(yè)或從公司的客戶發(fā)送的問(wèn)題或意見(jiàn)的歷史。
通常,即使在表達(dá)一個(gè)相同的或類似的意思的情況下,在文本中經(jīng)常使用不同的詞或短語(yǔ)。因此,在文本的統(tǒng)計(jì)分析中試圖通過(guò)定義用于表示文本的統(tǒng)計(jì)特性的向量空間并在向量空間中對(duì)各個(gè)文本的特征進(jìn)行聚類來(lái)區(qū)分具有相似意思的文本(例如,參考Alexander?Yates和Oren?Etzioni,“Unsupervised?Methods?for?Determining?Object?and?RelationSynonyms?on?the?Web,”Journal?of?Artigicial?Intelligence?Research(JAIR)34,2009年3月,第255-296頁(yè)(在下文中,非專利文獻(xiàn)1))。作為用于表示文本的統(tǒng)計(jì)特性的向量空間,例如經(jīng)常使用的是通過(guò)將在文本中可能出現(xiàn)的詞匯表中所包括的單個(gè)詞布置為向量的單個(gè)分量(向量空間的軸)而構(gòu)成的向量空間。
發(fā)明內(nèi)容
但是,盡管對(duì)特征進(jìn)行聚類的技術(shù)至少在例如具有多個(gè)句子的文檔的分類中是有效的,但是該技術(shù)在試圖識(shí)別短語(yǔ)的等同或同義關(guān)系的情況下難以產(chǎn)生顯著成果。其主要原因是短語(yǔ)中所包括的詞的數(shù)量小。例如,對(duì)人、內(nèi)容或產(chǎn)品進(jìn)行介紹的諸如新聞文章或網(wǎng)頁(yè)的文檔通常包括幾十到幾百個(gè)詞。相反地,短語(yǔ)是比一個(gè)句子更小的單位,短語(yǔ)通常僅包括幾個(gè)詞。因此,由于甚至文檔的特征都趨向于被獲取為稀疏向量(其中的大部分分量為零的向量),所以短語(yǔ)的特征將被獲取為更稀疏的向量即超稀疏向量。這樣的超稀疏向量具有在意思的識(shí)別中可作為線索使用的信息很少的方面。這導(dǎo)致例如下面的問(wèn)題。具體地,在基于超稀疏向量之間的相似性(余弦距離)的聚類中,根據(jù)意思應(yīng)該屬于一個(gè)簇的兩個(gè)或更多個(gè)向量未被聚類到一個(gè)簇中。
例如,存在通過(guò)使用諸如奇異值分解(SVD)、關(guān)于潛在意義分析的概率潛在語(yǔ)義分析(PLSA)、或潛在狄利克雷分配(LDA)的概率技術(shù)將高維的向量壓縮成低維的向量的技術(shù)。這些概率技術(shù)有效地用在對(duì)文檔的特征的維數(shù)的壓縮中。但是,如果只是將這些概率技術(shù)應(yīng)用到作為超稀疏向量的短語(yǔ)的特征,數(shù)據(jù)的有效性丟失,并且在許多情況下獲取的僅僅是不適合于諸如聚類的后續(xù)階段處理的輸出。針對(duì)這種情形,上述的非專利文獻(xiàn)1為了獲取關(guān)于短字符串的特征的有效性,試圖通過(guò)從網(wǎng)上的文本中集合數(shù)量大約為幾百萬(wàn)的字符串來(lái)保證大規(guī)模的數(shù)據(jù)集合。但是,處理這樣的大規(guī)模數(shù)據(jù)集合導(dǎo)致對(duì)資源的限制的問(wèn)題。另外,也存在實(shí)質(zhì)上無(wú)法保證大規(guī)模的數(shù)據(jù)集合的許多情形,例如對(duì)屬于所謂的長(zhǎng)尾(long?tail)的主題進(jìn)行處理的情況。
例如,為了促進(jìn)在短語(yǔ)級(jí)別識(shí)別等同或同義關(guān)系,本發(fā)明需要提供新穎的、改進(jìn)的信息處理設(shè)備、信息處理方法和程序,其能夠在保持或提高特征的有效性的同時(shí)壓縮短語(yǔ)的特征的維數(shù)。
根據(jù)本發(fā)明的一個(gè)方式,提供了一種信息處理設(shè)備,該信息處理設(shè)備包括:數(shù)據(jù)獲取器,被配置成獲取具有多個(gè)句子的句子集合和包括在所述句子集合中的多個(gè)短語(yǔ);短語(yǔ)特征判定器,被配置成判定短語(yǔ)特征,其中每個(gè)所述短語(yǔ)特征表示所述數(shù)據(jù)獲取器獲取的所述短語(yǔ)中的各個(gè)短語(yǔ)的特性。另外,該信息處理設(shè)備還包括:集合特征判定器,被配置成判定表示所述句子集合的特性的集合特征;以及壓縮器,被配置成通過(guò)使用所述短語(yǔ)特征和所述集合特征來(lái)生成壓縮短語(yǔ)特征。壓縮短語(yǔ)特征具有低于短語(yǔ)特征的維度的維度以及每個(gè)壓縮短語(yǔ)特征表示數(shù)據(jù)獲取器獲取的短語(yǔ)中的各個(gè)短語(yǔ)的特性。
根據(jù)此配置,信息處理設(shè)備通過(guò)除使用表示各個(gè)短語(yǔ)的特性的短語(yǔ)特征之外,還使用表示作為短語(yǔ)獲取來(lái)源的句子集合的特性的集合特征,來(lái)在補(bǔ)償特征的少量信息的同時(shí)壓縮短語(yǔ)特征。
短語(yǔ)特征可以是具有分量的向量,其中,該向量的每個(gè)分量對(duì)應(yīng)于出現(xiàn)在多個(gè)短語(yǔ)中的詞中的各個(gè)詞。
集合特征可以是具有分量的矩陣,其中,該矩陣的每個(gè)分量對(duì)應(yīng)于出現(xiàn)在句子集合中的詞的組合中的各個(gè)詞的組合;以及短語(yǔ)特征的向量空間的至少一部分與構(gòu)成集合特征的行向量或列向量的向量空間的一部分相重疊。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于索尼公司,未經(jīng)索尼公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110096344.3/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 上一篇:一種醫(yī)學(xué)影像打印裝置
- 下一篇:一種耐火面料
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 傳感設(shè)備、檢索設(shè)備和中繼設(shè)備
- 簽名設(shè)備、檢驗(yàn)設(shè)備、驗(yàn)證設(shè)備、加密設(shè)備及解密設(shè)備
- 色彩調(diào)整設(shè)備、顯示設(shè)備、打印設(shè)備、圖像處理設(shè)備
- 驅(qū)動(dòng)設(shè)備、定影設(shè)備和成像設(shè)備
- 發(fā)送設(shè)備、中繼設(shè)備和接收設(shè)備
- 定點(diǎn)設(shè)備、接口設(shè)備和顯示設(shè)備
- 傳輸設(shè)備、DP源設(shè)備、接收設(shè)備以及DP接受設(shè)備
- 設(shè)備綁定方法、設(shè)備、終端設(shè)備以及網(wǎng)絡(luò)側(cè)設(shè)備
- 設(shè)備、主設(shè)備及從設(shè)備
- 設(shè)備向設(shè)備轉(zhuǎn)發(fā)
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 功能限制程序、安裝程序生成程序和程序存儲(chǔ)介質(zhì)
- 程序生成系統(tǒng)、程序生成程序和程序生成模塊
- 程序生成系統(tǒng)、程序生成程序和程序生成模塊
- 程序創(chuàng)建裝置,程序創(chuàng)建方法和程序
- 程序生成裝置、程序生產(chǎn)方法及程序
- 程序生成裝置、程序生成程序以及程序生成方法
- 程序生成裝置、程序生成方法及程序生成程序
- 程序開(kāi)發(fā)支持裝置、程序開(kāi)發(fā)支持方法以及存儲(chǔ)介質(zhì)
- 程序執(zhí)行輔助裝置、程序執(zhí)行輔助方法及程序執(zhí)行輔助程序
- 程序?qū)φ昭b置、程序?qū)φ辗椒俺绦驅(qū)φ粘绦?/a>





