[發(fā)明專利]一種在文檔中獲得一個(gè)或多個(gè)關(guān)鍵元素的設(shè)備和方法有效
| 申請(qǐng)?zhí)枺?/td> | 201010218148.4 | 申請(qǐng)日: | 2010-07-06 |
| 公開(kāi)(公告)號(hào): | CN102314448A | 公開(kāi)(公告)日: | 2012-01-11 |
| 發(fā)明(設(shè)計(jì))人: | 謝宣松;姜珊珊;孫軍;鄭繼川;趙利軍 | 申請(qǐng)(專利權(quán))人: | 株式會(huì)社理光 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30;G06F17/27 |
| 代理公司: | 北京市柳沈律師事務(wù)所 11105 | 代理人: | 黃小臨 |
| 地址: | 日本*** | 國(guó)省代碼: | 日本;JP |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 文檔 獲得 一個(gè) 關(guān)鍵 元素 設(shè)備 方法 | ||
技術(shù)領(lǐng)域
本申請(qǐng)一般涉及文本處理,且更具體地,涉及用于獲得關(guān)鍵元素的文本處理。
背景技術(shù)
隨著網(wǎng)絡(luò)中出現(xiàn)的文檔越來(lái)越多,越來(lái)越需要從各個(gè)文檔中獲得代表該文檔信息的關(guān)鍵詞或關(guān)鍵句子來(lái)便于搜索文檔、生成文檔摘要等等。人們已經(jīng)越來(lái)越關(guān)注如何更準(zhǔn)確地從文檔中獲得關(guān)鍵元素。獲得的關(guān)鍵詞或關(guān)鍵句子越準(zhǔn)確,則通過(guò)該關(guān)鍵詞或關(guān)鍵句子進(jìn)行搜索得到所期望的文檔的可能性越大,且通過(guò)該關(guān)鍵詞或關(guān)鍵句子生成的文檔摘要更確切地表示了文檔的信息。
從文檔中獲得關(guān)鍵元素的一種傳統(tǒng)的技術(shù)是TextRank(文本分級(jí))方法,這在Rada?Mihalcea和Paul?Tarau的論文“TextRank:Bring?Order?into?Texts”中可以找到相關(guān)描述,其全文被引用合并于此。TextRank模型從自然語(yǔ)言的文檔中提取詞或句子元素,然后將這些詞或句子元素作為圖的節(jié)點(diǎn)來(lái)打分,其基本思想是當(dāng)一個(gè)節(jié)點(diǎn)鏈接到另一節(jié)點(diǎn)時(shí),給該另一節(jié)點(diǎn)加一分。而且該節(jié)點(diǎn)的分值越高,該節(jié)點(diǎn)的重要程度越高。通過(guò)計(jì)算這些節(jié)點(diǎn)的最后分值來(lái)獲得每個(gè)節(jié)點(diǎn)的重要程度,以便得到關(guān)鍵的詞元素或關(guān)鍵的句子元素。但是,該TextRank方法只考慮同一類型(例如詞或句子)的元素之間的鏈接關(guān)系,而不考慮不同類型的元素之間(例如,詞和句子之間)的關(guān)系。通過(guò)這種方法計(jì)算的節(jié)點(diǎn)的分值不能更準(zhǔn)確地表示該元素的重要程度,因此會(huì)導(dǎo)致通過(guò)關(guān)鍵詞或關(guān)鍵句子搜索得不到想要得到的結(jié)果。
從文檔中獲得關(guān)鍵元素的另一傳統(tǒng)的技術(shù)是在專利WO2006/001906,Graph-based?ranking?algorithms?for?text?processing中提出的一種使用圖來(lái)處理至少一種自然語(yǔ)言形式的文本的方法,其全部?jī)?nèi)容被引用附于此。該方法包括:從自然語(yǔ)言文本中確定同種類型(例如,詞或句子)的多個(gè)文本單元,把這多個(gè)文本單元與多個(gè)圖節(jié)點(diǎn)關(guān)聯(lián)起來(lái),并且確定至少兩個(gè)文本單元之間的至少一個(gè)連接關(guān)系。但是,該專利主要關(guān)注于獨(dú)立的句子與句子之間和字與字之間的關(guān)系,即同種類型的文本單元之間的關(guān)系,也不考慮句子和字之間的關(guān)系,因此同樣,通過(guò)這種方法得到的同種類型的文本單元之間的關(guān)系也不能準(zhǔn)確地表示該文本單元在整個(gè)文檔中的重要程度,因此會(huì)導(dǎo)致通過(guò)關(guān)鍵詞或關(guān)鍵句子搜索得不到想要得到的結(jié)果。
從文檔中獲得關(guān)鍵元素的另一傳統(tǒng)的技術(shù)是Xiaojun?Wan等的“Towards?an?iterative?reinforcement?approach?for?simultaneous?document?summarization?and?keyword?extraction”.(ACL),2007中提出的一種關(guān)鍵詞獲得方法,其全部?jī)?nèi)容被引用附于此。該方法基于句子與詞之間的關(guān)系。但是,該方法不考慮文檔標(biāo)題對(duì)文檔中的句子和詞的影響。而且該方法也不涉及其他文本元素(例如,區(qū)域、段落等)之內(nèi)或之間的關(guān)系。因此同樣,通過(guò)這種方法得到的同種類型的文本單元之間的關(guān)系也不能準(zhǔn)確地表示該文本單元在整個(gè)文檔中的重要程度。
因此,需要一種改進(jìn)的、更準(zhǔn)確地得到在文檔中的文本元素的重要程度以便得到關(guān)鍵元素的方法和設(shè)備。
發(fā)明內(nèi)容
關(guān)鍵元素獲得和文本摘要都瞄準(zhǔn)從文檔中獲得精準(zhǔn)的能夠代表該文的信息的關(guān)鍵元素。現(xiàn)有技術(shù)中的一般技術(shù)方案都是關(guān)注于使用獨(dú)立的句子、詞以及他們之間的關(guān)系。但是,文檔的物理結(jié)構(gòu)并沒(méi)有充分地被挖掘。因此,現(xiàn)有技術(shù)中的獲得關(guān)鍵元素的方案都不能準(zhǔn)確地表示該文本元素在整個(gè)文檔中的重要程度,因此所獲得的關(guān)鍵元素不能恰當(dāng)?shù)卮碚麄€(gè)文檔的內(nèi)容信息,從而導(dǎo)致無(wú)法通過(guò)該關(guān)鍵元素得到期望的文檔搜索結(jié)果,也無(wú)法獲得確切的文檔摘要。
根據(jù)本申請(qǐng)的一個(gè)方面,提供一種在文檔中獲得一個(gè)或多個(gè)關(guān)鍵元素的方法,包括以下步驟:抽取該文檔的結(jié)構(gòu)元素,所述結(jié)構(gòu)元素至少包含標(biāo)題元素,其中,該文檔包括多個(gè)結(jié)構(gòu)上的層,所述結(jié)構(gòu)上的層至少包含標(biāo)題層,且每個(gè)結(jié)構(gòu)元素對(duì)應(yīng)于各自的層;確定除了標(biāo)題層以外的一層中的被抽取的結(jié)構(gòu)元素在其對(duì)應(yīng)的層內(nèi)的層內(nèi)權(quán)重;確定所述被抽取的結(jié)構(gòu)元素與除了其對(duì)應(yīng)的層和標(biāo)題層以外的其他層中的結(jié)構(gòu)元素之間的跨層權(quán)重;確定所述被抽取的結(jié)構(gòu)元素與標(biāo)題元素之間的全局權(quán)重;組合所述被抽取的結(jié)構(gòu)元素的層內(nèi)權(quán)重、跨層權(quán)重和全局權(quán)重來(lái)確定所述被抽取的結(jié)構(gòu)元素的最后權(quán)重;以及根據(jù)所述一層中的結(jié)構(gòu)元素的最后權(quán)重,來(lái)獲得所述一層中的一個(gè)或多個(gè)關(guān)鍵元素。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于株式會(huì)社理光,未經(jīng)株式會(huì)社理光許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010218148.4/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 一種電子文檔識(shí)別方法及裝置
- 文檔匹配方法和文檔匹配裝置
- 復(fù)雜文檔分離組織方法以及復(fù)雜文檔自動(dòng)生成方法
- 一種文檔流程控制方法及裝置
- 云文檔加密及解密方法、加密及解密裝置、以及處理系統(tǒng)
- 一種將Markdown文檔轉(zhuǎn)換為PDF文檔的方法、裝置
- 文檔類型識(shí)別方法、裝置、設(shè)備和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 基于文檔編輯軟件的文檔處理方法、裝置、設(shè)備及介質(zhì)
- 一種引用文檔的更新方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 文檔操作錄制方法、文檔操作動(dòng)畫(huà)生成方法、裝置及設(shè)備
- 關(guān)鍵詞輸出設(shè)備和關(guān)鍵詞輸出方法
- 標(biāo)有關(guān)鍵點(diǎn)和關(guān)鍵線的人臺(tái)
- 關(guān)鍵詞質(zhì)量度的檢測(cè)方法和裝置
- 關(guān)鍵詞排名的檢測(cè)方法和裝置
- 關(guān)鍵點(diǎn)識(shí)別
- 磁性開(kāi)關(guān)鍵
- 面板開(kāi)關(guān)鍵
- 關(guān)鍵短語(yǔ)提取方法以及關(guān)鍵短語(yǔ)提取系統(tǒng)
- 通信行為檢測(cè)方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種長(zhǎng)尾關(guān)鍵詞識(shí)別方法、關(guān)鍵詞搜索方法及計(jì)算機(jī)設(shè)備





