[發(fā)明專利]一種在文檔中獲得一個或多個關(guān)鍵元素的設(shè)備和方法有效
| 申請?zhí)枺?/td> | 201010218148.4 | 申請日: | 2010-07-06 |
| 公開(公告)號: | CN102314448A | 公開(公告)日: | 2012-01-11 |
| 發(fā)明(設(shè)計)人: | 謝宣松;姜珊珊;孫軍;鄭繼川;趙利軍 | 申請(專利權(quán))人: | 株式會社理光 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 北京市柳沈律師事務(wù)所 11105 | 代理人: | 黃小臨 |
| 地址: | 日本*** | 國省代碼: | 日本;JP |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 文檔 獲得 一個 關(guān)鍵 元素 設(shè)備 方法 | ||
1.一種在文檔中獲得一個或多個關(guān)鍵元素的方法,包括以下步驟:
a)抽取該文檔的結(jié)構(gòu)元素,所述結(jié)構(gòu)元素至少包含標(biāo)題元素,其中,該文檔包括多個結(jié)構(gòu)上的層,所述結(jié)構(gòu)上的層至少包含標(biāo)題層,且每個結(jié)構(gòu)元素對應(yīng)于各自的層;
b)確定除了標(biāo)題層以外的一層中的被抽取的結(jié)構(gòu)元素在其對應(yīng)的層內(nèi)的層內(nèi)權(quán)重;
c)確定所述被抽取的結(jié)構(gòu)元素與除了其對應(yīng)的層和標(biāo)題層以外的其他層中的結(jié)構(gòu)元素之間的跨層權(quán)重;
d)確定所述被抽取的結(jié)構(gòu)元素與標(biāo)題元素之間的全局權(quán)重;
e)組合所述被抽取的結(jié)構(gòu)元素的層內(nèi)權(quán)重、跨層權(quán)重和全局權(quán)重來確定所述被抽取的結(jié)構(gòu)元素的最后權(quán)重;以及
f)根據(jù)所述一層中的結(jié)構(gòu)元素的最后權(quán)重,來獲得所述一層中的一個或多個關(guān)鍵元素。
2.根據(jù)權(quán)利要求1所述的方法,其中所述結(jié)構(gòu)元素還包括區(qū)域元素、段落元素、句子元素、詞元素、字元素中的一個或多個,所述結(jié)構(gòu)上的層還包括區(qū)域?qū)印⒍温鋵印⒕渥訉印⒃~層和字層中的一個或多個。
3.根據(jù)權(quán)利要求1或2所述的方法,其中,所述步驟b)包括:
b-1)給被抽取的結(jié)構(gòu)元素賦予初始權(quán)重;
b-2)確定被抽取的結(jié)構(gòu)元素與在其對應(yīng)的層內(nèi)的其他結(jié)構(gòu)元素之間的層內(nèi)關(guān)系鏈的權(quán)重;
b-3)根據(jù)被抽取的結(jié)構(gòu)元素的初始權(quán)重和其層內(nèi)關(guān)系鏈的權(quán)重,確定被抽取的結(jié)構(gòu)元素在其對應(yīng)的層內(nèi)的層內(nèi)權(quán)重。
4.根據(jù)權(quán)利要求3所述的方法,其中,在步驟b-1)中,區(qū)域元素或段落元素的初始權(quán)重與區(qū)域或段落的位置信息有關(guān);句子元素的初始權(quán)重與該句子被其他句子引用的次數(shù)有關(guān);而且/或者詞或字的初始權(quán)重與該詞或字的詞性和/或出現(xiàn)詞頻有關(guān)。
5.根據(jù)權(quán)利要求3所述的方法,其中,在步驟b-2)中,對于區(qū)域元素、段落元素和句子元素,通過兩個結(jié)構(gòu)元素之間共同包含的詞或字的數(shù)目和兩個結(jié)構(gòu)元素的詞或字的總數(shù)來計算兩個結(jié)構(gòu)元素之間的層內(nèi)關(guān)系鏈的權(quán)重;且對于詞元素和字元素,則通過同層的兩個結(jié)構(gòu)元素同時出現(xiàn)在同一個預(yù)定大小的元素窗口內(nèi)時之間的距離和該元素窗口的預(yù)定大小來計算兩個結(jié)構(gòu)元素在該元素窗口內(nèi)的關(guān)系值,并通過這兩個結(jié)構(gòu)元素在整個文檔中的各個元素窗口內(nèi)的關(guān)系值之和來計算這兩個結(jié)構(gòu)元素在整個文檔中層內(nèi)關(guān)系鏈的權(quán)重。
6.根據(jù)權(quán)利要求3所述的方法,其中,在步驟b-3)中,利用TextRank的基于圖的算法,根據(jù)被抽取的結(jié)構(gòu)元素的初始權(quán)重和其層內(nèi)關(guān)系鏈的權(quán)重,來計算被抽取的結(jié)構(gòu)元素在其對應(yīng)的層內(nèi)的層內(nèi)權(quán)重。
7.根據(jù)權(quán)利要求1或2所述的方法,其中,在所述步驟c)中,通過所述被抽取的結(jié)構(gòu)元素和所述其他層中的結(jié)構(gòu)元素之間的包含次數(shù)、該被抽取的結(jié)構(gòu)元素的層內(nèi)權(quán)重和/或其他層結(jié)構(gòu)元素的層內(nèi)權(quán)重這些參數(shù)中的一個或多個來計算在所述被抽取的結(jié)構(gòu)元素的跨層權(quán)重。
8.根據(jù)權(quán)利要求1或2所述的方法,其中,在所述步驟d)中,通過被抽取的結(jié)構(gòu)元素與標(biāo)題元素之間共同包含的詞或字的數(shù)目、共同包含的詞或字出現(xiàn)的詞頻、共同包含的詞或字的詞性、被抽取的結(jié)構(gòu)元素的詞或字的總數(shù)、標(biāo)題元素的詞或字的總數(shù)、被抽取的結(jié)構(gòu)元素的層內(nèi)權(quán)重和/或被抽取的結(jié)構(gòu)元素的跨層權(quán)重這些參數(shù)中的一個或多個來計算被抽取的結(jié)構(gòu)元素的全局權(quán)重。
9.根據(jù)權(quán)利要求1所述的方法,其中,在所述步驟f)中,將所述一層中的結(jié)構(gòu)元素的最后權(quán)重進行排序,獲得最后權(quán)重最高的一個或多個結(jié)構(gòu)元素作為所述一層中的一個或多個關(guān)鍵元素。
10.一種在文檔中獲得一個或多個關(guān)鍵元素的設(shè)備,包括:
抽取裝置,抽取該文檔的結(jié)構(gòu)元素,所述結(jié)構(gòu)元素至少包含標(biāo)題元素,其中,該文檔包括多個結(jié)構(gòu)上的層,所述結(jié)構(gòu)上的層至少包含標(biāo)題層,且每個結(jié)構(gòu)元素對應(yīng)于各自的層;
層內(nèi)權(quán)重確定裝置,確定除了標(biāo)題層以外的一層中的被抽取的結(jié)構(gòu)元素在其對應(yīng)的層內(nèi)的層內(nèi)權(quán)重;
跨層權(quán)重確定裝置,確定所述被抽取的結(jié)構(gòu)元素與除了其對應(yīng)的層和標(biāo)題層以外的其他層中的結(jié)構(gòu)元素之間的跨層權(quán)重;
全局權(quán)重確定裝置,確定所述被抽取的結(jié)構(gòu)元素與標(biāo)題元素之間的全局權(quán)重;
最后權(quán)重確定裝置,組合被抽取的結(jié)構(gòu)元素的層內(nèi)權(quán)重、跨層權(quán)重和全局權(quán)重來確定所述被抽取的結(jié)構(gòu)元素的最后權(quán)重;以及
關(guān)鍵元素獲得裝置,根據(jù)所述一層中的被抽取的結(jié)構(gòu)元素的最后權(quán)重,來獲得所述一層中的一個或多個關(guān)鍵元素。
11.根據(jù)權(quán)利要求10所述的設(shè)備,其中所述結(jié)構(gòu)元素還包括區(qū)域元素、段落元素、句子元素、詞元素、字元素中的一個或多個,所述結(jié)構(gòu)上的層還包括區(qū)域?qū)印⒍温鋵印⒕渥訉印⒃~層和字層中的一個或多個。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于株式會社理光,未經(jīng)株式會社理光許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010218148.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種硅液新材料蓄電池
- 下一篇:一種具備總線通信的機器人示教盒及其控制方法





