[發(fā)明專利]概念驅動的自動分節(jié)標識有效
| 申請?zhí)枺?/td> | 201410483039.3 | 申請日: | 2014-09-19 |
| 公開(公告)號: | CN104516942B | 公開(公告)日: | 2018-04-17 |
| 發(fā)明(設計)人: | P·E·布蘭南;S·R·卡里爾;S·R·麥卡蒂爾;D·J·麥克洛斯基 | 申請(專利權)人: | 國際商業(yè)機器公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/28 |
| 代理公司: | 北京市金杜律師事務所11256 | 代理人: | 酆迅,辛鳴 |
| 地址: | 美國紐*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 概念 驅動 自動 分節(jié) 標識 | ||
1.一種在包括處理器和存儲器的數(shù)據(jù)處理系統(tǒng)中的用于生成用于電子文檔的分節(jié)元數(shù)據(jù)的方法,所述方法包括:
由所述數(shù)據(jù)處理系統(tǒng)接收用于處理的電子文檔;
由所述數(shù)據(jù)處理系統(tǒng)分析所述電子文檔以標識在所述電子文檔的文本內容內存在的概念;
由所述數(shù)據(jù)處理系統(tǒng)使在所述文本內容內的概念相互相關以基于定義有關概念或者概念模式的一個或者多個規(guī)則的應用來標識在所述文本內容內的概念組;
由所述數(shù)據(jù)處理系統(tǒng)基于在所述文本內容內的概念的相關性來確定在所述文本內容內的至少一個文本分節(jié);
由所述數(shù)據(jù)處理系統(tǒng)基于所述確定的結果生成用于所述電子文檔的分節(jié)元數(shù)據(jù)以由此標識在所述電子文檔中的所述至少一個分節(jié);以及
由所述數(shù)據(jù)處理系統(tǒng),與所述電子文檔關聯(lián)地存儲所述分節(jié)元數(shù)據(jù)以用于由文檔處理系統(tǒng)使用。
2.根據(jù)權利要求1所述的方法,其中確定在所述文本內容內的至少一個文本分節(jié)還包括利用指定多個概念或者概念組的知識庫并且確定在所述知識庫中的每個概念或者概念組與所述文本內容的部分之間的仿射性測量。
3.根據(jù)權利要求1所述的方法,其中確定在所述文本內容內的至少一個文本分節(jié)還包括確定在所述文本內容中的候選文本分節(jié)中的概念到在所述文本內容中的分節(jié)頭部之間的仿射性測量。
4.根據(jù)權利要求1所述的方法,其中確定在所述文本內容內的至少一個文本分節(jié)還包括:
標識在所述電子文檔內的候選分節(jié)標題和提出的文本分節(jié);
基于在所述提出的文本分節(jié)內的一個或者多個概念元素確定所述提出的文本分節(jié)是否具有與所述候選分節(jié)標題的閾值仿射性測量;以及
響應于所述提出的文本分節(jié)具有與所述候選分節(jié)標題的至少所述閾值仿射性測量來將所述提出的文本分節(jié)選擇為與所述候選分節(jié)標題關聯(lián)的實際文本分節(jié)。
5.根據(jù)權利要求4所述的方法,其中所述候選分節(jié)標題是從與所述提出的文本分節(jié)關聯(lián)的概念或者概念組推斷的分節(jié)標題。
6.根據(jù)權利要求1所述的方法,其中基于在所述文本內容內的概念的相關性確定在所述文本內容內的至少一個文本分節(jié)包括執(zhí)行在所述文本內容內的所述概念的統(tǒng)計分析,其中所述統(tǒng)計分析包括以下中的至少一種:概念密度分析、逆文檔頻率分析或者在所述文本內容內的多個提出的文本分節(jié)之中的概念共性分析。
7.根據(jù)權利要求1所述的方法,其中所述文本內容不具有關聯(lián)結構標注,并且其中基于在所述文本內容內的概念的相關性確定在所述文本內容內的至少一個文本分節(jié)被執(zhí)行而未考慮所述文本內容關聯(lián)的結構標注。
8.根據(jù)權利要求1所述的方法,其中基于在所述文本內容內的概念的相關性確定在所述文本內容內的至少一個文本分節(jié)還包括也基于與所述文本內容關聯(lián)的結構標注確定在所述文本內容內的所述至少一個文本分節(jié)。
9.根據(jù)權利要求1所述的方法,其中所述文檔處理系統(tǒng)是自然語言處理系統(tǒng),并且其中所述方法還包括基于與所述電子文檔關聯(lián)的所述分節(jié)元數(shù)據(jù)對所述電子文檔執(zhí)行自然語言處理。
10.根據(jù)權利要求1所述的方法,其中所述文檔處理系統(tǒng)是問題和答案系統(tǒng),并且其中所述電子文檔是由所述問題和答案系統(tǒng)攝取的文檔語料庫的部分,并且其中所述方法還包括使用與所述電子文檔關聯(lián)的所述分節(jié)元數(shù)據(jù)對輸入問題執(zhí)行問題回答操作,其中所述分節(jié)元數(shù)據(jù)被所述問題和答案系統(tǒng)用來修改與從所述電子文檔獲得的候選答案關聯(lián)的分數(shù)。
11.一種在包括處理器和存儲器的數(shù)據(jù)處理系統(tǒng)中的用于生成用于電子文檔的分節(jié)元數(shù)據(jù)的系統(tǒng),所述系統(tǒng)包括被配置為實施根據(jù)權利要求1至10中的任一權利要求所述的方法的模塊。
12.一種在包括處理器和存儲器的數(shù)據(jù)處理系統(tǒng)中的用于生成用于電子文檔的分節(jié)元數(shù)據(jù)的裝置,包括:
處理器;以及
耦合到所述處理器的存儲器,其中所述存儲器包括指令,所述指令在被所述處理器執(zhí)行時,使所述處理器:
接收用于處理的電子文檔;
分析所述電子文檔以標識在所述電子文檔的文本內容內存在的概念;
使在所述文本內容內的概念相互相關以基于定義有關概念或者概念模式的一個或者多個規(guī)則的應用來標識在所述文本內容內的概念組;
基于在所述文本內容內的概念的相關性來確定在所述文本內容內的至少一個文本分節(jié);
基于所述確定的結果生成用于所述電子文檔的分節(jié)元數(shù)據(jù)以由此標識在所述電子文檔中的所述至少一個分節(jié);以及
與所述電子文檔關聯(lián)地存儲所述分節(jié)元數(shù)據(jù)以用于由文檔處理系統(tǒng)使用。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國際商業(yè)機器公司,未經國際商業(yè)機器公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410483039.3/1.html,轉載請聲明來源鉆瓜專利網。





