[發(fā)明專利]用于選擇用以代表表格式信息的方法和系統(tǒng)有效
申請?zhí)枺?/td> | 201410678045.4 | 申請日: | 2014-11-21 |
公開(公告)號: | CN104714931B | 公開(公告)日: | 2019-04-12 |
發(fā)明(設計)人: | D·K·比榮;S·N·格拉德;A·皮科維斯基 | 申請(專利權)人: | 國際商業(yè)機器公司 |
主分類號: | G06F17/21 | 分類號: | G06F17/21 |
代理公司: | 北京市金杜律師事務所 11256 | 代理人: | 酆迅 |
地址: | 美國紐*** | 國省代碼: | 美國;US |
權利要求書: | 查看更多 | 說明書: | 查看更多 |
摘要: | |||
搜索關鍵詞: | 用于 選擇 用以 表表 格式 信息 方法 系統(tǒng) | ||
選擇與表格對應的表格結構以描述表格結構中的單元格配對中的單元格何時應當彼此相似。選擇單元格相似度函數(shù)以根據(jù)準則來比較單元格配對中的單元格并且輸出單元格配對包括包含有彼此相似的值的單元格的概率。根據(jù)單元格相似度函數(shù)來確定表格結構中的第一單元格配對中的第一單元格和第二單元格彼此相似的單元格相似概率。使用單元格相似概率來調(diào)整表格結構代表表格的計算的概率。將所計算的概率指示為第一模型代表表格的概率,其中第一模型是表格結構和所選擇的單元格相似度函數(shù)的函數(shù)。
技術領域
本發(fā)明總體上涉及用于處理文檔的方法、系統(tǒng)和計算機程序產(chǎn)品。更具體地,本發(fā)明涉及用于選擇用以代表表格式信息的結構的方法、系統(tǒng)和計算機程序產(chǎn)品。
背景技術
文檔包括很多形式的信息。例如,被布置為語句和段落的文本信息傳達敘述形式的信息。
一些類型的信息用表格式組織來呈現(xiàn)。例如,文檔可以包括用于呈現(xiàn)財務信息、組織信息以及總體上通過某種關系彼此相關的任何數(shù)據(jù)項的表格。
自然語言處理(NLP)是一種有助于信息在人與數(shù)據(jù)處理系統(tǒng)之間的交換的技術。例如,NLP的一個分支涉及將給定內(nèi)容變換成人類可用的語言或形式。例如,NLP可以接受其內(nèi)容是計算機專用語言或形式的文檔,并且產(chǎn)生其對應內(nèi)容是人類可讀形式的文檔。
問答系統(tǒng)(Q&A系統(tǒng))是一種在數(shù)據(jù)處理硬件上執(zhí)行的人工智能應用。Q&A系統(tǒng)回答與用自然語言所呈現(xiàn)的給定主題領域有關的問題。
通常,Q&A系統(tǒng)提供有對如下領域特定信息的集合的訪問:Q&A系統(tǒng)基于該領域特定信息的集合回答與該領域有關的問題。例如,Q&A系統(tǒng)訪問關于該領域的知識體系,其中知識體系(知識庫)可以按照各種配置來組織。例如,某個領域的知識庫可以包括領域特定信息的結構化存儲庫、諸如與該領域有關的本體論或非結構化數(shù)據(jù)、或者關于該領域的自然語言文檔的集合。IBM Watson是Q&A系統(tǒng)的一個示例。(IBM和Watson是美國和其他國家的國際商用機器公司的商標)。
Q&A系統(tǒng)可以被配置成接收來自各種源的輸入。例如,Q&A系統(tǒng)可以通過網(wǎng)絡接收以下內(nèi)容作為輸入:電子文檔或其他數(shù)據(jù)的語料庫、來自內(nèi)容創(chuàng)建者的數(shù)據(jù)、來自一個或多個內(nèi)容用戶的信息、以及來自其他可能的輸入源的其他這樣的輸入。至Q&A系統(tǒng)的輸入中的一些或所有輸入可以通過網(wǎng)絡102來被路由。網(wǎng)絡上的各種計算設備可以包括用于內(nèi)容創(chuàng)建者和內(nèi)容用戶的訪問點。這些計算設備中的一些計算設備可以包括用于存儲數(shù)據(jù)的語料庫的設備。網(wǎng)絡可以包括本地網(wǎng)絡連接和遠程連接,使得Q&A系統(tǒng)可以在任何尺寸的環(huán)境、包括本地和全局環(huán)境、例如因特網(wǎng)中進行操作。另外地,Q&A系統(tǒng)可以被配置成用作前端系統(tǒng),該前端系統(tǒng)能夠使得從文檔、網(wǎng)絡可訪問的源和/或結構化的數(shù)據(jù)源提取的或在其中代表的各種知識可用。以這一方式,一些處理填充具有輸入接口的Q&A系統(tǒng)以接收知識請求以及相應地接收響應。
內(nèi)容創(chuàng)建者在文檔中創(chuàng)建內(nèi)容用于作為數(shù)據(jù)的語料庫的一部分、通過Q&A系統(tǒng)來使用。文檔可以包括用于在Q&A系統(tǒng)中使用的任何文件、文本、文章或數(shù)據(jù)源。內(nèi)容用戶向Q&A系統(tǒng)中輸入問題,這些問題由Q&A系統(tǒng)使用數(shù)據(jù)的語料庫中的內(nèi)容來回答。在處理針對語義內(nèi)容評估文檔的給定部分時,處理可以使用各種約定來向Q&A系統(tǒng)詢問這樣的文檔。一個約定是將詢問作為格式良好的問題發(fā)送給Q&A系統(tǒng)。語義內(nèi)容是基于能指(signifier)、諸如詞語、短語、標記和符號之間的關系的內(nèi)容、以及它們代表什么、它們的意義或者蘊意。換言之,語義內(nèi)容是諸如通過使用自然語言處理來解釋表達的內(nèi)容。
處理向Q&A系統(tǒng)發(fā)送形式合法的問題(例如自然語言問題)。Q&A系統(tǒng)解釋問題并且向內(nèi)容用戶提供包含問題的一個或多個答案的響應。Q&A系統(tǒng)還可以按答案的經(jīng)排序的列表向用戶提供響應。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國際商業(yè)機器公司,未經(jīng)國際商業(yè)機器公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410678045.4/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。