[發明專利]概念驅動的自動分節標識有效
| 申請號: | 201410483039.3 | 申請日: | 2014-09-19 |
| 公開(公告)號: | CN104516942B | 公開(公告)日: | 2018-04-17 |
| 發明(設計)人: | P·E·布蘭南;S·R·卡里爾;S·R·麥卡蒂爾;D·J·麥克洛斯基 | 申請(專利權)人: | 國際商業機器公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/28 |
| 代理公司: | 北京市金杜律師事務所11256 | 代理人: | 酆迅,辛鳴 |
| 地址: | 美國紐*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 概念 驅動 自動 分節 標識 | ||
技術領域
本申請總體上涉及一種改進的數據處理裝置和方法,并且更具體地涉及用于概念驅動的自動分節標識的機制。
背景技術
隨著計算網絡(比如因特網)的使用增加,人們當前被來自各種結構化和非結構化來源的可用于他們的信息量淹沒和壓倒。然而,信息差距在用戶試圖拼湊他們可以在搜尋關于各種主題的信息期間發現他們認為相關的信息時大量存在。為了輔助這樣的搜索,新近研究已經涉及生成問題和答案(QA)系統,該QA系統可以取得輸入問題、分析它并且返回指示對輸入問題的最可能答案的結果。QA系統提供用于搜索內容源(例如,電子文檔)的大型集合的自動化機制,并且關于輸入問題分析他們以確定對問題的答案和關于答案如何準確用于回答輸入問題的置信度測量。
一種這樣的QA系統是從紐約阿芒克的國際商業機器公司(IBM)可獲得的WatsonTM系統。WatsonTM系統是高級自然語言處理、信息檢索、知識表示和推理以及機器學習技術向開域問題回答領域的應用。WatsonTM系統在IBM的用于假設生成、大量證據收集、分析和打分的DeepQATM技術上被構建。DeepQATM取得輸入問題、分析它、將問題分解成組成部分、基于分解的問題和答案來源的主要搜索的結果生成一個或者多個假設、基于從證據來源檢索證據來執行假設和證據打分、執行一個或者多個假設的合成并且基于訓練的模型執行最終合并和排行以與置信度測量一起輸出對輸入問題的答案。
各種美國專利申請公開文本描述了各種類型的問題和答案系統。美國專利申請公開文號2011/0125734公開了一種用于基于數據語料庫生成問題和答案對的機制。該系統始于問題集合并且然后分析內容集合以提取對那些問題的答案。美國專利申請公開號2011/0066587公開了一種用于將分析的信息的報告轉換成問題匯集并且確定用于問題匯集的答案是否從信息集合被回答或者反駁的機制。結果數據被并入到更新的信息模型。
由QA系統或者其它電子文檔處理系統生成的結果的質量經常依賴于用于從文檔提取信息的能力。為了輔助這樣的電子處理,元數據經常與可以由這些電子文檔處理系統解析和處理的電子文檔關聯。然而,與電子文檔本身的內容一樣,由電子文檔處理系統生成的結果的質量也受在這一元數據中提供的信息的數量和質量限制。
發明內容
在一個例示性實施例中,提供了一種在包括處理器和存儲器的數據處理系統中的用于生成用于電子文檔的分節元數據的方法。該方法包括由數據處理系統接收用于處理的電子文檔并且由數據處理系統分析電子文檔以標識在電子文檔的文本內容內存在的概念。該方法還包括由數據處理系統使在文本內容內的概念相互相關以基于定義有關概念或者概念模式的一個或者多個規則的應用來標識在文本內容內的概念組。此外,該方法包括由數據處理系統基于在文本內容內的概念的相關性來確定在文本內容內的至少一個文本分節。另外,該方法包括由數據處理系統基于該確定的結果生成用于電子文檔的分節元數據以由此標識在電子文檔中的至少一個分節。該方法還包括由數據處理系統與電子文檔關聯地存儲分節元數據以用于由文檔處理系統使用。
在其它例示性實施例中,提供了一種包括計算機可用或者可讀介質的計算機程序產品,該計算機可用或者可讀介質具有計算機可讀程序。計算機可讀程序當在數據處理系統或者計算設備上被執行時,使數據處理系統或者計算設備執行以上關于方法例示性實施例概述的操作中的各種操作和組合。
在又一例示性實施例中,提供了一種系統/裝置。該系統/裝置可以包括一個或者多個處理器和耦合到一個或者多個處理器的存儲器。存儲器可以包括指令,這些指令在由一個或者多個處理器執行時,使一個或者多個處理器執行以上關于方法例示性實施例概述的操作中的各種操作和組合。
本發明的這些和其它特征以及優點將在本發明的示例實施例的以下具體描述中被描述或者按照以下具體描述將變得為本領域普通技術人員所清楚。
附圖說明
將通過參照在結合附圖閱讀時的例示性實施例的以下具體描述來最好地理解本發明及其優選使用方式和更多目的及優點,其中:
圖1描繪了計算機網絡中的問題和答案(QA)系統的一個例示性實施例的示意圖;
圖2描繪了圖1的QA系統的一個實施例的示意圖;
圖3描繪了根據一個例示性實施例的問題和答案系統分析流水線的示例框圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國際商業機器公司,未經國際商業機器公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410483039.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種管理數據庫日志的方法及裝置
- 下一篇:影像筆記方法及系統





