[發(fā)明專利]基于本體的文檔分析和注釋生成在審
| 申請?zhí)枺?/td> | 202010080072.7 | 申請日: | 2020-02-04 |
| 公開(公告)號: | CN111539193A | 公開(公告)日: | 2020-08-14 |
| 發(fā)明(設(shè)計)人: | B·布爾;P·L·費爾特;A·希克斯 | 申請(專利權(quán))人: | 國際商業(yè)機器公司 |
| 主分類號: | G06F40/205 | 分類號: | G06F40/205;G06F40/169;G06F40/279;G06F40/30;G06F16/35 |
| 代理公司: | 北京市金杜律師事務(wù)所 11256 | 代理人: | 酆迅;彭夢曄 |
| 地址: | 美國紐*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 本體 文檔 分析 注釋 生成 | ||
提供了用于認知注釋的技術(shù)。接收包括文本數(shù)據(jù)的電子文檔。通過使用經(jīng)訓(xùn)練的段落編碼器處理電子文檔來為電子文檔中包括的多個單詞生成多個重要性得分。基于多個重要性得分來標(biāo)識重要單詞。生成一個或多個單詞集群,其中一個或多個單詞集群中的每個包括多個重要單詞中的至少一個。為第一集群選擇代表性單詞,并且將代表性單詞映射到來自預(yù)定義概念列表的一個或多個概念。對一個或多個概念進行消歧以標(biāo)識電子文檔的相關(guān)概念集合。至少部分基于相關(guān)概念集合來生成電子文檔的帶注釋的版本。
背景技術(shù)
本公開涉及文檔分析,并且更具體地涉及認知地注釋電子文檔以改善搜索功能。
在各種各樣的領(lǐng)域中,收集和評估文檔和文獻,以便研究新的或舊的問題并且擴大理解。例如,在法律領(lǐng)域,經(jīng)常收集包括法院意見、論文、文章等在內(nèi)的文檔,以允許用戶搜索可用文獻以確定如何繼續(xù)進行。類似地,醫(yī)療領(lǐng)域的用戶經(jīng)常利用醫(yī)療語料庫來標(biāo)識潛在的治療選項。為了改善這些語料庫的功能和可用性,主題專家可以花時間閱讀文檔并且編寫標(biāo)記、標(biāo)題、注釋、標(biāo)簽等。但是,該過程昂貴且費時。考慮到新文檔變?yōu)榭捎玫乃俣龋瑸檎麄€語料庫維護這些注釋是不切實際的。此外,這些注釋本質(zhì)上是主觀的,并且經(jīng)常包括錯誤。這些不完整或不準(zhǔn)確的標(biāo)題使文檔的搜索和索引效率和準(zhǔn)確性大大降低。
發(fā)明內(nèi)容
根據(jù)本公開的一個實施例,提供了一種方法。該方法包括接收包括文本數(shù)據(jù)的電子文檔。該方法還包括通過使用經(jīng)訓(xùn)練的段落編碼器處理電子文檔來為電子文檔中包括的多個單詞生成多個重要性得分。另外,該方法包括基于多個重要性得分來從多個單詞中標(biāo)識多個重要單詞。該方法還包括根據(jù)多個重要單詞生成一個或多個單詞集群,其中一個或多個單詞集群中的每個包括多個重要單詞中的至少一個。為一個或多個單詞集群中的第一集群選擇代表性單詞,并且將第一集群的代表性單詞映射到來自預(yù)定義概念列表的一個或多個概念。該方法還包括通過一個或多個計算機處理器的操作來對一個或多個概念進行消歧以標(biāo)識電子文檔的相關(guān)概念集合。最后,該方法包括至少部分基于相關(guān)概念集合來生成電子文檔的帶注釋的版本。
根據(jù)本公開的第二實施例,提供了一種計算機可讀存儲介質(zhì)。該計算機可讀存儲介質(zhì)具有利用其實施的計算機可讀程序代碼,該計算機可讀程序代碼由一個或多個計算機處理器可執(zhí)行以執(zhí)行操作。該操作包括接收包括文本數(shù)據(jù)的電子文檔。該操作還包括通過使用經(jīng)訓(xùn)練的段落編碼器處理電子文檔來為電子文檔中包括的多個單詞生成多個重要性得分。另外,該操作包括基于多個重要性得分來從多個單詞中標(biāo)識多個重要單詞。該操作還包括根據(jù)多個重要單詞生成一個或多個單詞集群,其中一個或多個單詞集群中的每個包括多個重要單詞中的至少一個。為一個或多個單詞集群中的第一集群選擇代表性單詞,并且將第一集群的代表性單詞映射到來自預(yù)定義概念列表的一個或多個概念。該操作還包括對一個或多個概念進行消歧以標(biāo)識電子文檔的相關(guān)概念集合。最后,該操作包括至少部分基于相關(guān)概念集合來生成電子文檔的帶注釋的版本。
根據(jù)本公開的第二實施例,提供了一種系統(tǒng)。該系統(tǒng)包括存儲器,該存儲器包含程序,該程序在由一個或多個計算機處理器執(zhí)行時執(zhí)行操作。該操作包括接收包括文本數(shù)據(jù)的電子文檔。該操作還包括通過使用經(jīng)訓(xùn)練的段落編碼器處理電子文檔來為電子文檔中包括的多個單詞生成多個重要性得分。另外,該操作包括基于多個重要性得分來從多個單詞中標(biāo)識多個重要單詞。該操作還包括根據(jù)多個重要單詞生成一個或多個單詞集群,其中一個或多個單詞集群中的每個包括多個重要單詞中的至少一個。為一個或多個單詞集群中的第一集群選擇代表性單詞,并且將第一集群的代表性單詞映射到來自預(yù)定義概念列表的一個或多個概念。該操作還包括對一個或多個概念進行消歧以標(biāo)識電子文檔的相關(guān)概念集合。最后,該操作包括至少部分基于相關(guān)概念集合來生成電子文檔的帶注釋的版本。
附圖說明
圖1示出了根據(jù)本文中公開的一個實施例的用于動態(tài)地分析和生成電子文檔的注釋的工作流;
圖2是示出根據(jù)本文中公開的一個實施例的被配置為分析和分類電子文檔的文檔分析器的框圖;
圖3是示出根據(jù)本文中公開的一個實施例的用于注釋電子文檔以實現(xiàn)改進的搜索功能的方法的流程圖;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于國際商業(yè)機器公司,未經(jīng)國際商業(yè)機器公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010080072.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





