[發(fā)明專利]基于本體的文檔分析和注釋生成在審
| 申請(qǐng)?zhí)枺?/td> | 202010080072.7 | 申請(qǐng)日: | 2020-02-04 |
| 公開(kāi)(公告)號(hào): | CN111539193A | 公開(kāi)(公告)日: | 2020-08-14 |
| 發(fā)明(設(shè)計(jì))人: | B·布爾;P·L·費(fèi)爾特;A·??怂?/a> | 申請(qǐng)(專利權(quán))人: | 國(guó)際商業(yè)機(jī)器公司 |
| 主分類號(hào): | G06F40/205 | 分類號(hào): | G06F40/205;G06F40/169;G06F40/279;G06F40/30;G06F16/35 |
| 代理公司: | 北京市金杜律師事務(wù)所 11256 | 代理人: | 酆迅;彭夢(mèng)曄 |
| 地址: | 美國(guó)紐*** | 國(guó)省代碼: | 暫無(wú)信息 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 本體 文檔 分析 注釋 生成 | ||
1.一種方法,包括:
接收包括文本數(shù)據(jù)的電子文檔;
通過(guò)使用經(jīng)訓(xùn)練的段落編碼器處理所述電子文檔來(lái)為所述電子文檔中包括的多個(gè)單詞生成多個(gè)重要性得分;
基于所述多個(gè)重要性得分來(lái)從所述多個(gè)單詞中標(biāo)識(shí)多個(gè)重要單詞;
根據(jù)所述多個(gè)重要單詞生成一個(gè)或多個(gè)單詞集群,其中所述一個(gè)或多個(gè)單詞集群中的每個(gè)單詞集群包括所述多個(gè)重要單詞中的至少一個(gè)重要單詞;
為所述一個(gè)或多個(gè)單詞集群中的第一集群選擇代表性單詞;
將針對(duì)所述第一集群的所述代表性單詞映射到來(lái)自預(yù)定義概念列表的一個(gè)或多個(gè)概念;
通過(guò)一個(gè)或多個(gè)計(jì)算機(jī)處理器的操作來(lái)對(duì)所述一個(gè)或多個(gè)概念進(jìn)行消歧以標(biāo)識(shí)針對(duì)所述電子文檔的相關(guān)概念集合;以及
至少部分基于所述相關(guān)概念集合來(lái)生成所述電子文檔的帶注釋的版本。
2.根據(jù)權(quán)利要求1所述的方法,其中標(biāo)識(shí)所述多個(gè)重要單詞包括:
為所述電子文檔中的每個(gè)單詞生成重要性得分;以及
確定針對(duì)所述電子文檔的預(yù)期重要性得分;以及
從所述電子文檔中選擇重要性得分超過(guò)所述預(yù)期重要性得分的單詞。
3.根據(jù)權(quán)利要求1所述的方法,其中生成所述一個(gè)或多個(gè)單詞集群包括:
為所述多個(gè)重要單詞中的每個(gè)相應(yīng)單詞生成相應(yīng)矢量;以及
對(duì)超過(guò)預(yù)定義相似性閾值的矢量進(jìn)行聚類。
4.根據(jù)權(quán)利要求1所述的方法,所述方法還包括:
基于將所述相關(guān)概念集合映射到預(yù)定義搜索項(xiàng)集合來(lái)生成概括所述電子文檔的多個(gè)項(xiàng)。
5.根據(jù)權(quán)利要求4所述的方法,其中所述預(yù)定義搜索項(xiàng)集合包括醫(yī)學(xué)主題(MeSH)項(xiàng)。
6.根據(jù)權(quán)利要求1所述的方法,其中所述段落編碼器是遞歸神經(jīng)網(wǎng)絡(luò)(RNN)。
7.根據(jù)權(quán)利要求1所述的方法,其中所述預(yù)定義概念列表包括統(tǒng)一醫(yī)學(xué)語(yǔ)言系統(tǒng)(UMLS)概念唯一標(biāo)識(shí)符(CUI)。
8.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),具有利用其實(shí)施的計(jì)算機(jī)可讀程序代碼,所述計(jì)算機(jī)可讀程序代碼由一個(gè)或多個(gè)計(jì)算機(jī)處理器可執(zhí)行以執(zhí)行根據(jù)權(quán)利要求1至7中任一項(xiàng)所述的方法。
9.一種系統(tǒng),包括:
一個(gè)或多個(gè)計(jì)算機(jī)處理器;以及
包含程序的存儲(chǔ)器,所述程序在由所述一個(gè)或多個(gè)計(jì)算機(jī)處理器執(zhí)行時(shí)執(zhí)行根據(jù)權(quán)利要求1至7中任一項(xiàng)所述的方法。
10.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)具有利用其實(shí)施的計(jì)算機(jī)可讀程序代碼,所述計(jì)算機(jī)可讀程序代碼由一個(gè)或多個(gè)計(jì)算機(jī)處理器可執(zhí)行以執(zhí)行根據(jù)權(quán)利要求1至7中任一項(xiàng)所述的方法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于國(guó)際商業(yè)機(jī)器公司,未經(jīng)國(guó)際商業(yè)機(jī)器公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010080072.7/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種電子文檔識(shí)別方法及裝置
- 文檔匹配方法和文檔匹配裝置
- 復(fù)雜文檔分離組織方法以及復(fù)雜文檔自動(dòng)生成方法
- 一種文檔流程控制方法及裝置
- 云文檔加密及解密方法、加密及解密裝置、以及處理系統(tǒng)
- 一種將Markdown文檔轉(zhuǎn)換為PDF文檔的方法、裝置
- 文檔類型識(shí)別方法、裝置、設(shè)備和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 基于文檔編輯軟件的文檔處理方法、裝置、設(shè)備及介質(zhì)
- 一種引用文檔的更新方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 文檔操作錄制方法、文檔操作動(dòng)畫(huà)生成方法、裝置及設(shè)備





