[發(fā)明專利]結(jié)構(gòu)化數(shù)據(jù)提取裝置、方法及存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 201811196902.1 | 申請日: | 2018-10-15 |
| 公開(公告)號: | CN109299179A | 公開(公告)日: | 2019-02-01 |
| 發(fā)明(設(shè)計)人: | 許娟;劉超;劉寧 | 申請(專利權(quán))人: | 西門子醫(yī)療系統(tǒng)有限公司 |
| 主分類號: | G06F16/25 | 分類號: | G06F16/25;G06F16/22 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 201318 上海市浦東*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文本特征表示 訓(xùn)練文本 目標(biāo)信息 預(yù)估 標(biāo)注信息 存儲介質(zhì) 定位策略 目標(biāo)文本 復(fù)數(shù) 文本 信息提取裝置 結(jié)構(gòu)化數(shù)據(jù) 準(zhǔn)確度 語義 獲取目標(biāo) 提取裝置 信息提取 指示目標(biāo) 預(yù)設(shè) 分析 | ||
1.一種信息提取裝置,其特征在于,包括:
一學(xué)習(xí)模塊,用于獲取復(fù)數(shù)個訓(xùn)練文本,及預(yù)設(shè)的用于指示目標(biāo)信息在其中每個訓(xùn)練文本中位置的標(biāo)注信息;獲取所述復(fù)數(shù)個訓(xùn)練文本中每個訓(xùn)練文本對應(yīng)的第一文本特征表示信息;利用所述第一文本特征表示信息和所述標(biāo)注信息確定一定位策略;及
一提取模塊,用于獲取目標(biāo)文本及所述目標(biāo)文本對應(yīng)的第二文本特征表示信息,利用所述定位策略確定所述目標(biāo)信息在所述第二文本特征表示信息中的位置的預(yù)估信息;根據(jù)所述預(yù)估信息從所述目標(biāo)文本中提取出所述目標(biāo)信息。
2.根據(jù)權(quán)利要求1所述的信息提取裝置,其特征在于,所述學(xué)習(xí)模塊包括:
一元素學(xué)習(xí)單元,用于確定所述目標(biāo)信息對應(yīng)的預(yù)設(shè)的復(fù)數(shù)個信息元素,從所述標(biāo)注信息中獲取所述復(fù)數(shù)個信息元素中每個信息元素的元素標(biāo)注信息,所述元素標(biāo)注信息用于指示相應(yīng)的信息元素在每個訓(xùn)練文本中的位置;利用所述第一文本特征表示信息和所述元素標(biāo)注信息確定所述復(fù)數(shù)個信息元素中每個信息元素的元素定位策略作為所述定位策略;
其中,所述提取模塊用于,利用所述元素定位策略確定所述復(fù)數(shù)個信息元素中每個信息元素在所述第二文本特征表示信息中的元素位置,根據(jù)所述元素位置從所述目標(biāo)文本中提取所述復(fù)數(shù)個信息元素對應(yīng)的文本內(nèi)容作為所述目標(biāo)信息。
3.根據(jù)權(quán)利要求2所述的信息提取裝置,其特征在于,所述提取模塊包括:
一元素提取單元,用于根據(jù)所述元素位置從所述目標(biāo)文本中提取所述復(fù)數(shù)個信息元素中每個信息元素對應(yīng)的文本內(nèi)容;
一數(shù)據(jù)生成單元,用于利用所述文本內(nèi)容生成結(jié)構(gòu)化數(shù)據(jù)作為所述目標(biāo)信息;其中,所述結(jié)構(gòu)化數(shù)據(jù)包括復(fù)數(shù)個數(shù)據(jù)條目,其中每個數(shù)據(jù)條目包括所述復(fù)數(shù)個信息元素中的一個信息元素的元素標(biāo)識和相應(yīng)的文本內(nèi)容。
4.根據(jù)權(quán)利要求1-3中任一權(quán)利要求所述的信息提取裝置,其特征在于,進(jìn)一步包括:
一標(biāo)簽確定模塊,用于獲取復(fù)數(shù)個第二訓(xùn)練文本中每個第二訓(xùn)練文本的預(yù)設(shè)的內(nèi)容標(biāo)簽,利用所述第一文本特征表示信息和所述內(nèi)容標(biāo)簽確定分類策略;利用所述分類策略和所述第二文本特征表示信息確定所述目標(biāo)文本的內(nèi)容標(biāo)簽;
一信息輸出模塊,用于利用所述目標(biāo)文本的內(nèi)容標(biāo)簽和從所述目標(biāo)文本提取的所述目標(biāo)信息生成所述目標(biāo)文本對應(yīng)的數(shù)據(jù)集,并輸出所述數(shù)據(jù)集;
其中,所述學(xué)習(xí)模塊用于,將所述復(fù)數(shù)個第二訓(xùn)練文本中具有第一內(nèi)容標(biāo)簽的復(fù)數(shù)個第二訓(xùn)練文本選取為所述復(fù)數(shù)個訓(xùn)練文本,將所述定位策略確定為所述第一內(nèi)容標(biāo)簽對應(yīng)的定位策略;
所述提取模塊用于,當(dāng)所述目標(biāo)文本的內(nèi)容標(biāo)簽為所述第一內(nèi)容標(biāo)簽時,利用所述第一內(nèi)容標(biāo)簽對應(yīng)的所述定位策略從所述目標(biāo)文本中提取出所述目標(biāo)信息。
5.根據(jù)權(quán)利要求4所述的信息提取裝置,其特征在于,進(jìn)一步包括:
一元素設(shè)定模塊,用于從所述標(biāo)注信息中獲取所述復(fù)數(shù)個訓(xùn)練文本中每個訓(xùn)練文本中的目標(biāo)信息所包括的信息元素,根據(jù)所述復(fù)數(shù)個訓(xùn)練文本的內(nèi)容標(biāo)簽和所述每個訓(xùn)練文本的目標(biāo)信息所包括的信息元素確定復(fù)數(shù)個內(nèi)容標(biāo)簽中每個內(nèi)容標(biāo)簽對應(yīng)的信息元素集合,所述信息元素集合包括至少一個信息元素;
其中,所述提取模塊用于,獲取所述目標(biāo)文本的內(nèi)容標(biāo)簽對應(yīng)的信息元素集合作為目標(biāo)元素集合;針對所述目標(biāo)元素集合中的每個信息元素,利用所述定位策略從所述目標(biāo)文本中提取出所述信息元素對應(yīng)的文本內(nèi)容;將所述目標(biāo)元素集合中各信息元素的元素標(biāo)識和相應(yīng)的所述文本內(nèi)容作為所述目標(biāo)信息。
6.根據(jù)權(quán)利要求1-3中任一權(quán)利要求所述的信息提取裝置,其特征在于,進(jìn)一步包括:
一分割模塊,用于將復(fù)數(shù)個第二訓(xùn)練文本中的每個第二訓(xùn)練文本分為復(fù)數(shù)個訓(xùn)練文本片段,將所述復(fù)數(shù)個第二訓(xùn)練文本對應(yīng)的復(fù)數(shù)個訓(xùn)練文本片段作為所述復(fù)數(shù)個訓(xùn)練文本;將第二目標(biāo)文本劃分為復(fù)數(shù)個目標(biāo)文本片段,將所述復(fù)數(shù)個目標(biāo)文本片段作為所述目標(biāo)文本;
一信息輸出模塊,用于利用所述第二目標(biāo)文本的信息和從所述復(fù)數(shù)個目標(biāo)文本片段中提取的目標(biāo)信息生成所述第二目標(biāo)文本對應(yīng)的數(shù)據(jù)集,并輸出所述數(shù)據(jù)集。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西門子醫(yī)療系統(tǒng)有限公司,未經(jīng)西門子醫(yī)療系統(tǒng)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811196902.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





