[發(fā)明專利]基于少量樣本的信息提取方法、裝置和計(jì)算機(jī)設(shè)備在審
| 申請(qǐng)?zhí)枺?/td> | 201811535440.1 | 申請(qǐng)日: | 2018-12-14 |
| 公開(kāi)(公告)號(hào): | CN109783604A | 公開(kāi)(公告)日: | 2019-05-21 |
| 發(fā)明(設(shè)計(jì))人: | 鄭子歐;劉媛源;張翔;于修銘;汪偉;肖京 | 申請(qǐng)(專利權(quán))人: | 平安科技(深圳)有限公司 |
| 主分類號(hào): | G06F16/33 | 分類號(hào): | G06F16/33;G06F17/27 |
| 代理公司: | 廣州華進(jìn)聯(lián)合專利商標(biāo)代理有限公司 44224 | 代理人: | 王寧 |
| 地址: | 518033 廣東省深圳市福田區(qū)福*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 字段 文本提取 標(biāo)注 樣本 計(jì)算機(jī)設(shè)備 信息提取 文本 參數(shù)調(diào)整 目標(biāo)文本 輸入目標(biāo) 字段信息 通用 大數(shù)據(jù) 高效性 預(yù)定義 申請(qǐng) | ||
本申請(qǐng)涉及大數(shù)據(jù)領(lǐng)域,提供了一種基于少量樣本的信息提取方法、裝置和計(jì)算機(jī)設(shè)備,方法包括:通過(guò)輸入少量的樣本對(duì)通用文本提取模型進(jìn)行訓(xùn)練,提取出訓(xùn)練標(biāo)注字段,并根據(jù)訓(xùn)練標(biāo)注字段和目標(biāo)標(biāo)注字段對(duì)通用文本提取模型進(jìn)行參數(shù)調(diào)整得到目標(biāo)文本提取模型,當(dāng)將待提取的文本輸入目標(biāo)文本提取模型時(shí),不用預(yù)定義待提取文本中所需要提取的字段,就能得到與目標(biāo)標(biāo)注字段同一類型的字段信息,提高了文本提取的高效性和準(zhǔn)確性。
技術(shù)領(lǐng)域
本申請(qǐng)涉及計(jì)算機(jī)技術(shù)領(lǐng)域,特別是涉及一種基于少量樣本的信息提取方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)。
背景技術(shù)
隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展,我們往往需要面對(duì)海量的數(shù)據(jù),并在海量的數(shù)據(jù)中篩選提取出有用的信息。目前,傳統(tǒng)的文本信息提取是針對(duì)某一特定領(lǐng)域的文本進(jìn)行建模,需要在建模前確定文本信息提取的字段,并且需要獲得大量相關(guān)標(biāo)注數(shù)據(jù)集進(jìn)行建模,才能從文本中提取特定的信息。
發(fā)明內(nèi)容
基于此,有必要針對(duì)上述技術(shù)問(wèn)題,提供一種基于少量樣本的信息提取方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)。
一種基于少量樣本的信息提取方法,所述方法包括:
獲取通用文本提取模型,所述通用文本提取模型用于提取標(biāo)注字段;
獲取少量訓(xùn)練樣本,所述訓(xùn)練樣本攜帶有目標(biāo)標(biāo)注字段;
將所述訓(xùn)練樣本輸入所述通用文本提取模型中進(jìn)行訓(xùn)練,得到所述通用文本提取模型對(duì)所述訓(xùn)練樣本提取得到的訓(xùn)練標(biāo)注字段;
根據(jù)所述訓(xùn)練標(biāo)注字段和所述目標(biāo)標(biāo)注字段對(duì)所述通用文本提取模型的參數(shù)進(jìn)行調(diào)整,直到滿足收斂條件,得到目標(biāo)文本提取模型;
獲取待提取文本,將所述待提取文本輸入所述目標(biāo)文本提取模型中,通過(guò)所述目標(biāo)文本提取模型從所述待提取文本中得到目標(biāo)文本信息,所述目標(biāo)文本信息與所述目標(biāo)標(biāo)注字段為同一類型的字段信息。
在其中一個(gè)實(shí)施例中,所述通用文本提取模型的建立步驟包括:
構(gòu)建數(shù)據(jù)集,所述數(shù)據(jù)集包含多個(gè)任務(wù)樣本,各個(gè)任務(wù)樣本的文本類型不重合;
獲取訓(xùn)練集和驗(yàn)證集;
通過(guò)所述訓(xùn)練集中的任務(wù)訓(xùn)練數(shù)據(jù)對(duì)所述各個(gè)任務(wù)樣本進(jìn)行訓(xùn)練,得到每個(gè)任務(wù)樣本對(duì)應(yīng)的多個(gè)候選任務(wù)樣本子模型,所述候選任務(wù)樣本模型用于提取標(biāo)注字段;
將驗(yàn)證集中的驗(yàn)證數(shù)據(jù)輸入所述候選任務(wù)樣本模型中進(jìn)行驗(yàn)證,得到各個(gè)候選任務(wù)樣本子模型對(duì)應(yīng)的準(zhǔn)確率;
將準(zhǔn)確率最高的候選任務(wù)樣本子模型作為任務(wù)樣本對(duì)應(yīng)的目標(biāo)任務(wù)樣本子模型,將各個(gè)任務(wù)樣本對(duì)應(yīng)的目標(biāo)任務(wù)樣本子模型組成所述通用文本提取模型。
在其中一個(gè)實(shí)施例中,將所述準(zhǔn)確率最高的候選任務(wù)樣本子模型作為任務(wù)樣本對(duì)應(yīng)的目標(biāo)任務(wù)樣本子模型的步驟,還包括:
獲取所述準(zhǔn)確率最高的候選任務(wù)樣本子模型對(duì)應(yīng)的第一參數(shù);
根據(jù)所述第一參數(shù)對(duì)各任務(wù)樣本的參數(shù)進(jìn)行第一次梯度下降,得到所述各任務(wù)樣本的共性參數(shù);
根據(jù)所述第一參數(shù)對(duì)所述共性參數(shù)進(jìn)行第二次梯度下降,得到目標(biāo)共性參數(shù),根據(jù)所述目標(biāo)共性參數(shù)得到各個(gè)任務(wù)樣本對(duì)應(yīng)的目標(biāo)共性模型,將目標(biāo)共性模型作為目標(biāo)任務(wù)樣本子模型。
在其中一個(gè)實(shí)施例中,將各個(gè)任務(wù)樣本對(duì)應(yīng)的目標(biāo)任務(wù)樣本子模型組成所述通用文本提取模型的步驟之后,還包括:
獲取所述任務(wù)訓(xùn)練數(shù)據(jù),所述任務(wù)訓(xùn)練數(shù)據(jù)攜帶有標(biāo)記數(shù)據(jù);
將所述任務(wù)訓(xùn)練數(shù)據(jù)輸入所述通用文本提取模型中進(jìn)行測(cè)試,得到任務(wù)測(cè)試數(shù)據(jù);
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于平安科技(深圳)有限公司,未經(jīng)平安科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811535440.1/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 無(wú)線通信系統(tǒng)中對(duì)初始建立屬性消息進(jìn)行發(fā)送和接收的方法和裝置
- 醫(yī)療字段映射校驗(yàn)方法及裝置
- 字段匹配方法和裝置
- 一種補(bǔ)充數(shù)據(jù)字段的方法及裝置、電子設(shè)備
- 一種字段信息檢驗(yàn)方法及裝置
- 字段類別的識(shí)別方法及裝置
- 測(cè)試方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種訓(xùn)練字段分類模型的方法、裝置及設(shè)備
- 業(yè)務(wù)數(shù)據(jù)處理方法及裝置
- 字段測(cè)試方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 標(biāo)注信息生成裝置、查詢裝置及共享系統(tǒng)
- 一種圖像分割標(biāo)注方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)標(biāo)注方法
- 一種基于群智的語(yǔ)料庫(kù)數(shù)據(jù)標(biāo)注方法及系統(tǒng)
- 一種圖像標(biāo)注方法和裝置
- 一種樣本標(biāo)注方法、裝置、存儲(chǔ)介質(zhì)及設(shè)備
- 數(shù)據(jù)標(biāo)注管理方法及裝置、電子設(shè)備和可讀存儲(chǔ)介質(zhì)
- 標(biāo)注的更新方法、裝置、存儲(chǔ)介質(zhì)、處理器以及運(yùn)載工具
- 數(shù)據(jù)的標(biāo)注方法和裝置
- 一種智能標(biāo)注平臺(tái)的方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 樣本引入裝置、樣本引入基片和樣本引入方法
- 樣本查找方法、裝置及系統(tǒng)
- 模型訓(xùn)練、樣本平衡方法及裝置以及個(gè)人信用評(píng)分系統(tǒng)
- 樣本輸送系統(tǒng)、樣本輸送方法以及樣本檢測(cè)系統(tǒng)
- 樣本分析裝置、樣本檢測(cè)設(shè)備及樣本檢測(cè)方法
- 樣本檢測(cè)方法、樣本檢測(cè)裝置及樣本檢測(cè)系統(tǒng)
- 樣本架、樣本混勻系統(tǒng)及樣本分析儀
- 樣本收集管及樣本收集系統(tǒng)
- 樣本數(shù)據(jù)集的擴(kuò)容方法及模型的訓(xùn)練方法
- 行人重識(shí)別的噪聲樣本識(shí)別方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)





