[發(fā)明專利]文本的結構化輸出方法及系統(tǒng)、存儲介質和計算機設備有效
| 申請?zhí)枺?/td> | 201811089125.0 | 申請日: | 2018-09-18 |
| 公開(公告)號: | CN110147545B | 公開(公告)日: | 2023-08-29 |
| 發(fā)明(設計)人: | 蔣興華;曹浩宇 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/30 |
| 代理公司: | 北京勵誠知識產權代理有限公司 11647 | 代理人: | 賈玉姣 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 結構 輸出 方法 系統(tǒng) 存儲 介質 計算機 設備 | ||
本發(fā)明公開一種文本的結構化輸出方法。文本的結構化輸出方法包括:識別圖片中的文本內容;根據(jù)分詞模型將文本分割為詞語;根據(jù)詞向量模型將詞語轉換為詞向量;根據(jù)詞向量和深度語義模型獲取詞向量與預設標簽的關聯(lián)概率矩陣;及根據(jù)概率模型和預設標簽的關聯(lián)概率矩陣將文本結構化輸出為結構化內容。本發(fā)明實施方式的文本的結構化輸出方法通過分詞模型將文本分割為一個個詞語,然后通過詞向量模型將詞語轉化為詞向量并輸入到深度語義模型進行處理以得到預設標簽的關聯(lián)概率矩陣,然后根據(jù)概率模型和預設標簽的關聯(lián)概率矩陣輸出結構化內容,針對文本進行輸出而與版式無關,對版式復雜或者無版式的文本也可以準確地輸出結構化內容。本發(fā)明還公開了一種文本的結構化輸出系統(tǒng)、非易失性計算機可讀存儲介質和計算機設備。
技術領域
本發(fā)明涉及文本識別技術領域,特別涉及一種文本的結構化輸出方法、文本的結構化輸出系統(tǒng)、非易失性計算機可讀存儲介質和計算機設備。
背景技術
目前,文本的結構化輸出方法大多是根據(jù)文字或模板進行配準從而得到被識別的文字或圖片輸出結構化內容,但對于版式較多或者無版式的文本就難以進行準確的配準,從而影響輸出的結構化內容的準確性。
發(fā)明內容
本發(fā)明的實施例提供了一種文本的結構化輸出方法、文本的結構化輸出系統(tǒng)、非易失性計算機可讀存儲介質和計算機設備。
本發(fā)明實施方式的文本的結構化輸出方法包括:
識別圖片中的文本內容;
根據(jù)分詞模型將所述文本內容分割為多個詞語;
根據(jù)詞向量模型將所述詞語轉換為詞向量;
根據(jù)所述詞向量和深度語義模型獲取所述詞向量與預設標簽的關聯(lián)概率矩陣;及
根據(jù)預設的概率模型和所述預設標簽的關聯(lián)概率矩陣將所述文本內容輸出結構化內容。
本發(fā)明實施方式的文本的結構化輸出方法通過分詞模型將文本分割為一個個詞語,然后通過詞向量模型將詞語轉化為詞向量并輸入到深度語義模型進行處理以得到預設標簽的關聯(lián)概率矩陣,然后根據(jù)預設的概率模型和預設標簽的關聯(lián)概率矩陣輸出結構化內容,針對文本進行輸出而與版式無關,對版式復雜或者無版式的文本也可以準確地輸出結構化內容。
本發(fā)明實施方式的文本的結構化輸出系統(tǒng)包括識別模塊、分詞模塊、轉換模塊、獲取模塊和輸出模塊。所述識別模塊用于識別圖片中的文本內容;所述分詞模塊用于根據(jù)分詞模型將所述文本分割為詞語;所述轉換模塊用于根據(jù)詞向量模型將所述詞語轉換為詞向量;所述獲取模塊用于根據(jù)所述詞向量和深度語義模型獲取所述詞向量與預設標簽的關聯(lián)概率矩陣;所述輸出模塊用于根據(jù)預設的概率模型和所述預設標簽的關聯(lián)概率矩陣將所述文本輸出為結構化內容。
本發(fā)明實施方式的一個或多個包含計算機可執(zhí)行指令的非易失性計算機可讀存儲介質,當所述計算機可執(zhí)行指令被一個或多個處理器執(zhí)行時,使得所述處理器執(zhí)行上述文本的結構化輸出方法。
本發(fā)明實施方式的計算機設備,包括存儲器及處理器,所述存儲器中儲存有計算機可讀指令,所述指令被所述處理器執(zhí)行時,使得所述處理器執(zhí)行上述文本的結構化輸出方法。
本發(fā)明實施方式的文本的結構化輸出方法、文本的結構化輸出系統(tǒng)、非易失性計算機可讀存儲介質和計算機設備通過分詞模型將文本分割為一個個詞語,然后通過詞向量模型將詞語轉化為詞向量并輸入到深度語義模型進行處理以得到預設標簽的關聯(lián)概率矩陣,然后根據(jù)預設的概率模型和預設標簽的關聯(lián)概率矩陣輸出結構化內容,針對文本進行輸出而與版式無關,對版式復雜或者無版式的文本也可以準確地輸出結構化內容。
本發(fā)明的附加方面和優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實踐了解到。
附圖說明
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811089125.0/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





