[發(fā)明專利]文本相似度量化方法、設(shè)備及系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 202010313564.6 | 申請(qǐng)日: | 2020-04-17 |
| 公開(公告)號(hào): | CN111985519B | 公開(公告)日: | 2021-07-27 |
| 發(fā)明(設(shè)計(jì))人: | 李若愚 | 申請(qǐng)(專利權(quán))人: | 創(chuàng)新先進(jìn)技術(shù)有限公司 |
| 主分類號(hào): | G06K9/62 | 分類號(hào): | G06K9/62;G06K9/34 |
| 代理公司: | 北京博思佳知識(shí)產(chǎn)權(quán)代理有限公司 11415 | 代理人: | 韓果 |
| 地址: | 開曼群島大開曼島*** | 國(guó)省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文本 相似 度量 方法 設(shè)備 系統(tǒng) | ||
本發(fā)明提供了文本相似度量化方法、設(shè)備及系統(tǒng)。該設(shè)備包括:處理器;包括計(jì)算機(jī)程序代碼的存儲(chǔ)器。存儲(chǔ)器和計(jì)算機(jī)程序代碼與處理器一起促使該設(shè)備:獲得用編輯文本字符串更正光學(xué)字符識(shí)別(OCR)文本字符串的多個(gè)最短操作路徑,其中,每個(gè)最短操作路徑包括一個(gè)或多個(gè)編輯對(duì),每個(gè)編輯對(duì)表示在用所述編輯文本字符串進(jìn)行更正期間對(duì)所述OCR文本字符串中的字符可執(zhí)行的操作;確定多個(gè)相似度得分,每個(gè)相似度得分對(duì)應(yīng)所述多個(gè)最短操作路徑之一,其中每個(gè)相似度得分是通過對(duì)每個(gè)最短操作路徑中的一個(gè)或多個(gè)編輯對(duì)的歷史相似度得分進(jìn)行求和來確定的;選擇所述多個(gè)相似度得分中最小相似度得分來量化所述OCR文本字符串與所述編輯文本字符串之間的文本相似度。
技術(shù)領(lǐng)域
本發(fā)明通常涉及文本相似度量化方法、設(shè)備及系統(tǒng)。
背景技術(shù)
光學(xué)字符識(shí)別(通常縮寫為OCR)是一種識(shí)別圖像或物理文檔中的文本并將識(shí)別出的文本轉(zhuǎn)換為機(jī)器編碼文本的技術(shù)。機(jī)器編碼文本通常被稱為OCR文本。
eKYC(electronic-Know Your Customer,電子了解您的客戶)是一種數(shù)字盡職調(diào)查過程,由企業(yè)執(zhí)行以驗(yàn)證其客戶的身份并評(píng)估在業(yè)務(wù)關(guān)系上是否存在非法意圖(例如洗錢)的潛在風(fēng)險(xiǎn)。
當(dāng)執(zhí)行eKYC時(shí),OCR可用于識(shí)別例如身份證、護(hù)照等官方身份(ID)文件中的文本內(nèi)容(例如,姓名、地址、身份證號(hào)等)。通常,在用戶界面上顯示OCR文本,以用于用戶進(jìn)行確認(rèn)或編輯。如果用戶使用編輯文本來更正OCR文本,則出于風(fēng)險(xiǎn)控制考慮,有必要先驗(yàn)證編輯文本是否合理,再接受更正。因此,評(píng)估OCR文本與用戶編輯文本之間的相似度以驗(yàn)證編輯文本是否合理變得有用。
目前,編輯距離(Edit Distance)技術(shù)和杰卡德距離(Jaccard Distance)技術(shù)用于評(píng)估兩個(gè)文本字符串之間的相似度。然而,編輯距離技術(shù)基于將一個(gè)文本字符串轉(zhuǎn)換為另一個(gè)文本字符串所需的最少操作次數(shù)來評(píng)估相似度,但是忽略了兩個(gè)文本字符串之間的視覺相似度;另一方面,杰卡德距離技術(shù)忽略了視覺相似度和兩個(gè)文本字符串中字符的順序。
下表1中顯示了如何根據(jù)編輯距離技術(shù)評(píng)估2個(gè)文本字符串之間的相似度的示例。
如表1所示,在編輯距離技術(shù)中,編輯距離用于指示將文本字符串A轉(zhuǎn)換為文本字符串B所需的最少操作次數(shù)。在示例1中,需要一次操作:用字母“O”替換數(shù)字“0”,以將“B0B”轉(zhuǎn)換為“BOB”。在示例2中,需要一次操作:用數(shù)字“1”替換字母“B”,以將“BOB”轉(zhuǎn)換為“1OB”。示例1和示例2中的編輯距離相同,即每個(gè)編輯距離等于1。這樣,在編輯距離技術(shù)中,“B0B”和“BOB”之間的相似度以及“BOB”和“1OB”之間的相似度被認(rèn)為是相同的。這樣的相似度評(píng)估僅考慮最少操作次數(shù),而忽略了每次操作中的字符對(duì)之間的視覺相似度,不正確地將“0”和“O”與“B”和“1”視為相同。
因此,存在提供如下方法和設(shè)備的需求,該方法和設(shè)備不僅評(píng)估將一個(gè)文本字符串轉(zhuǎn)換為另一文本字符串所需的最少操作次數(shù),而且還評(píng)估兩個(gè)文本字符串之間的相關(guān)性,即這些操作在這兩個(gè)文本字符串之間發(fā)生的可能性,從而提供改進(jìn)文本相似度評(píng)估的整體綜合機(jī)制。
借助于改進(jìn)的文本相似度評(píng)估機(jī)制,本發(fā)明中的方法和設(shè)備不僅用于評(píng)估(即確定“是否相似”)兩個(gè)文本字符串之間的文本相似度,還用于量化(即確定“有多相似”)這兩個(gè)文本字符串之間的文本相似度,從而便于eKYC系統(tǒng)以及其他任何采用OCR技術(shù)的電子系統(tǒng)以更高的準(zhǔn)確性和可靠性來對(duì)OCR文本的手動(dòng)更正進(jìn)行自動(dòng)驗(yàn)證。
發(fā)明內(nèi)容
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于創(chuàng)新先進(jìn)技術(shù)有限公司,未經(jīng)創(chuàng)新先進(jìn)技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010313564.6/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書寫字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





