[發(fā)明專利]文本相似度量化方法、設(shè)備及系統(tǒng)有效
| 申請?zhí)枺?/td> | 202010313564.6 | 申請日: | 2020-04-17 |
| 公開(公告)號: | CN111985519B | 公開(公告)日: | 2021-07-27 |
| 發(fā)明(設(shè)計(jì))人: | 李若愚 | 申請(專利權(quán))人: | 創(chuàng)新先進(jìn)技術(shù)有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06K9/34 |
| 代理公司: | 北京博思佳知識產(chǎn)權(quán)代理有限公司 11415 | 代理人: | 韓果 |
| 地址: | 開曼群島大開曼島*** | 國省代碼: | 暫無信息 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文本 相似 度量 方法 設(shè)備 系統(tǒng) | ||
1.一種文本相似度量化設(shè)備,所述設(shè)備包括:
處理器;以及
包括計(jì)算機(jī)程序代碼的存儲器;
所述存儲器和所述計(jì)算機(jī)程序代碼被配置為,與所述處理器一起使得所述設(shè)備:
將編輯對收集到歷史數(shù)據(jù)庫中;
計(jì)算在預(yù)定的時(shí)間段內(nèi)所述編輯對被存儲到所述歷史數(shù)據(jù)庫中的頻率,作為所述歷史數(shù)據(jù)庫中所述編輯對的頻率;以及
確定所述歷史數(shù)據(jù)庫中所述編輯對的歷史相似度得分,其中,當(dāng)確定所述歷史相似度得分時(shí),所述設(shè)備被使得:
對所述歷史數(shù)據(jù)庫中的每個(gè)所述編輯對的頻率執(zhí)行l(wèi)og計(jì)算;以及
根據(jù)以下公式將所述log計(jì)算歸一化到0.0到1.0的范圍:
得分(p)=1.0–(log(p)–最小得分)/(最大得分–最小得分),
其中p表示每個(gè)所述編輯對,log(p)表示對p的頻率執(zhí)行l(wèi)og計(jì)算,最大得分表示對p的頻率執(zhí)行l(wèi)og計(jì)算的最大得分,且最小得分表示對p的頻率執(zhí)行l(wèi)og計(jì)算的最小得分,
其中,所述設(shè)備進(jìn)一步被使得:
獲得用編輯文本字符串更正光學(xué)字符識別OCR文本字符串的多個(gè)最短操作路徑,其中,所述多個(gè)最短操作路徑中的每一個(gè)最短操作路徑包括一個(gè)或多個(gè)編輯對,所述一個(gè)或多個(gè)編輯對中的每一個(gè)編輯對表示在用所述編輯文本字符串進(jìn)行更正期間對所述OCR文本字符串中的字符可執(zhí)行的操作;
確定多個(gè)相似度得分,所述多個(gè)相似度得分中的每個(gè)相似度得分對應(yīng)所述多個(gè)最短操作路徑之一,其中所述多個(gè)相似度得分中的每個(gè)相似度得分是通過對所述多個(gè)最短操作路徑中的每個(gè)最短操作路徑中的所述一個(gè)或多個(gè)編輯對的歷史相似度得分進(jìn)行求和來確定的,其中從所述歷史數(shù)據(jù)庫中取得所述一個(gè)或多個(gè)編輯對的所述歷史相似度得分;以及
選擇所述多個(gè)相似度得分中最小相似度得分來量化所述OCR文本字符串與所述編輯文本字符串之間的文本相似度。
2.根據(jù)權(quán)利要求1所述的設(shè)備,其中,所述設(shè)備進(jìn)一步被使得:
將具有最小相似度得分的最短操作路徑中的編輯對添加到所述歷史數(shù)據(jù)庫中;以及
更新所述歷史數(shù)據(jù)庫中所述編輯對的歷史相似度得分,其中,當(dāng)更新所述歷史相似度得分時(shí),所述設(shè)備被使得:
計(jì)算所述歷史數(shù)據(jù)庫中與具有最小相似度得分的最短操作路徑中的編輯對對應(yīng)的編輯對的頻率;以及
通過以下步驟確定所述歷史數(shù)據(jù)庫中與具有最小相似度得分的最短操作路徑中的編輯對對應(yīng)的編輯對的歷史相似度得分:
對所述歷史數(shù)據(jù)庫中與具有最小相似度得分的最短操作路徑中的編輯對對應(yīng)的每個(gè)所述編輯對的頻率執(zhí)行l(wèi)og計(jì)算;以及
將所述log計(jì)算歸一化到0.0到1.0的范圍。
3.根據(jù)權(quán)利要求1或2所述的設(shè)備,其中,當(dāng)獲得所述多個(gè)最短操作路徑時(shí),所述設(shè)備被使得:
執(zhí)行編輯距離計(jì)算,以利用所述編輯文本字符串更正所述OCR文本字符串,其中在用所述編輯文本字符串進(jìn)行更正期間對所述OCR文本字符串中的字符可執(zhí)行的操作是插入操作、刪除操作或替換操作中之一。
4.根據(jù)權(quán)利要求1或2所述的設(shè)備,其中,所述設(shè)備進(jìn)一步被使得:
如果所述多個(gè)相似度得分中的最小相似度得分低于預(yù)定閾值,則用所述編輯文本字符串更正所述OCR文本字符串。
5.根據(jù)權(quán)利要求1或2所述的設(shè)備,其中,所述設(shè)備進(jìn)一步被使得:
如果所述多個(gè)相似度得分中的最小相似度得分高于所述預(yù)定閾值,則維持所述OCR文本字符串。
6.根據(jù)權(quán)利要求1或2所述的設(shè)備,其中,所述設(shè)備進(jìn)一步被使得:
掃描數(shù)字圖像以捕獲所述OCR文本字符串,以及
捕獲所述編輯文本字符串。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于創(chuàng)新先進(jìn)技術(shù)有限公司,未經(jīng)創(chuàng)新先進(jìn)技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010313564.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲介質(zhì)
- 文本生成方法、裝置和電子設(shè)備





