[發(fā)明專利]基于產品協(xié)議字符識別的惡意條款識別方法、裝置、設備在審
| 申請?zhí)枺?/td> | 202010439266.1 | 申請日: | 2020-05-22 |
| 公開(公告)號: | CN111783781A | 公開(公告)日: | 2020-10-16 |
| 發(fā)明(設計)人: | 普璇 | 申請(專利權)人: | 平安國際智慧城市科技股份有限公司 |
| 主分類號: | G06K9/34 | 分類號: | G06K9/34;G06K9/62;G06Q50/18 |
| 代理公司: | 深圳市世聯(lián)合知識產權代理有限公司 44385 | 代理人: | 汪琳琳 |
| 地址: | 518000 廣東省深圳市前海深港合*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 產品 協(xié)議 字符 識別 惡意 條款 方法 裝置 設備 | ||
本申請屬于人工智能領域,公開了一種基于產品協(xié)議字符識別的惡意條款識別方法、裝置、計算機設備及可讀存儲介質。所述方法通過終端上的觸發(fā)關鍵字的觸發(fā)接口,識別觸發(fā)關鍵字,調用屏幕滑動截圖接口對觸發(fā)關鍵字對應的文字頁面進行滾動截屏,得到待提取協(xié)議圖片,再通過預設的單字符的長寬比結合具體地字符條圖片的長寬確定待提取協(xié)議圖片中單字符的平均寬度,進行單字符的切割,解決了現有技術中基于OCR文字識別因為條款協(xié)議的文字過小導致的條款識別不準確的技術問題。
技術領域
本申請涉及人工智能領域,特別是涉及一種基于產品協(xié)議字符識別的惡意條款識別方法、裝置、計算機設備和存儲介質。
背景技術
現在APP、網站等許多應用服務在用戶使用時都會出現免責聲明,用戶注冊時會出現《用戶注冊協(xié)議》《隱私政策》等協(xié)議內容,需要用戶同意才能正常使用部分服務。然而這些協(xié)議內容都枯燥乏味,但重要信息往往隱藏其中,用戶難以發(fā)現。即使用戶看到這些信息,但由于描述抽象繁雜,很多用戶也難以理解其背后的真實含義。因此現在絕大部分用戶為了能夠正常使用產品,都會直接勾選同意,導致被動接受服務商提出的霸王條款,甚至是惡意免責條款,用戶的利益收到損失,后續(xù)難以維權。中國發(fā)明專利申請CN109918635A公開了一種合同文本風險檢測方法,通過根據待檢測的合同文本所述的商業(yè)領域獲取對應的條款分類模型,然后利用條款分類模型對合同文本的條款進行分類,得到合同文本的條款文本及對應的條款類型,最后對每個條款類型的條款文本進行風險評估,確定每個條款文本的風險程度,解決現有技術中對合同文本解析和風險判決難以實現的技術問題。
但是現有技術對合同或者條款進行文本提取一般采用OCR技術,而文字識別的關鍵之所在就是在于文字的切割,切割的準確度極大的影響了文字識別的正確率,但是由于漢字的特殊性以及條款協(xié)議上文字較小導致截圖后文字過小,造成切割文字切割困難,比如相鄰兩漢字是捺和撇,會出現對預處理后的文字圖片切割時將多個漢字切割為一個圖片方塊,最終于文字庫進行匹配時出現識別錯誤的情況,最終導致條款識別不準確的技術問題,而這種問題在文字較小的條款協(xié)議中尤為嚴重。
發(fā)明內容
基于此,有必要針對上述技術問題,本申請?zhí)峁┮环N基于產品協(xié)議字符識別的惡意條款識別方法、裝置、計算機設備及存儲介質,以解決現有技術中基于OCR文字識別因為條款協(xié)議的文字過小導致的條款識別不準確的技術問題。
一種基于產品協(xié)議字符識別的惡意條款識別方法,所述方法包括:
識別觸發(fā)關鍵字,并對所述觸發(fā)關鍵字對應的頁面進行滾動截屏,得到待提取協(xié)議圖片;
對所述待提取協(xié)議圖片進行橫向掃描后切割,得到若干行的字符條圖片;
計算所述字符條圖片中的長與寬,按照預設字符長寬比確定所述字符條圖片中單字符的平均寬度;
根據所述平均寬度對所述字符條圖片進行切割,得到包括單字符的字符圖片;
對所述字符圖片進行特征提取,并將得到的維度特征與預設特征模塊庫的文字的特征進行字符匹配,得到文本特征信息;
將所述文本特征信息輸入到預先訓練好的惡意條款判別器中進行惡意條款的判斷,得到判斷結果。
一種基于產品協(xié)議字符識別的惡意條款識別裝置,所述裝置包括:
協(xié)議截取模塊,用于識別觸發(fā)關鍵字,并對所述觸發(fā)關鍵字對應的頁面進行滾動截屏,得到待提取協(xié)議圖片;
圖片切割模塊,用于對所述待提取協(xié)議圖片進行橫向掃描后切割,得到若干行的字符條圖片;
寬度計算模塊,用于計算所述字符條圖片中的長與寬,按照預設字符長寬比確定所述字符條圖片中單字符的平均寬度;
字符切割模塊,用于根據所述平均寬度對所述字符條圖片進行切割,得到包括單字符的字符圖片;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安國際智慧城市科技股份有限公司,未經平安國際智慧城市科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010439266.1/2.html,轉載請聲明來源鉆瓜專利網。





