[發明專利]一種面單文本判別方法和裝置在審
| 申請號: | 202011139651.0 | 申請日: | 2020-10-22 |
| 公開(公告)號: | CN113762846A | 公開(公告)日: | 2021-12-07 |
| 發明(設計)人: | 樊宇 | 申請(專利權)人: | 北京京東振世信息技術有限公司 |
| 主分類號: | G06Q10/08 | 分類號: | G06Q10/08;G06F40/216;G06F40/289 |
| 代理公司: | 中原信達知識產權代理有限責任公司 11219 | 代理人: | 張一軍;王安娜 |
| 地址: | 100086 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 判別 方法 裝置 | ||
本發明公開了一種面單文本判別方法和裝置,涉及計算機技術領域。該方法的一具體實施方式包括:根據歷史運單信息,計算所述歷史運單的物流距離、面單文本的違規詞相似度、相對于用戶注冊時間的運單創建時間;根據當前運單和所述歷史運單的物流距離、面單文本的違規詞相似度、相對于用戶注冊時間的運單創建時間,計算所述當前運單的面單文本中含有違規信息的概率;根據所述當前運單的面單文本中含有違規信息的概率,確定所述當前運單的面單文本的判別結果。該實施方式能夠解決違規內容的判別準確性較低的技術問題。
技術領域
本發明涉及計算機技術領域,尤其涉及一種面單文本判別方法和裝置。
背景技術
現有的面單文本判別方案依賴于語料庫的純字符串分析,誤斷情況很多。例如,“獨立”這個詞被列為違規詞,但該詞本身的信息量較小,會將“獨立包裝”這個正常詞匯誤判為違規詞。
在實現本發明過程中,發明人發現現有技術中至少存在如下問題:
現有方案對于一些添加噪點的違規詞,一般是判斷字符串的子串是否存在違規詞,因此容易出現違規詞誤判的問題,導致違規內容的判別準確性較低。
發明內容
有鑒于此,本發明實施例提供一種面單文本判別方法和裝置,以解決違規內容的判別準確性較低的技術問題。
為實現上述目的,根據本發明實施例的一個方面,提供了一種面單文本判別方法,包括:
根據歷史運單信息,計算所述歷史運單的物流距離、面單文本的違規詞相似度、相對于用戶注冊時間的運單創建時間;
根據當前運單和所述歷史運單的物流距離、面單文本的違規詞相似度、相對于用戶注冊時間的運單創建時間,計算所述當前運單的面單文本中含有違規信息的概率;
根據所述當前運單的面單文本中含有違規信息的概率,確定所述當前運單的面單文本的判別結果。
可選地,根據歷史運單信息,計算所述歷史運單的物流距離、面單文本的違規詞相似度、相對于用戶注冊時間的運單創建時間,包括:
獲取用戶信息和所述用戶的歷史運單信息;其中,所述用戶信息包括用戶標識和用戶注冊時間,所述歷史運單信息包括面單文本和相對于所述用戶注冊時間的運單創建時間,所述面單文本包括寄件人地址、寄件人姓名、收件人姓名、收件人地址、物品清單、備注信息;
分別計算每個面單文本的違規詞相似度;
根據所述寄件人地址和所述收件人地址計算物流距離;
存儲所述用戶標識、所述用戶注冊時間、相對于所述用戶注冊時間的運單創建時間、所述物流距離和每個面單文本的違規詞相似度。
可選地,對于每個面單文本,采用如下方法計算所述面單文本的違規詞相似度:
將所述面單文本拆分為單字符,得到面單文本單字符集合;
從語料庫中篩選出包含有任意一個所述面單文本單字符的違規詞;
對于每個所述違規詞,將所述違規詞拆分為單字符,得到所述違規詞單字符集合,將所述面單文本單字符集合和所述違規詞單字符集合的重復字符的交集除以所述面單文本單字符集合和所述違規詞單字符集合的不重復字符的并集,得到集合相似度;
篩選出最大的集合相似度作為所述面單文本的違規詞相似度。
可選地,篩選出最大的集合相似度作為所述面單文本的違規詞相似度,包括:
對于每個所述違規詞,以所述集合相似度為鍵,以所述違規詞為值,存儲到第一多重映照容器中;
按照所述鍵的升序進行排序,將所述第一多重映照容器中最后一個鍵作為所述面單文本的違規詞相似度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京京東振世信息技術有限公司,未經北京京東振世信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011139651.0/2.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業、金融、管理、監督或預測目的的數據處理系統或方法;其他類目不包含的專門適用于行政、商業、金融、管理、監督或預測目的的處理系統或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優化,例如線性規劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規劃、調度或分配時間、人員或機器資源;企業規劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理





