[發明專利]一種匯票交易機器人的買票信息識別方法和識別器在審
| 申請號: | 201811004648.0 | 申請日: | 2018-08-30 |
| 公開(公告)號: | CN109241532A | 公開(公告)日: | 2019-01-18 |
| 發明(設計)人: | 張殼;田標 | 申請(專利權)人: | 天津做票君機器人科技有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F16/215;G06Q40/04 |
| 代理公司: | 濟南鼎信專利商標代理事務所(普通合伙) 37245 | 代理人: | 曹玉琳 |
| 地址: | 300450 天*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 票信息 格式化數據 元素作用 機器人 匯票 格式化 詞頻 入庫 關鍵詞信息 輸出格式化 詞性標注 分詞結果 格式化為 后臺數據 結果解析 垃圾信息 位置標注 元素類型 識別器 新數據 補充 分詞 去重 交易 匹配 過濾 清洗 刪除 寫入 數據庫 標準化 規范化 查詢 合并 利率 分類 轉換 銀行 | ||
1.一種匯票交易機器人的買票信息識別方法,其特征在于,包括如下步驟:
S1、通過計算后臺數據的詞頻,將垃圾信息詞頻與買票信息詞頻對比,得到垃圾信息關鍵詞,以過濾垃圾信息;
S2、對買票信息進行清洗以及初步規范化;
S3、根據提取元素類型和特征不同,選擇不同分詞方法,按照分詞結果提取元素;
S4、對提取的元素進行格式化和標準化轉換;
S5、對元素進行詞性標注和位置標注;
S6、按照位置和關鍵詞信息確定元素作用域和元素優先級,并在元素作用域內,將所有利率元素補充上該元素;
S7、將補充結果解析為格式化數據;
S8、將格式化數據去重,對銀行進行分類合并,格式化為入庫格式;
S9、入庫前查詢和和刪除已有數據,將新數據寫入數據庫。
2.如權利要求1所述的一種匯票交易機器人的買票信息識別方法,其特征在于,在步驟S4中,轉換的元素集中在承兌人、日期、金額三中類型的元素上。
3.如權利要求2所述的一種匯票交易機器人的買票信息識別方法,其特征在于,對于承兌人元素是進行簡稱和全稱的轉換;對于金額元素,根據表達方式分為漢字和數字,表達作用域分為范圍型、以上型、以下型、準確型;對于日期元素,根據表述方式的作用域分為范圍型、以上型、以下型。
4.如權利要求1所述的一種匯票交易機器人的買票信息識別方法,其特征在于,在步驟S5中,按照元素類型分為金額、日期、承兌人、利率四中詞性,依次對元素進行標注,同時按照元素所在行列進行位置標注,使用二維數組存放以上信息。
5.如權利要求1所述的一種匯票交易機器人的買票信息識別方法,其特征在于,在步驟S6中,元素所在位置按照所在行有沒有利率信息分為單獨成行和非單獨成行,單獨成行按照與利率所在行的相對位置分為段首、段中、段末,非單獨成行按照與利率相對位置分為行首、行中、行末,元素作用于大小由元素所在位置和與下一個元素的間隔決定,元素優先級由元素的位置決定,其中行末>行中>行首=段首=段中=段末。
6.如權利要求1所述的一種匯票交易機器人的買票信息識別方法,其特征在于,在步驟S8中,對重復數據去重同時對相同條件的單個銀行進行合并,補充銀行大類類型,對銀行大類,補充詳細的銀行列表,然后格式化為入庫格式。
7.一種匯票交易機器人的買票信息識別器,其特征在于:該識別器使用權利要求1~6任一項所述的識別方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津做票君機器人科技有限公司,未經天津做票君機器人科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811004648.0/1.html,轉載請聲明來源鉆瓜專利網。





