[發明專利]信息提取方法、裝置、設備和存儲介質在審
| 申請號: | 202111520172.8 | 申請日: | 2021-12-13 |
| 公開(公告)號: | CN114154480A | 公開(公告)日: | 2022-03-08 |
| 發明(設計)人: | 簡仁賢;李夢雄;馬永寧;王海波 | 申請(專利權)人: | 竹間智能科技(上海)有限公司 |
| 主分類號: | G06F40/205 | 分類號: | G06F40/205;G06F40/226;G06F16/35;G06Q30/06;G06N3/04;G06N3/08 |
| 代理公司: | 北京超凡宏宇專利代理事務所(特殊普通合伙) 11463 | 代理人: | 衡滔 |
| 地址: | 200030 上海市徐*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 信息 提取 方法 裝置 設備 存儲 介質 | ||
本申請提供一種信息提取方法、裝置、設備和存儲介質,該方法包括:獲取查詢指令對應的訂單數據;將所述訂單數據輸入至預設識別模型,輸出所述訂單數據中的標的物信息;基于標準詞庫對所述標的物信息進行校驗處理,得到校驗后的標的物信息;基于所述校驗后的標的物信息生成所述訂單數據的三元組信息。本申請同時結合了人工智能模型識別和標準詞庫規則校驗對訂單信息進行提取,提高提取精度。
技術領域
本申請涉及信息處理技術領域,具體而言,涉及一種信息提取方法、裝置、設備和存儲介質。
背景技術
隨著互聯網技術的發展,越來越多的商品由線上訂單進行采購,比如通過郵件傳遞訂貨信息,比如當用戶在一個平臺下單訂購一批商品后,該訂單信息被通過郵件來傳遞。
訂單信息中的商品信息和到貨日期是非常重要的商品數據,當用戶想要查看郵件中相關商品的商品信息和到貨日期時,往往需要打開郵件人工進行查找,對于用戶來說很不方便。因此郵件內容的信息自動提取技術應運而生。
在現有的郵件提取方法中,主要是通過編寫規則等的方式進行信息的提取,但是提取的信息具有局限性,精度不高,由于郵件內容具有多樣性,不能滿足對任意形式的信息提取,因此如何提高郵件內容信息的提取精度成為一個亟待解決的問題。
發明內容
本申請實施例的目的在于提供一種信息提取方法、裝置、設備和存儲介質,同時結合了模型識別和標準詞庫規則校驗對訂單信息進行提取,提高提取精度。
本申請實施例第一方面提供了一種信息提取方法,包括:獲取查詢指令對應的訂單數據;將所述訂單數據輸入至預設識別模型,輸出所述訂單數據中的標的物信息;基于標準詞庫對所述標的物信息進行校驗處理,得到校驗后的標的物信息;基于所述校驗后的標的物信息生成所述訂單數據的三元組信息。
于一實施例中,所述查詢指令中攜帶有目標訂單的標識信息;所述獲取查詢指令對應的訂單數據,包括:在接收到查詢指令時,在預設訂單庫中抽取所述標識信息對應的訂單內容;對所述訂單內容進行內容解析,得到所述目標訂單的文本數據,將所述文本數據作為所述訂單數據。
于一實施例中,建立所述預設識別模型的步驟包括:獲取樣本訂單數據集;將所述樣本訂單數據集轉換為預定標準格式;對標準格式的所述樣本訂單數據集中的樣品標的物信息進行標注;采用標注后的所述樣本訂單數據集訓練神經網絡模型,得到所述預設識別模型。
于一實施例中,所述標的物信息中包括:標的物標識文本和所述標識文本在所述訂單數據中的文本位置;所述基于標準詞庫對所述標的物信息進行校驗處理,得到校驗后的標的物信息,包括:判斷所述標準詞庫中是否存在與所述標識文本相同的目標標準數據;當所述標準詞庫中不存在所述目標標準數據時,基于所述文本位置對所述標識文本做校正處理,得到所述校驗后的標的物信息。
于一實施例中,在所述判斷所述標準詞庫中是否存在與所述標識文本相同的目標標準數據之前,還包括:檢測所述標識文本邊界處的字符信息,將所述標識文本邊界處的非文本符號刪除,得到校正后的標識文本。
于一實施例中,所述基于所述文本位置對所述標識文本做校正處理,得到所述校驗后的標的物信息,包括:當所述標準詞庫中不存在所述目標標準數據時,從所述標準詞庫中選取出與所述標識文本之間的相似度大于預設閾值的目標候選數據;判斷所述目標候選數據的拼寫順序是否與所述訂單數據中所述文本位置指定區間的拼寫順序相同;當所述目標候選數據的拼寫順序與所述訂單數據中所述文本位置指定區間的拼寫順序相同時,將所述目標候選數據作為所述校驗后的標的物信息。
于一實施例中,所述基于所述文本位置對所述標識文本做校正處理,得到所述校驗后的標的物信息,還包括:當所述目標候選數據的拼寫順序與所述訂單數據中所述文本位置指定區間的拼寫順序不相同時,在所述訂單數據中沿著所述文本位置邊界擴展文本內容,直至遇到空格符號時停止,將擴展后得到的文本內容和所述文本內容對應的新文本位置作為所述校驗后的標的物信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于竹間智能科技(上海)有限公司,未經竹間智能科技(上海)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111520172.8/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





