[發明專利]一種同城物流配送名片下單技術在審
| 申請號: | 202010570280.5 | 申請日: | 2020-06-18 |
| 公開(公告)號: | CN111753840A | 公開(公告)日: | 2020-10-09 |
| 發明(設計)人: | 李思遠;覃飛宇;朱冠軍;張罡 | 申請(專利權)人: | 北京同城必應科技有限公司 |
| 主分類號: | G06K9/34 | 分類號: | G06K9/34;G06F40/211;G06F40/242;G06K9/20;G06Q10/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100085 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 物流配送 名片 技術 | ||
1.一種下單方法,應用于配送平臺,其特征在于,所述方法包括:
獲取用戶輸入的下單文字,其中,所述下單文字數據包括人物姓名、地址和聯系電話,客戶端將該數據上傳至服務器。
2.根據權利要求1所述的方法,其特征在于,所述方法還包括:
用戶上傳的文字下單數據,將數據存儲信息同步至文字識別服務器,其中,所述文字存儲信息包括所述文字信息的存儲位置。
3.一種命名實體識別方法,應用于文字下單數據識別,其特征在于,所述方法包括:
步驟一:模型設計
本文設計了一種基于Bilstm+crf模型,模型的結構如圖1所示,將數據輸入雙向lstm后提取語義特征,雙向lstm每個節點上會輸出當前字對應各標注的對數概率值,如下圖所示的[1.5,0.9,0.1,0.08,0.05],分別對應PER-B,PER-I,ORG-B,ORG-I,O,即姓名開始,姓名內部,機構開始,機構內部,非實體標簽的概率,最后將這些結果輸進crf層,在crf層采用維特比算法解碼,將具有最大得分的序列作為預測輸出,從而得到最終的標注結果。
步驟二:模型訓練
模型的訓練主要分為以下兩個環節。
1.首先下載命名實體識別公開語料,對數據進行簡單處理,分割成類似如下圖2所示,其中v表示動詞,PER表示人名,B表示實體開始,I表示實體內部等。將數據準備好,放入模型中訓練至收斂。也可以直接下載開源模型使用。
2.在本地數據中進行測試。經過測試發現模型對特殊姓名的提取尚存在問題,如圖3所示,該圖為存在標注問題的樣本。
步驟三:設計信息提取規則
通過上一個步驟的訓練,核心的識別模型已基本可用。下面將要設計一個提取邏輯來將各要素依次識別出。分為以下五個部分:
1.通過觀察大量線上用戶輸入文本內容,發現用戶電話的提取相對較為固定,可以設置一個正則表達式來匹配,比如:
r’(\+?0?86\D*?)?(1[-\s]?[3-9][-\s]?(\d[-\s]?){9})’
因此可以先將電話號提取出,并去除掉無關字符。
2.下一步提取姓名,可以根據模型的標注結果直接提取出姓名。但是經過測試發現,文本中可能出現多個姓名的標注結果,通過觀察規律,消岐方法可采用常用后綴(如老師、先生、收)以及上下文特征等對姓名進行過濾,找出我們關注的姓名實體。
3.提取詳細地址。在進行詳細地址提取之前,為減少干擾,需要將前面提取到的電話號,姓名信息移除,并將無用的詞去掉(如“電話號”,“姓名”)。若直接使用模型標注結果進行地址內容的提取,則可能會遺漏掉低階地址元素,為保證地址提取的完整性,我們對模型的標注結果進行進一步的處理:搜集大量地址特征字、詞,制作特征字典,通過字典尋找地址邊界。具體方法如下:
a.遍歷每一個分詞段,使用特征字典打分。
b.對于分數超過閾值的首個詞段,標記為地址信息開始。
c.對于標注結果為非地址且打分小于閾值的首個詞段,標記為地址信息的結束。
通過以上步驟定位出地址的區間位置。
4.從詳細地址中提取地標信息(POI)
本部分主要從詳細地址中提取出其中的關鍵地標信息,如從“西北旺東路中關村軟件園博彥科技大廈C座”中提取出“博彥科技大廈”或“博彥科技大廈C座”,為減少復雜性,依然利用模型標注結果進行提取,步驟如下:
a.選出標注結果為’ORG’或‘nt’的實體,優先選擇組織機構名稱。
b.若步驟a中實體非空,則選出其中長度最大的實體返回,否則轉步驟c
c.取出標注結果為’LOC’或’ns’的實體,取其中長度最大的結果返回,若實體列表為空,則返回空字符串。
5.對提取結果進行清洗
為確保信息提取的整潔性,可以進一步去除一些無效信息,比如電話號中的非數字,姓名中的數字、字母,地址中的標點符號等。
4.根據權利要求3所述的方法,其特征在于,所述方法還包括:
將得到的下單數據發送到用戶端,用戶可以對得到的下單數據進行修正,然后完成最后下單過程。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京同城必應科技有限公司,未經北京同城必應科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010570280.5/1.html,轉載請聲明來源鉆瓜專利網。





