[發明專利]一種品牌名稱識別的方法及設備有效
| 申請號: | 202210030450.X | 申請日: | 2022-01-12 |
| 公開(公告)號: | CN114049528B | 公開(公告)日: | 2022-06-28 |
| 發明(設計)人: | 不公告發明人 | 申請(專利權)人: | 上海蜜度信息技術有限公司 |
| 主分類號: | G06V10/764 | 分類號: | G06V10/764;G06V10/778;G06V10/774;G06K9/62;G06N20/00 |
| 代理公司: | 上海百一領御專利代理事務所(普通合伙) 31243 | 代理人: | 楊顏顏 |
| 地址: | 201204 上海市浦東新區中國(上*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 品牌 名稱 識別 方法 設備 | ||
本申請的目的是提供一種品牌名稱識別的方法及設備,本申請通過對樣本數據中每一個文本的每個位置使用BMES進行序列標簽標注,得到包括文本序列和標簽序列的訓練數據;使用所述訓練數據構建序列標注模型,以及采用機器學習方法構建分類模型;基于所述序列標注模型識別原始文本,得到序列標注的識別結果;基于所述分類模型對所述序列標注的識別結果進行矯正,得到品牌名稱的識別結果。從而可以提高識別品牌名稱的準確性,對錯誤的識別使用分類模型消除誤報。
技術領域
本申請涉及計算機技術領域,尤其涉及一種品牌名稱識別的方法及設備。
背景技術
對文本進行識別的方式中,雖然目前有機器學習、深度學習模型,但是這些方式在對于品牌名名稱的識別時依然容易產生一些遺漏,對于一些容易混淆的組詞,模型如果沒有充足的訓練語料,很容易將其預測錯誤,比如“美的”品牌容易在詞組中產生混淆,如“最美的風景”。另一方面,在訓練模型時,依賴一份好的標注語料,但好的標注語料依靠人工的話,會非常耗時耗力,所需需要有一個好的標注方法來解決問題。
發明內容
本申請的一個目的是提供一種品牌名稱識別的方法及設備,解決現有技術中對于品牌名稱的識別需要人工標注以及容易出現遺漏品牌和易混淆的詞語難識別的問題。
根據本申請的一個方面,提供了一種品牌名稱識別的方法,該方法包括:
對樣本數據中每一個文本的每個位置使用BMES標簽類型進行序列標簽標注,得到包括文本序列和標簽序列的訓練數據;
使用所述訓練數據構建序列標注模型,以及采用機器學習方法構建分類模型;
基于所述序列標注模型識別原始文本,得到序列標注的識別結果;
基于所述分類模型對所述序列標注的識別結果進行矯正,得到品牌名稱的識別結果。
可選地,對樣本數據中每一個文本的每個位置使用BMES進行序列標簽標注,包括:
根據正則表達式對樣本數據中每一個文本的每個位置使用BMES進行序列標簽標注,其中,所述正則表達式是由對業務總結的規則進行編輯確定的。
可選地,使用所述訓練數據構建序列標注模型,包括:
將所述訓練數據輸入至條件隨機場模型中,得到訓練結果;
使用測試數據對所述訓練結果進行模型效果評估,將評估結果達到要求的聯合模型作為序列標注模型。
可選地,基于所述序列標注模型識別原始文本,得到序列標注的識別結果,包括:
將所述原始文本輸入至所述序列標注模型中生成每個時刻的特征函數,其中,所述特征函數包括狀態特征函數和轉移特征函數;
從所述序列標注模型中獲取每個特征函數對應的權重,根據所述特征函數與所述對應的權重確定標簽網絡;
使用維特比解碼算法對所述標簽網絡進行計算,得到最優標簽路徑,根據所述最優標簽路徑得到序列標注的識別結果。
可選地,使用所述訓練數據構建序列標注模型,包括:
在BERT模型中添加條件隨機場模型層,得到聯合模型;
將所述訓練數據輸入至所述聯合模型中,得到訓練結果;
使用測試數據對所述訓練結果進行模型效果評估,將評估結果達到要求的聯合模型作為序列標注模型。
可選地,基于所述序列標注模型識別原始文本,得到序列標注的識別結果,包括:
使用所述BERT模型對所述訓練數據進行提取特征,繼續使用所述條件隨機場模型層對所述特征進行計算,得到轉移矩陣;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海蜜度信息技術有限公司,未經上海蜜度信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210030450.X/2.html,轉載請聲明來源鉆瓜專利網。





