[發明專利]一種基于神經網絡的命名實體識別方法和車機有效
| 申請號: | 202010043418.6 | 申請日: | 2020-01-15 |
| 公開(公告)號: | CN111274816B | 公開(公告)日: | 2021-05-18 |
| 發明(設計)人: | 李林峰;黃海榮;馮俊旗 | 申請(專利權)人: | 湖北億咖通科技有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/126;G06N3/04;G06N3/08 |
| 代理公司: | 武漢智權專利代理事務所(特殊普通合伙) 42225 | 代理人: | 張凱 |
| 地址: | 430056 湖北省武漢市經濟開發區神*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 神經網絡 命名 實體 識別 方法 | ||
本發明提供了一種基于神經網絡的命名實體識別方法、計算機可讀存儲介質、電子設備和車機。該方法在得到待識別字符串中每一字符對應的索引值后,根據該索引值、以及預先部署的編碼后字符向量表和字符向量壓縮編碼表,反向查找得到待識別字符串的原始字符向量矩陣,進而根據待識別字符串的原始字符向量矩陣,通過神經網絡進行推理,識別出待識別字符串中的命名實體和命名實體對應的標簽。由于只需要在神經網絡內預先部署編碼后字符向量表和字符向量壓縮編碼表,而無需保存字符的原始字符向量,且壓縮編碼后的字符向量值的編碼位數小于原始字符向量值的編碼位數,節省存儲空間,減少芯片的內存空間尺寸。
技術領域
本發明涉及人工智能算法技術領域,特別是一種基于神經網絡的命名實體識別方法、計算機可讀存儲介質、電子設備以及車機。
背景技術
在汽車車機NLP(Natural Language Processing,自然語言處理)領域,命名實體識別(Named Entity Recognition,NER)是一項很基礎的任務。NER的神經網絡模型通常采用LSTM(Long Short-Term Memory,長短記憶網絡)加CRF(Conditional Random Field,條件隨機場)的結構,主要包括輸入層、字嵌入層、LSTM層、全連接層、維特比解碼層和輸出層,其中在字嵌入層中會將輸入的字符串中的每個字/詞表示成一個多維數組。
在現有技術中,常采用one-hot(獨熱編碼)來對字/詞進行數字化表示來得到該多維數組,但這種方式存在編碼所需位數非常龐大,進而導致存儲空間占用過大的問題。例如,假設存在10000個常用漢字,則采用one-hot來表示時,每個字需要10000維(即,10000個位)來表示,位數非常龐大。
為了解決此問題,出現了采用字/詞向量來表示的方法。通過使用向量,每個字僅需要幾百位就可以表達one-hot編碼下需要10000位才能表達的內容,顯著降低了存儲空間占用。但是,由于在字/詞向量中采用的是浮點數據(如32位單精度浮點數),其占用的存儲空間仍然是比較大的。即使將32位浮點數量化為整型(如16位整型),所有漢字所占用的存儲空間仍然無法有效縮減以滿足芯片內存尺寸小型化的需求。
發明內容
鑒于上述問題,提出了本發明以便提供一種克服上述問題或者至少部分地解決上述問題的一種基于神經網絡的命名實體識別方法、計算機可讀存儲介質、電子設備以及車機。
本發明的一個目的在于提供一種能夠節省存儲空間從而減少芯片的內存空間尺寸的基于神經網絡的命名實體識別方法。
本發明的一個進一步的目的在于通過采用恰當的壓縮編碼方式提高字符向量的存儲效率。
根據本發明實施例的一方面,提供了一種基于神經網絡的命名實體識別方法,其特征在于,包括:
接收輸入的待識別字符串,并根據預置的字符與索引值的對應關系,得到所述待識別字符串中每一字符對應的索引值;
根據所述待識別字符串中每一字符對應的索引值,在預先部署的編碼后字符向量表中查找與所述待識別字符串中每一字符對應的索引值相對應的壓縮編碼后的字符向量,得到所述待識別字符串的壓縮編碼后向量矩陣,其中,所述壓縮編碼后的字符向量為由壓縮編碼后的字符向量值組成的預設維數的數組;
根據預先部署的字符向量壓縮編碼表中壓縮編碼后的字符向量值與原始字符向量值的映射關系,將所得到的所述待識別字符串的壓縮編碼后向量矩陣中的每一個壓縮編碼后的字符向量值用所述字符向量壓縮編碼表中的原始字符向量值代替,得到所述待識別字符串的原始字符向量矩陣,其中,所述壓縮編碼后的字符向量值的編碼位數小于所述原始字符向量值的編碼位數;
根據所述待識別字符串的原始字符向量矩陣,通過所述神經網絡進行推理,識別出所述待識別字符串中的命名實體和所述命名實體對應的標簽。
可選地,所述編碼后字符向量表和所述字符向量壓縮編碼表通過以下方式得到:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湖北億咖通科技有限公司,未經湖北億咖通科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010043418.6/2.html,轉載請聲明來源鉆瓜專利網。





