[發明專利]一種模型訓練方法及命名實體識別方法有效
| 申請號: | 201810685795.2 | 申請日: | 2018-06-28 |
| 公開(公告)號: | CN110728147B | 公開(公告)日: | 2023-04-28 |
| 發明(設計)人: | 王宗宇;王濤;李林琳;司羅 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F16/28;G06Q30/0601 |
| 代理公司: | 北京三友知識產權代理有限公司 11127 | 代理人: | 李輝 |
| 地址: | 英屬開曼*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 模型 訓練 方法 命名 實體 識別 | ||
本申請實施例公開了一種模型訓練方法及命名實體識別方法。所述模型訓練方法包括:利用多個第一歷史產品描述信息與所述第一歷史產品描述信息對應的品類信息之間的對應關系訓練得到第一深度學習模型組件,所述品類信息被設置為利用機器學習模型組件預測得到;基于所述第一深度學習模型組件,利用人工標注的樣本數據訓練得到第二深度學習模型組件;分別利用第一深度學習模型組件和第二深度學習模型組件生成多個訓練數據,并利用所述多個訓練數據訓練生成第三深度學習模型組件,所述第三深度學習模型組件用于識別產品描述信息中的品類信息。利用本申請的技術方案,可以在低成本的基礎上,訓練得到能夠準確識別產品描述信息中品類信息的模型組件。
技術領域
本申請涉及數據處理技術領域,特別涉及一種模型訓練方法及命名實體識別方法。
背景技術
命名實體識別(Named?Entity?Recognition,NER)是自然語言處理(NaturalLanguage?Processing,NLP)里的一項基礎任務,目的是從文本中識別出命名性對象,為關系抽取等任務做鋪墊。狹義上,命名實體識別是指識別出人名、地名和組織機構名這三類命名實體(時間、貨幣名稱等構成規律明顯的實體類型可以用正則等方式識別)。當然,在特定領域中,會相應地定義領域內的各種實體類型。典型的,例如在電商領域中,標題和搜索詞中的實體識別是重要的基礎工作。在搜索業務場景中,通過準確的識別標題中的產品詞、品牌詞等實體詞可以提高搜索的質量。在翻譯業務場景中,對實體的識別并針對性地翻譯可以提升翻譯的效果。在推薦業務場景中,通過對用戶的搜索詞進行實體識別,可以有效地推薦商品。因此,NER作為NLP基礎技術中的重要模塊,是電商技術的基礎。
現有技術中,目前主要有三種命名實體的識別方法,分別是基于規則和詞表的方法、基于統計機器學習的方法和基于神經網絡的方法。
基于規則和詞表的方法
基于規則的方法多采用語言學專家手工構造規則,利用手工編寫的規則,將文本與規則進行匹配來識別出命名實體。例如,對于中文來說,“說”、“老師”等詞語可作為人名的下文,“大學”、“醫院”等詞語可作為組織機構名的結尾,還可以利用到詞性、句法信息。
基于統計機器學習的方法
基于統計機器學習的方法主要包括隱馬爾可夫模型(HMM)、最大熵(ME)、支持向量機(SVM)、條件隨機場(CRF)等。基于統計機器學習的方法對特征選取的要求較高,需要從文本中選擇對該項任務有影響的多種特征,并將這些特征加入到特征模板中。主要做法是通過對訓練語料所包含的語言信息進行統計和分析,從訓練語料中挖掘出特征。有關特征可以分為具體的單詞特征、上下文特征、詞典及詞性特征、停用詞特征、核心詞特征以及語義特征等。
基于神經網絡的方法
近年來,隨著硬件能力的發展以及詞的分布式表示,如詞嵌入(word?embedding)的出現,神經網絡成為可以有效處理許多NLP任務的模型。這類方法對于序列標注任務(如CWS、POS、NER)的處理方式是類似的,將標記從離散獨熱碼表示映射到低維空間中成為稠密的詞嵌入,隨后將句子的詞嵌入序列輸入到循環神經網絡(RNN)中,用神經網絡自動提取特征,邏輯回歸函數來預測每個標記的標簽。這種方法使得模型的訓練成為一個端到端的整體過程,不依賴于特征工程,是一種數據驅動的方法。
綜上所述,現有技術中命名實體識別的幾類方式均存在各自的技術問題,包括但不限于:
一、基于規則和詞表的方法在構建規則的過程中往往需要大量的語言學知識,不同語言的識別規則不盡相同,而且需要謹慎處理規則之間的沖突問題;此外,構建規則的過程費時費力、可移植性不好;
二、基于統計機器學習的方法對特征選取的要求較高,若不能挖掘出有效的特征,則不能獲取較好的學習效果;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810685795.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:輿情發現方法、裝置、終端設備以及存儲介質
- 下一篇:實體關系抽取方法和裝置





