[發明專利]一種基于長短期記憶(LSTM)模型的多標簽行業分類方法及裝置在審
| 申請號: | 201710024097.3 | 申請日: | 2017-01-13 |
| 公開(公告)號: | CN106777335A | 公開(公告)日: | 2017-05-31 |
| 發明(設計)人: | 彭燕虹;潘嶸;周賴靖競;李銳章;林澤琳 | 申請(專利權)人: | 深圳愛拼信息科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27;G06N3/04;G06N3/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 518057 廣東省深圳市南山區南山街道科*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 短期 記憶 lstm 模型 標簽 行業 分類 方法 裝置 | ||
技術領域
本發明涉及一種數據處理方法,更具體的,涉及一種基于LSTM的多標簽行業分類方法及裝置。
背景技術
現有的行業分類主要采用包括人工方法標注公司行業類別,制定行業分類規則以判斷公司行業或傳統分類方法(如支持向量機/決策樹等方法)來實現,存在以下問題:
(1)人工方法:行業知識存在知識壁壘,需要大量行業專家參與才能有效完成標注,耗費大量人力/物力;
(2)規則方法:公司數量龐大,很難兼顧所有公司特征制定行業分類規則;新公司層出不窮,難以及時更新;制定規則需要大量人員參與,實現難度高;
(3)傳統分類方法:需要進行特征提取處理,處理后文檔損失信息,容易導致分類精度降低。
人工方法和規則方法均需要大量人員參與才得以實現,不僅無法應對龐大的公司數量,也難以適應時代的發展;而對于傳統分類方法而言,其不考慮原始文本中各個詞匯的上下文順序,直接通過將文檔中的詞映射為向量來計算是否歸屬于某一個行業,但在進行文檔向量表示前,需要進行特征提取的預處理工作。以采用卡方檢驗特征選擇方法為例,其通過計算各個詞基于各個行業類別的卡方值,以確定是否保留某個詞作為行業特征詞,一旦特征詞選擇過少,各個行業類別的特征數量隨之變少,所訓練的行業分類器無法有效應對更多不同詞匯表達的公司描述/公司經營范圍,因而無法準確判斷新公司行業類別;一旦特征詞選擇過多,文檔向量維數過大且稀疏,需要耗費較多的存儲空間和計算資源,分類效率低下,而且更容易出現過擬合,分類精度降低。
同時,當前的行業分類主要集中于單標簽行業分類,即一個公司僅標注一個行業。然而,隨著公司的不斷發展,許多公司朝向多元化業務發展,涉及多個行業,單標簽行業分類很難描述公司真實的行業分布。
發明內容
本發明旨在解決現有技術中存在的技術問題,基于長短時記憶Long Short Term(簡稱LSTM)的多標簽行業分類模型,僅需輸入公司名、公司描述、公司經營范圍,即可得到該公司的多個行業標簽,大大降低人工標注成本,提高分類精度,且符合大多數公司非單一行業,而具有多個行業屬性的情況。
為實現上述目的,本發明提供了一種基于長短期記憶(LSTM)模型的多標簽行業分類方法,該方法包括如下步驟:
步驟1,采集公司名、公司描述、公司經營范圍數據;
步驟2,按類劃分測試集,以及對所述采集的數據進行切分詞等預處理操作;
步驟3,采用LSTM模型構建多個二分類器對所述預處理后的數據進行分類訓練,以訓練數據真實標簽作為尋優方向,訓練出多標簽行業分類模型;
步驟4,以精度、召回率和F1值作為評估指標,實現對測試集數據的自動評估,并采集小部分新公司數據抽樣進行人工評估,最終訓練出精度更高的多標簽行業分類模型;
步驟5,利用基于LSTM模型的多標簽行業分類模型自動實現對待分類公司的多個行業標簽預測。
更具體的,所述步驟2具體包括:
根據預先分類訓練得到測試集;
對所述采集的公司名稱、公司描述、公司經營范圍數據采用自然語言處理方法進行分詞處理。
更具體的,所述步驟3具體包括:利用分詞后的詞匯從前往后的語義信息以及詞序信息,理解不同語境下各個詞匯的真實含義,采用LSTM模型構建多個二分類器,并且以每個公司的多個行業標簽作為多個二分類尋優方向,通過不斷循環學習網絡中的信息,對每一個公司在每一個行業上均預測是否能被劃分為該行業,從而實現有效分類。
更具體的,所述步驟4還包括:設置F1值,如果測試集的值大于等于所述F1值,則進行步驟5;如果測試集的值小于所述F1值,則回到步驟3,如此往復循環。
更具體的,所述步驟5中的待分類公司通過用戶輸入公司名、公司描述、公司經營范圍實現。
根據本發明的另一方面,還提供了一種基于LSTM模型的多標簽行業分類裝置,該裝置包括:
采集模塊,采集公司名、公司描述、公司經營范圍數據;
預處理模塊,按類劃分測試集,以及對所述采集的數據進行切分詞等預處理操作;
分類訓練模塊,采用LSTM模型構建多個二分類器對所述預處理后的數據進行分類訓練,以訓練數據真實標簽作為尋優方向,訓練出多標簽行業分類模型;
分類測試評估模塊,以精度、召回率和F1值作為評估指標,實現對測試集數據的自動評估,并采集小部分新公司數據抽樣進行人工評估,最終訓練出精度更高的多標簽行業分類模型;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳愛拼信息科技有限公司,未經深圳愛拼信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710024097.3/2.html,轉載請聲明來源鉆瓜專利網。





