[發明專利]一種基于長短期記憶(LSTM)模型的多標簽行業分類方法及裝置在審
| 申請號: | 201710024097.3 | 申請日: | 2017-01-13 |
| 公開(公告)號: | CN106777335A | 公開(公告)日: | 2017-05-31 |
| 發明(設計)人: | 彭燕虹;潘嶸;周賴靖競;李銳章;林澤琳 | 申請(專利權)人: | 深圳愛拼信息科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27;G06N3/04;G06N3/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 518057 廣東省深圳市南山區南山街道科*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 短期 記憶 lstm 模型 標簽 行業 分類 方法 裝置 | ||
1.一種基于長短期記憶(LSTM)模型的多標簽行業分類方法,其特征在于,包括如下步驟:
步驟1,采集公司名、公司描述、公司經營范圍數據;
步驟2,按類劃分測試集,以及對所述采集的數據進行切分詞等預處理操作;
步驟3,采用LSTM模型構建多個二分類器對所述預處理后的數據進行分類訓練,以訓練數據真實標簽作為尋優方向,訓練出多標簽行業分類模型;
步驟4,以精度、召回率和F1值作為評估指標,實現對測試集數據的自動評估,并采集小部分新公司數據抽樣進行人工評估,最終訓練出精度更高的多標簽行業分類模型;
步驟5,利用基于LSTM模型的多標簽行業分類模型自動實現對待分類公司的多個行業標簽預測。
2.根據權利要求1所述的一種基于LSTM模型的多標簽行業分類方法,其特征在于,
所述步驟2具體包括:
根據預先分類訓練得到測試集;
對所述采集的公司名稱、公司描述、公司經營范圍數據采用自然語言處理方法進行分詞處理。
3.根據權利要求1所述的一種基于LSTM模型的多標簽行業分類方法,其特征在于,所述步驟3具體包括:利用分詞后的詞匯從前往后的語義信息以及詞序信息,理解不同語境下各個詞匯的真實含義,采用LSTM構建多個二分類器,并且以每個公司的多個行業標簽作為多個二分類尋優方向,通過不斷循環學習網絡中的信息,對每一個公司在每一個行業上均預測是否能被劃分為該行業,從而實現有效分類。
4.根據權利要求1所述的一種基于LSTM模型的多標簽行業分類方法,其特征在于,
所述步驟4還包括:設置F1值,如果測試集的值大于等于所述F1值,則進行步驟5;如果測試集的值小于所述F1值,則回到步驟3,如此往復循環。
5.根據權利要求1所述的一種基于LSTM模型的多標簽行業分類方法,其特征在于,所述步驟5中的待分類公司通過用戶輸入公司名、公司描述、公司經營范圍實現。
6.一種基于長短期記憶(LSTM)模型的多標簽行業分類裝置,其特征在于,該裝置包括:
采集模塊,采集公司名、公司描述、公司經營范圍數據;
預處理模塊,按類劃分測試集,以及對所述采集的數據進行切分詞等預處理操作;
分類訓練模塊,采用LSTM模型構建多個二分類器對所述預處理后的數據進行分類訓練,以訓練數據真實標簽作為尋優方向,訓練出多標簽行業分類模型;
分類測試評估模塊,以精度、召回率和F1值作為評估指標,實現對測試集數據的自動評估,并采集小部分新公司數據抽樣進行人工評估,最終訓練出精度更高的多標簽行業分類模型;
輸入模塊,用于用戶輸入待分類公司的公司名、公司描述、公司經營范圍數據;
分類預測模塊,利用基于LSTM的多標簽行業分類模型自動實現對于待分類公司的多個行業標簽預測。
7.根據權利要求6所述的一種基于LSTM模型的多標簽行業分類裝置,其特征在于,
所述預處理模塊具體用于:
根據預先分類規則訓練得到測試集;
對所述公司名稱、公司描述、公司經營范圍數據采用自然語言處理方法進行分詞處理。
8.根據權利要求6所述的一種基于LSTM模型的多標簽行業分類裝置,其特征在于,所述分類訓練模塊具體用于:
利用分詞后的詞匯從前往后的語義信息以及詞序信息,理解不同語境下各個詞匯的真實含義,采用LSTM構建多個二分類器,并且以每個公司的多個行業標簽作為多個二分類尋優方向,通過不斷循環學習網絡中的信息,對每一個公司在每一個行業上均預測是否能被劃分為該行業,從而實現有效分類。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳愛拼信息科技有限公司,未經深圳愛拼信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710024097.3/1.html,轉載請聲明來源鉆瓜專利網。





