[發明專利]一種面向純文本的企業實體分類方法有效
| 申請號: | 201710371464.7 | 申請日: | 2017-05-24 |
| 公開(公告)號: | CN107193959B | 公開(公告)日: | 2020-11-27 |
| 發明(設計)人: | 張雷;陳嘉偉;謝璐遙;王崇駿 | 申請(專利權)人: | 南京大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35 |
| 代理公司: | 南京瑞弘專利商標事務所(普通合伙) 32249 | 代理人: | 陳建和 |
| 地址: | 210093 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 文本 企業 實體 分類 方法 | ||
1.一種面向純文本的企業實體分類方法,其特征在于,包括如下步驟:
S1、對采集到的純文本數據中的企業實體進行標注,將標注完成的數據作為企業實體識別模塊的訓練集;對采集到的純文本數據中的企業實體按照行業性質進行類別標注,將標注完成的數據作為企業實體分類模塊的訓練樣本集;
S2、通過引入邊界特征的條件隨機場模型進行企業實體識別模型訓練,并得到企業實體識別模型;
S3、對原始訓練集的文本數據進行語義向量化構建,即使用詞向量計算工具得到訓練樣本集中所有詞的詞向量,計算訓練樣本集中所有詞的逆文本頻率IDF值,利用詞向量和TF-IDF值計算包含有企業實體語句中的企業實體的向量和上下文向量,將企業實體的向量和上下文向量進行拼接,以得到包含上下文語義的企業實體語義向量;
S4、將經語義向量化后的有類別標注的訓練集數據作為訓練參數訓練出企業實體分類模型;
S5、利用企業實體分類模型對待預測文本中的企業實體進行分類;
所述步驟S2具體包括:通過HanLP將企業名稱分詞后整理得到左、右邊界詞典;使用開源的libSVM訓練得到左、右邊界的預測模型;依次從訓練集中取出詞語并通過左、右邊界的預測模型來判斷該詞語是否是左、右邊界詞;將包括詞語本身、詞性標注、左右邊界標記、實體標注的訓練集數據輸入開源的條件隨機場工具進行企業實體識別模型的訓練并得到企業實體的識別模型;
所述步驟S3具體包括:
步驟3-1、輸入已經完成分句、分詞、詞性標注和類別標注的訓練集;
步驟3-2、計算訓練集中所有詞的詞向量;
步驟3-3、計算訓練集中所有詞的逆文本頻率IDF值,其計算的公式如下:
式中,分子表示整個文檔中文檔的總數,分母表示包含某個詞語的文檔數再加1;
步驟3-4、從訓練集中的第一句文本開始依次取出文檔中的每一句文本;
步驟3-5、利用企業實體識別模型判斷取出的這一句文本中是否有企業實體的存在,如果有則到步驟3-6,否則到步驟3-10;
步驟3-6、在步驟3-5中判斷出文本中包含企業實體之后,對實體部分的語義向量進行計算,一個實體的語義向量vm的計算公式如下:
式中,wi表示構成實體的第i個詞組的向量,i=1,2,…,n;
步驟3-7、對實體的上下文部分計算語義向量,其計算方式如下:
式中,v(context)是上下文的語義向量,f·idf(wi)表示詞語wi的TF-IDF值,v(wi)為詞語wi的詞向量,k為詞窗口大??;TF值為文本中出現該詞語的頻次,詞語的TF-IDF值即為詞語的TF值與IDF值的乘積;
步驟3-8、對步驟3-6和步驟3-7中得到的實體和上下文的語義向量進行拼接,具體操作為對k維的實體向量和k維的上下文向量,以實體向量在前,上下文向量在后的方式拼接得到一個2k維的向量;
步驟3-9、判斷是否遍歷完訓練集文本中所有的語句,如果遍歷完成則到步驟3-11,否則到步驟3-10;
步驟3-10、計數器i加1,取出訓練集文本中的下一條語句;
步驟3-11、將得到的融合上下文語義的實體向量輸出,作為企業實體分類模型的訓練數據;
步驟3-12、訓練集文本語義構建的結束;
所述步驟S5具體包括:
步驟5-1、向企業實體分類模型輸入待預測實體類別的文本;
步驟5-2、利用企業實體識別模型判斷輸入文本中是否有企業實體,如果有則轉到步驟5-3,否則轉到步驟5-5;
步驟5-3、對包含有企業實體文本利用步驟3-1至步驟3-12進行實體語義向量構建,之后將得到的向量輸入訓練好的企業實體分類模型中,得到文本中實體的分類結果;
步驟5-4、輸出5-3步驟的分類結果;
步驟5-5、企業實體分類的結束。
2.如權利要求1所述的企業實體分類方法,其特征在于,S1中,將采集到的純文本數據進行分句、分詞和詞性標注,采用人工標注的方法對純文本數據中的企業實體和行業類別進行標注。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京大學,未經南京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710371464.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種船用多功能折疊儲物架
- 下一篇:一種用于陳列珍貴圖書的藏書柜





