[發明專利]一種面向純文本的企業實體分類方法有效
| 申請號: | 201710371464.7 | 申請日: | 2017-05-24 |
| 公開(公告)號: | CN107193959B | 公開(公告)日: | 2020-11-27 |
| 發明(設計)人: | 張雷;陳嘉偉;謝璐遙;王崇駿 | 申請(專利權)人: | 南京大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35 |
| 代理公司: | 南京瑞弘專利商標事務所(普通合伙) 32249 | 代理人: | 陳建和 |
| 地址: | 210093 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 文本 企業 實體 分類 方法 | ||
本發明公開一種面向純文本的企業實體分類方法,包括如下步驟:S1、對采集到的純文本數據中的企業實體進行類別標注,作為企業實體識別模塊的訓練集;對采集到的純文本數據中的企業實體按照行業性質進行類別標注,以作為企業實體分類模塊的訓練樣本集;S2、通過條件隨機場模型進行企業實體識別模型訓練,并得到企業實體識別模型;S3、對原始訓練集的文本數據進行語義向量化構建;S4、將經語義向量化后的有類別標注的訓練集數據作為訓練參數訓練出企業實體分類模型;S5、利用企業實體分類模型對待預測文本中的企業實體進行分類。該方法用得到的語義向量作為實體的特征,減少對人工特征和外部數據的依賴,并且通用性和健壯性得到保證。
技術領域
本發明屬于命名實體識別和細粒度實體分類技術領域,具體涉及一種面向純文本的企業實體分類方法。
背景技術
近年來,隨著“互聯網金融”的熱潮,越來越多的企業決策者迫切需要利用更先進的信息處理方式來對海量的互聯網數據進行抽取和分析,以便做出更好的決策。在這些海量數據之中,法院文書類、新聞輿情類等純文本數據成為企業獲取高價值信息的首要來源。
命名實體識別技術是企業進行實體語義分析,實體關系抽取等工作的基礎。目前主流的命名實體識別技術只是將實體分為人名、地名、機構名等,這使得實體的類型缺乏語義。同時,進行實體分類時過多依賴于人工特征和外部數據,使其通用性和健壯性得不到保證。
發明內容
本發明針對目前主流的命名實體識別技術只是將實體分為人名、地名、機構名等,使得實體的類型缺乏語義。此外,進行實體分類時過多依賴于人工特征和外部數據,使其通用性和健壯性得不到保證。為解決上述問題,本發明提出一種面向純文本的企業實體分類方法,采用企業實體更細粒度的劃分方式,并且使用文本本身的語義構建特征,最后進行企業實體的分類。其中,純文本,即包含企業活動信息的文本,譬如新聞文本、法院文書等。
如圖1所示,本發明所公開的面向純文本的企業實體分類方法,包括如下步驟:
S1、對采集到的純文本數據中的企業實體進行類別標注,將標注完成的數據作為企業實體識別模塊的訓練集;對采集到的純文本數據中的企業實體按照行業性質進行類別標注,將標注完成的數據作為企業實體分類模塊的訓練樣本集;
S2、通過條件隨機場模型進行企業實體識別模型訓練,并得到企業實體識別模型;
S3、對原始訓練集的文本數據進行語義向量化構建;
S4、將經語義向量化后的有類別標注的訓練集數據作為訓練參數訓練出企業實體分類模型;
S5、利用企業實體分類模型對待預測文本中的企業實體進行分類。
進一步的,S1中,將采集到的純文本數據進行分句、分詞和詞性標注,采用人工標注的方法對純文本數據中的企業實體和行業類別進行標注。
進一步的,使用開源的分詞和詞性標注軟件HanLP對純文本數據進行分句、分詞和詞性標注。
進一步的,對純文本數據中的企業實體標注方式為“BIO”標記形式,其中,企業實體的起始詞標記為“B”,企業實體非起始詞的其他部分詞語標記為“I”,與企業實體無關的詞語標記為“O”。
進一步的,采用人工標注的方法中,對純文本數據中的企業實體依據上下文內容按照行業性質對其進行類別標注。
進一步的,S2中,通過引入邊界特征的條件隨機場模型進行企業實體識別模型訓練。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京大學,未經南京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710371464.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種船用多功能折疊儲物架
- 下一篇:一種用于陳列珍貴圖書的藏書柜





