[發明專利]信息識別方法和裝置、設備、介質和程序在審
| 申請號: | 202110098533.8 | 申請日: | 2021-01-25 |
| 公開(公告)號: | CN112784015A | 公開(公告)日: | 2021-05-11 |
| 發明(設計)人: | 散騰飛 | 申請(專利權)人: | 北京金堤科技有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F40/295 |
| 代理公司: | 北京思源智匯知識產權代理有限公司 11657 | 代理人: | 毛麗琴 |
| 地址: | 100086 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 信息 識別 方法 裝置 設備 介質 程序 | ||
本公開實施例公開了一種信息識別方法和裝置、設備、介質和程序,其中,方法包括:獲取待識別信息;利用識別模型對所述待識別信息進行實體識別,得到所述待識別信息中的位置信息、組織形式信息、以及所述位置信息和所述組織形式信息以外的其他信息;其中,所述識別模型預先基于訓練集訓練得到,所述訓練集包括多個公司名稱訓練語料,所述訓練語料標注有位置標注信息、組織形式標注信息和其他標注信息;所述位置標注信息基于地址集標注得到,所述地址集包括多個預先采集的地址;所述組織形式標注信息基于組織形式集標注得到,所述組織形式集包括多個預先采集的組織形式。本公開實施例可以提高公司名稱識別的準確性。
技術領域
本公開涉及自然語言處理技術,尤其是一種信息識別方法和裝置、設備、介質和程序。
背景技術
隨著深度學習技術的發展,特別是在自然語言處理自然語言處理(NaturalLanguage Processing,NLP)方向的進步,極大的提高了人們在處理文本這種非結構化數據方面的效率。命名實體識別(Named Entity Recognition,NER)也稱為實體識別、實體分塊和實體提取,是NLP中的一個子任務,旨在將文本中的命名實體定位并分類為預先定義的類別,如地名,人員、組織、位置、時間表達式、數量、貨幣值、百分比等。
每個企業都有自己的公司名稱,對公司名稱進行命名實體識別和信息提取,有助于分析企業信息、建立知識圖譜、挖掘企業之間關系等,是一項十分有價值的工作。
在實現本公開的過程中,本發明人通過研究發現:現有的命名實體識別技術,主要應用在一些通用的場景上,例如,對新聞中出現的事件、組織等進行識別,對小說或者其他的文學作品中的人物、時間等進行識別,這些通用的命名實體識別場景中所用到的訓練集大都是公開的數據集,而公司名稱具有以下特點:在不同領域、場景下的外延有差異;數量巨大,不能枚舉,難以全部收錄在訓練集中;公司名稱變化頻繁;表達形式多樣,等。基于上述通用場景的訓練集訓練得到的識別模型無法適用于公司名稱的上述特點要求,無法對公司名稱進行有效識別,識別準確性較低,效果較差。
發明內容
本公開的目的在于提供一種信息識別方法和裝置、設備、介質和程序,進而至少在一定程度上提高公司名稱識別的準確性。
本公開的其他特性和優點將通過下面的詳細描述變得顯然,或部分地通過本公開的實踐而習得。
本公開實施例的一個方面,提供一種信息識別方法,包括:
獲取待識別信息;
利用識別模型對所述待識別信息進行實體識別,得到所述待識別信息中的位置信息、組織形式信息、以及所述位置信息和所述組織形式信息以外的其他信息;
其中,所述識別模型預先基于訓練集訓練得到,所述訓練集包括多個公司名稱訓練語料,所述訓練語料標注有位置標注信息、組織形式標注信息和其他標注信息;所述位置標注信息基于地址集標注得到,所述地址集包括多個預先采集的地址;所述組織形式標注信息基于組織形式集標注得到,所述組織形式集包括多個預先采集的組織形式。
可選地,在本公開上述任一方法實施例中,所述待識別信息包括:待識別的公司名稱。
可選地,在本公開上述任一方法實施例中,所述其他信息包括以下至少一項:字號,行業。
可選地,在本公開上述任一方法實施例中,還包括:
從公司信息數據庫中采集預設區域范圍內的多個第一公司名稱;
分別對所述多個第一公司名稱中的每個第一公司名稱按照預設處理方式進行處理,得到第一處理結果,所述第一處理結果中包括每個所述第一公司名稱中的地址和組織形式;
從所述第一處理結果中采集各級地址和各種組織形式;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京金堤科技有限公司,未經北京金堤科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110098533.8/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





