[發明專利]實體詞識別方法及裝置在審

申請號：	201710580718.6	申請日：	2017-07-17
公開（公告）號：	CN107291700A	公開（公告）日：	2017-10-24
發明（設計）人：	晉彤	申請（專利權）人：	廣州特道信息科技有限公司
主分類號：	G06F17/27	分類號：	G06F17/27;G06F17/30
代理公司：	廣州三環專利商標代理有限公司44202	代理人：	梁順宜,郝傳鑫
地址：	510000 廣東省廣州市越秀***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	實體詞識別方法裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種實體詞識別方法，其特征在于，包括步驟：

收集結構化數據，對所述結構化數據進行初步過濾和精簡后生成若干個領域的語料；

將每一領域的語料進行訓練后生成對應領域的第一實體詞庫；

通過大量文章對每一領域的第一實體詞庫進行驗證生成第二實體詞庫，根據所述第二實體詞庫對實體詞進行識別。

2.如權利要求1所述的實體詞識別方法，其特征在于，所述實體詞的類別包括人名、地名、公司和品牌。

3.如權利要求1所述的實體詞識別方法，其特征在于，對實體詞識別包括對所述實體詞進行類別、權重和所屬領域的識別。

4.如權利要求1所述的實體詞識別方法，其特征在于，根據所述第二實體詞庫對實體詞識別具體為：

根據所述第二實體詞庫，通過線性映射技術對所述實體詞進行識別。

5.如權利要求1所述的實體詞識別方法，其特征在于，對所述結構化數據進行初步過濾和精簡后生成若干個領域的語料具體為：

通過大數據ETL數據對所述結構化數據進行初步過濾和精簡后生成若干個領域的語料庫。

6.如權利要求1所述的實體詞識別方法，其特征在于，通過大量文章對每一領域的第一實體詞庫進行驗證生成第二實體詞庫具體為：

根據每一領域的第一實體詞庫，通過條件隨機場對大量文章進行實體詞之間的共現率訓練，從而生成第二實體詞庫。

7.如權利要求1所述的實體詞識別方法，其特征在于，根據所述第二實體詞庫對實體詞識別后還包括步驟：

將進行識別后的實體詞通過詞性語義引擎進行二次校驗。

8.一種實體詞識別裝置，其特征在于，包括：

收集模塊，用于收集結構化數據，對所述結構化數據進行初步過濾和精簡后生成若干個領域的語料；

第一實體詞庫生成模塊，用于對每一領域的語料進行訓練后生成對應領域的第一實體詞庫；

識別模塊，用于通過大量文章對每一領域的第一實體詞庫進行驗證生成第二實體詞庫，根據所述第二實體詞庫對實體詞進行識別。

9.如權利要求8所述的實體詞識別裝置，其特征在于，所述實體詞的類別包括人名、地名、公司和品牌。

10.如權利要求8所述的實體詞識別裝置，其特征在于，對實體詞識別包括對所述實體詞進行類別、權重和所屬領域的識別。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于廣州特道信息科技有限公司，未經廣州特道信息科技有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201710580718.6/1.html，轉載請聲明來源鉆瓜專利網。

專利分類

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】