[發明專利]一種基于實體迭代的領域實體標注語料庫構建方法在審
| 申請號: | 201910665738.2 | 申請日: | 2019-07-23 |
| 公開(公告)號: | CN110569490A | 公開(公告)日: | 2019-12-13 |
| 發明(設計)人: | 肖清林 | 申請(專利權)人: | 福建奇點時空數字科技有限公司 |
| 主分類號: | G06F17/24 | 分類號: | G06F17/24;G06F16/35;G06F16/9535;G06F16/9537;G06Q50/26 |
| 代理公司: | 11589 北京勁創知識產權代理事務所(普通合伙) | 代理人: | 王志敏 |
| 地址: | 361000 福建省廈門市軟件園*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 篩選 分類 語料庫構建 云服務器 語料庫 詞條 構建 語句 終端 讀取 領域實體 收集信息 信息發送 資料信息 綜合考慮 迭代 地理位置 標注 搜索 評判 網絡 發送 反饋 觀看 記錄 | ||
1.一種基于實體迭代的領域實體標注語料庫構建方法,其特征在于,方法步驟包括:
S1、由各個終端和云服務器上收集資料信息;
S2、對收集信息進行篩選和分類;
S3、將篩選出來的信息發送至網絡中;
S4、對網友的信息進行讀取并記錄;
S5、完善并分類構建語料庫。
2.根據權利要求1所述的一種基于實體迭代的領域實體標注語料庫構建方法,其特征在于,在S1中,收集資料信息包括語料建設、企業文化建設、企業組織建設、企業作風建設、紀律建設相關文章、關鍵詞和語句。
3.根據權利要求1所述的一種基于實體迭代的領域實體標注語料庫構建方法,其特征在于,在S2中,將收集的信息進行篩選,去除無用的信息,將篩選后的信息分為一系列標簽,并根據標簽進行分類。
4.根據權利要求1所述的一種基于實體迭代的領域實體標注語料庫構建方法,其特征在于,在S3中,將篩選后的出現次數最多的文章、關鍵詞和語句發送至網絡中,推送至移動端供觀看。
5.根據權利要求1所述的一種基于實體迭代的領域實體標注語料庫構建方法,其特征在于,在S4中,網友信息包括年齡信息、評論、學歷信息和地理信息,將各個年齡段的評論、各個學歷段評論和不同地理位置信息評論進行整理和記錄。
6.根據權利要求1所述的一種基于實體迭代的領域實體標注語料庫構建方法,其特征在于,在S5中,綜合各階段人群的評論與見解,不斷的修正關于語料建設、企業文化建設、企業組織建設、企業作風建設、紀律建設和制度建設文章、關鍵詞和語句,進行構建完整的語料庫,并將語料庫以分成關鍵詞的、雙語的和多語的。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于福建奇點時空數字科技有限公司,未經福建奇點時空數字科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910665738.2/1.html,轉載請聲明來源鉆瓜專利網。





