[發明專利]一種基于新詞發現和Flat-lattice的糧情命名實體識別方法在審
| 申請號: | 202111076986.7 | 申請日: | 2021-09-14 |
| 公開(公告)號: | CN113743122A | 公開(公告)日: | 2021-12-03 |
| 發明(設計)人: | 肖樂;李家馨;葛亮;吳濤;段夢詩;岳思雯;陳嘯林;單昕 | 申請(專利權)人: | 河南工業大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/242;G06F40/117;G06F16/33;G06F16/951;G06K9/62 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 450001 河南省鄭州市高新技*** | 國省代碼: | 河南;41 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 新詞 發現 flat lattice 命名 實體 識別 方法 | ||
1.本發明提出了一種基于新詞發現和Flat-lattice的糧情命名實體識別方法,其特征在于:所述方法步驟如下:
步驟(A)建立糧情命名實體識別文本語料庫;
步驟(B)N-grams算法構建糧情字典;
步驟(C)BIOES標注方式對數據集進行標注;
步驟(D)糧情詞典輔助構建flat結構;
步驟(E)基于Flat-lattice算法的模型學習;
步驟(F)對模型訓練結果進行評價。
2.根據權利要求1所述的一種基于新詞發現和Flat-lattice的糧情命名實體識別方法,其特征在于:步驟(A),建立糧情命名實體識別文本語料庫,采用python爬蟲技術從糧食大辭典和知網上爬取糧情相關文本,并將其存為txt文件;之后,整理獲取的糧情語料庫,針對數據缺失和冗余等數據質量問題,建立屬性約束和完整性約束進行數據篩選與重復數據的冗余清除。
3.根據權利要求1所述的一種基于新詞發現和Flat-lattice的糧情命名實體識別方法,其特征在于:步驟(B),N-grams算法構建糧情字典,使用N-grams算法從糧情語料庫中獲取新詞,利用這些新詞幫助jieba算法進行分詞,根據分詞后的結果使用Word2vec構建糧情詞典。
4.根據權利要求1所述的一種基于新詞發現和Flat-lattice的糧情命名實體識別方法,其特征在于:步驟(C),BIOES標注方式對文本進行標注,根據分詞結果將其分為15種糧情標簽,采用BIOES的標注方式對文本中這15種實體類別進行標記:設某個詞對應的標簽為Label,則位于該詞語最開始的字符標記為B-Label,位于該詞語中間的字符標記為I-Label,位于該詞語末尾的字符標記為E-Label,若該詞語只有一個字符則標記為S-Label,若該詞語沒有帶標簽或者不屬于實體標簽則標記為O,最后將文本語料庫分為測試集和訓練集。
5.根據權利要求1所述的一種基于新詞發現和Flat-lattice的糧情命名實體識別方法,其特征在于:步驟(D),糧情詞典輔助構建flat結構,利用Fastnlp包將原始文本與字典拼接得到lattice結構,之后由lattice的下標映射得到其每個詞的起始位置Head和終止位置Tail,從而將lattice結構展為flat結構;然后將原始文本、標簽、兩兩匹配字符、句子長度、詞典及詞典中詞的起始、終止位置,lattice結構和flat結構等封裝在Dataset,并根據batchsize將數據分成數個Batchdata。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于河南工業大學,未經河南工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111076986.7/1.html,轉載請聲明來源鉆瓜專利網。





