[發明專利]一種面向地質智能問答的數據自動化序列標注識別方法有效
| 申請號: | 202010804098.1 | 申請日: | 2020-08-11 |
| 公開(公告)號: | CN111930909B | 公開(公告)日: | 2023-09-12 |
| 發明(設計)人: | 賀金龍;付立軍;黃徐勝;唐珂珂;朱月琴;劉曉娟 | 申請(專利權)人: | 付立軍 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/36;G06F16/335;G06F16/35;G06F40/117;G06F40/169;G06F40/30 |
| 代理公司: | 成都正煜知識產權代理事務所(普通合伙) 51312 | 代理人: | 李龍 |
| 地址: | 100190 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 地質 智能 問答 數據 自動化 序列 標注 識別 方法 | ||
1.一種面向地質智能問答的數據自動化序列標注識別方法,其特征在于:包括以下步驟:
步驟1:對金礦文獻圖譜數據進行整理,得到領域實體分類描述標簽,作為領域知識實體識別的標注標簽;
步驟2:對文獻數據內容進行機器自動清洗,包括過濾英文字母、標點符號及無意義符號,得到有效中文文本內容;
步驟3:對清洗后的文本內容以單獨的txt文件存放,得到批量文獻數據的存放根路徑;
步驟4:針對步驟3中得到的文獻數據使用BIOES標簽進行字符數據的機器自動化標注,這里結合整理的圖譜實體分類描述數據進行標簽組合,得到由B、I、O、E、S開頭的金礦數據標注結果;
步驟5:采用深度學習中雙向LSTM的模型與條件隨機場CRF結合方式對步驟4金礦數據標注結果字符序列數據進行輸入訓練,通過調整LSTM模型中記憶細胞的結構及整體參數,加入整理的金礦圖譜實體數據,得到金礦文獻數據的訓練結果;
步驟6:將文獻數據的訓練結果應用于平臺用戶詢問語句識別,得到用戶詢問語句的標注結果;
步驟7:將用戶詢問語句的內容減去模型對于用戶語句中金礦數據的識別內容,得到的剩余語句輸入到卷積神經網絡進行屬性分類,得到用戶詢問語句的分類;
步驟8:將金礦數據識別結果與用戶詢問語句的分類通過Map集合進行組合封裝,得到用戶詢問語句中金礦數據的標注與詢問語句語義屬性的結果;
步驟9:將步驟8中的金礦數據的標注與詢問語句語義屬性的結果映射到金礦知識圖譜,得到用戶詢問知識結果,進而實現智能問答;
用戶詢問語句識別包括以下步驟:
將用戶詢問語句通過http接口輸入到平臺中,首先得到用戶語句的字索引;
將用戶語句字索引通過步驟5的LSTM與CRF的組合模型訓練結果進行進一步調用輸出,得到由字符組合的詞,即用戶詢問語句的標注結果;
用戶語句分類,將輸入到序列識別模型的其他未識別部分輸入到卷積神經網絡對其進行屬性分類,這里通過標注數據的機器訓練自動實現,得到用戶詢問語句分類。
2.根據權利要求1所述的一種面向地質智能問答的數據自動化序列標注識別方法,其特征在于,對金礦文獻圖譜數據進行整理包括:
針對金礦文獻數據通過地質百科大辭典、搜狗語料的人工整理搜集,并通過金礦領域知識構建分類描述標簽,分類描述標簽包括地質實體GENT、地質作用GEFF、地質化學GEHE、地質方法GMET。
3.根據權利要求1所述的一種面向地質智能問答的數據自動化序列標注識別方法,其特征在于,步驟4中標簽組合包括步驟:
首先對BIOES標簽進行字符劃分,得到單字符字母B、I、O、E、S;
將單字符字母與步驟3中的txt文件內容進行自動化標注,得到由B、I、O、E、S開頭的金礦數據標注結果。
4.根據權利要求3所述的一種面向地質智能問答的數據自動化序列標注識別方法,其特征在于,進行自動化標注在金礦數據標注的基礎上,首先使用金礦數據基于Word2vec訓練字符向量,然后使用深度學習中的雙向神經網絡LSTM與條件隨機場CRF結合方式對金礦數據標注結果進行訓練學習,通過調整模型參數得到金礦數據的訓練結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于付立軍,未經付立軍許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010804098.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種帶有身份識別功能的手機存儲柜
- 下一篇:一種移動終端自動充電裝置





