[發明專利]改進遷移學習模型進行工業互聯網發現并提取信息的裝置在審
| 申請號: | 202011256306.5 | 申請日: | 2020-11-12 |
| 公開(公告)號: | CN112256840A | 公開(公告)日: | 2021-01-22 |
| 發明(設計)人: | 林飛;汪致倫;王丹;易永波;古元 | 申請(專利權)人: | 北京亞鴻世紀科技發展有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F16/36;G06F16/951;G06F16/958;G06F40/211;G06F40/289;G06F40/30;G06N20/00 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100095 北京市海淀區高里*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 改進 遷移 學習 模型 進行 工業 互聯網 發現 提取 信息 裝置 | ||
改進遷移學習模型進行工業互聯網發現并提取信息的裝置涉及信息技術領域。本發明由網絡爬蟲、文本清洗模塊、內容分類執行模塊、改進的遷移學習模型和實體識別模塊組成;本發明不需要海量帶有標簽的文本進行訓練,節省了大量的人力成本;其次不受分詞的影響,可以得到更多、更相關的文本特征用于網站分類及工業互聯網平臺網站的關鍵業務信息提取。
技術領域
本發明涉及信息技術領域,特別是信息安全技術領域。
背景技術
隨著制造業從數字化階段向網絡化階段加速邁進,我國工業互聯網平臺迅速興起,平臺信息的及時發現與管理成為當前急需解決的一個問題。互聯網中網站類別眾多,如何從海量的網站中自動找到工業互聯網平臺網站是目前面臨的第一個問題,如何從平臺網站內容中提取關鍵的平臺信息是第二個問題。
當前,工業互聯網平臺信息主要由人工收集,十分浪費人力和時間成本,因此一種自動發現、提取平臺信息的方法極為迫切。
近年來,人工智能技術的迅猛發展在自然語言處理領域有了不小進展,其中文本分類用于將不同特征的文本,命名實體識別技術主要用于信息抽取、文本數據結構化。
目前的網站分類方法主要是基于傳統機器學習算法和基于深度學習的方式,傳統機器學習算法,如發明專利CN106168968A,通過計算匹配到詞典的數據的權重來確定網站類別。由于構建詞典難度大,且網站類別眾多,傳統算法很難根據詞典將網站進行準確分類。基于深度學習的方法,如發明專利CN110442823A,需要大量的訓練樣本來訓練神經網絡的參數,搜集大量樣本的過程較長,耗費大量的人力資源。
現有技術中命名實體識別方法主要是基于傳統機器學習的實體識別方法以及基于深度學習的實體識別方法。基于傳統機器學習的實體識別方法,如發明專利CN111274804A,通過統計學對標注的數據進行模型學習,將待預測的數據送至模型預測,模型利用維特比算法計算最大可能性的實體,該方法最大缺點是無法理解語義,無法勝任復雜實體識別的任務。基于深度學習的命名實體識別方法,如發明專利CN111126068A,構建神經網絡模型學習語義特征,并且能學習到較為復雜的語義,但需要大量的標注數據進行學習,數據標注工作極為費時費力。
基于現有技術的復雜度高實現成本高,耗費人工量大的特點,本發明的改進遷移學習模型進行工業互聯網發現并提取信息的裝置,對遷移學習模型進行了改進,通過共享遷移學習模型的分層計算參數使得遷移學習模型提高了計算效率,可以針對已分類工業互聯網樣本數據進行快速分類建模得到工業互聯網分類模型,再通過網絡信息抓取和數據清洗得到實時數據,將實時數據輸入工業互聯網分類模型進行分類,得到實時數據的工業互聯網分類,再對實時數據進行關鍵信息抓取得到更新的工業互聯網的樣本數據,并將更新的工業互聯網的樣本數據更新到已分類工業互聯網樣本數據中,本發明可以全程自動完成工業互聯網的分類和信息抓取,并且可以逐漸修正和豐富已分類工業互聯網樣本數據,從而達到工業互聯網分類模型的不斷進化和改進。本發明具有高效性和實時性的特點。
用到的共有技術說明
遷移學習模型:本專利申請用到的遷移學習模型指StructBERT,StructBERT是阿里巴巴達摩院提出的NLP預訓練模型,在傳統BERT的基礎上作出了相關改進。作者認為Bert的預訓練任務忽略了語言結構language structure信息,因此StructBert在Bert原有的MaskLM的訓練目標上,增加了兩個基于語言結構的訓練目標:詞序和句序任務。
命名實體識別:命名實體識別是指在文本中識別出特殊對象,這些對象的語義類別通常在識別前被預定義好,預定義類別如人、地址、組織等。命名實體識別不僅僅是獨立的信息抽取任務,它在許多大型NLP應用系統如信息檢索、自動文本摘要、問答系統、機器翻譯以及知識建庫中也扮演了關鍵的角色。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京亞鴻世紀科技發展有限公司,未經北京亞鴻世紀科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011256306.5/2.html,轉載請聲明來源鉆瓜專利網。





