[發明專利]一種基于深度學習的個人主頁信息提取方法及裝置在審
| 申請號: | 202210546058.0 | 申請日: | 2022-05-19 |
| 公開(公告)號: | CN114969601A | 公開(公告)日: | 2022-08-30 |
| 發明(設計)人: | 田悅霖;王路路;于凱;劉佳 | 申請(專利權)人: | 北京智譜華章科技有限公司 |
| 主分類號: | G06F16/958 | 分類號: | G06F16/958;G06F40/211;G06F40/289;G06N3/04;G06N3/08 |
| 代理公司: | 北京清亦華知識產權代理事務所(普通合伙) 11201 | 代理人: | 羅嵐 |
| 地址: | 100084 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 個人主頁 信息 提取 方法 裝置 | ||
本申請提出的基于深度學習的個人主頁信息提取方法、裝置及存儲介質,獲取個人主頁網址對應的網頁,并對網頁進行數據清洗得到網頁文本語料,將網頁文本語料進行分詞,并通過匹配對應的詞嵌入表得到詞向量序列,將詞向量序列輸入至目標模型中,得到對應的句向量,將句向量輸入至目標卷積神經網絡中,得到句向量對應的分類標簽,將分類標簽與句向量對應的網頁內容輸出。由此可知,本申請完整提取網頁中的內容,提高了提取效果、適用范圍較廣、降低了計算資源的消耗。
技術領域
本申請涉及信息提取領域,尤其涉及一種基于深度學習的個人主頁信息提取方法、裝置及存儲介質。
背景技術
信息技術的迅速發展導致萬維網信息量爆炸式增長,網頁資源成為了信息獲取的第一選擇。其中,全球的專家學者眾多,隨著互聯網技術的發展,學術界大部分學者都在網站中建立了自己的個人主頁并定期會對個人主頁進行維護更新,學者的個人主頁中包含學者的工作經歷、教育經歷、研究興趣、發表論文情況等信息可作為學者畫像、人才引進等任務的重要支撐,因此,需要對學者的個人主頁信息進行提取研究。但是,學者的個人主頁可能來源于不同站點,嘈雜的頁面內容、半結構化的數據格式和五花八門的頁面布局都使頁面信息提取成為一個巨大的挑戰。
相關技術中,基于模板的方法/基于統計信息的方法/基于視覺分塊的方法對網頁的信息進行提取。但是,相關技術中基于模板的方法主要用來解決特定網站的信息抽取問題,同時需要大量的人工分析且不同站點需要不同的模板,通用性較差;相關技術中基于統計的方法是針對抽取網頁正文信息進行研究,對于網頁中更為具體的工作經歷、教育經歷、研究興趣等細粒度信息的抽取不能提供直接幫助;相關技術中基于視覺分塊的方法需要先進行頁面渲染,個人主頁變動較快,利用視覺分塊的方法實時抽取會消耗大量計算資源。
發明內容
本申請提供一種基于深度學習的個人主頁信息提取方法、系統及存儲介質,以解決上述方法中通用性較差、提取內容不完整、計算資源消耗大的技術問題。
本申請第一方面實施例提出一種基于深度學習的個人主頁信息提取方法,所述方法包括:
獲取個人主頁網址對應的網頁,并對所述網頁進行數據清洗得到網頁文本語料;
將所述網頁文本語料進行分詞,并通過匹配對應的詞嵌入表得到詞向量序列;
將所述詞向量序列輸入至目標模型中,得到對應的句向量;
將所述句向量輸入至目標卷積神經網絡中,得到所述句向量對應的分類標簽,將所述分類標簽與所述句向量對應的網頁內容輸出。
可選的,所述對所述網頁進行數據清洗得到網頁文本語料,包括:
獲取所述網頁對應的超文本標記語言HTML文檔;
根據所述HTML文檔中具有換行功能的標簽所處的位置,對HTML文檔進行換行處理;
解析所述HTML文檔,并對所述HTML文檔進行去空行處理,得到網頁文本語料。
可選的,所述將所述網頁文本語料進行分詞,并通過匹配對應的詞嵌入表得到詞向量序列,包括:
將所述網頁文本語料切分為多個子句子序列,在每個子句子序列頭部插入token([CLS])得到對應的每個句子序列;
所述每個句子序列通過匹配詞嵌入表得到每個句子序列對應的詞嵌入序列;
將所述每個詞嵌入序列填充為等長序列,得到對應的詞向量序列。
可選的,所述將所述詞向量序列輸入至目標模型中,得到對應的句向量,包括:將所述詞向量序列輸入至目標BERT中,得到對應的句向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京智譜華章科技有限公司,未經北京智譜華章科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210546058.0/2.html,轉載請聲明來源鉆瓜專利網。





