[發明專利]一種從新聞頁面中自動提取機構實體名詞的方法在審
| 申請號: | 202111140918.2 | 申請日: | 2021-09-29 |
| 公開(公告)號: | CN114329286A | 公開(公告)日: | 2022-04-12 |
| 發明(設計)人: | 夏朝;高華偉 | 申請(專利權)人: | 中譯語通科技(成都)有限公司 |
| 主分類號: | G06F16/958 | 分類號: | G06F16/958;G06F16/335;G06F40/205;G06F40/295;G06N3/04;G06N3/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 610000 四川省成都市高新區天府*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 新聞 頁面 自動 提取 機構 實體 名詞 方法 | ||
本發明提供一種從新聞頁面中自動提取機構實體名詞的方法,包括:對新聞頁面中文本內容進行提取解析;進行去重過濾處理,并對空格、標題、符號進行刪除,獲得待輸入文本內容;將待輸入文本內容輸入標注模型中進行序列處理,獲得文本內容中各單詞預測標簽;將各單詞預測標簽與現有實體名詞數據庫進行對比,確認各單詞預測標簽對應的實體名詞類別;將新聞頁面與實體名詞和實體名詞對應類別進行對應并入庫。本發明能快速對新聞頁面中的實體名詞進行提取,并將新聞內容與名稱、類別進行對應標記形成結構化數據。
技術領域
本發明屬于計算機領域,具體涉及一種從新聞頁面中自動提取機構實體名詞的方法。
背景技術
隨著互聯網技術的發展,各種大量的新聞咨詢出現在日常生活中。互聯網新聞資訊的數據處理成為各個行業至關重要的任務。對新聞咨詢內容提取實體名字及其關系可以用于摘要或關鍵詞,方便對新聞資訊進行檢索和篩選。采用人工方式的數據處理方式需要借助大量的人力資源,而傳統機器學習方式在實體名詞語提取上精度和效率較為低下,而且缺乏實體名詞和新聞咨詢之間的關系。
發明內容
本發明提供一種能快速對新聞頁面中的實體名詞進行提取,并將新聞內容與名稱、類別進行對應標記形成結構化數據的從新聞頁面中自動提取機構實體名詞的方法,包括以下步驟:
(1)對新聞頁面中文本內容進行提取解析;采用Python3的request庫和lxml庫對新聞頁面的HTML的DOM結構進行文本內容提取或對頁面常用標簽進行提取,再通過etree.HTML和csssector選擇器進行解析。
(2)將提取的文本內容采用Python3的BloomFilter進行去重過濾處理,并對空格、標題、符號進行刪除,獲得待輸入文本內容;
(3)將待輸入文本內容輸入標注模型中進行序列處理,獲得文本內容中各單詞預測標簽;
(4)將各單詞預測標簽與現有實體名詞數據庫進行對比,確認各單詞預測標簽對應的實體名詞類別;
(5)將新聞頁面與實體名詞和實體名詞對應類別進行對應并入庫。
進一步的,標注模型采用BILSTM模型結構,其訓練方式如下:
(1)將待訓練數據進行處理解析其中文本信息和實體信息,將每個句子保存為單詞序列和標注序列;
(2)將每個句子的單詞序列中個單詞在詞庫中進行檢索,對未檢索到的單詞賦值為1,檢索到的單詞賦值為詞庫中對應值加上檢索到的次數,將每個句子轉換為數值序列;
(3)將每個句子數值序列進行歸一化處理;
(4)將歸一化后的每個句子數值序列輸入BILSTM模型,通過循環神經網絡隱藏層向前推算和向后推算輸出每個句子中個單詞的預測標簽;
(5)將各句子的預測標簽與標注序列對比檢測訓練結果;
(6)重復步驟(1)至步驟(5),在對比檢測訓練結果滿足需求時完成標注模型訓練。
綜上所述,由于采用了上述技術方案,本發明的有益效果是:能快速對新聞頁面中的實體名詞進行提取,并將新聞內容與名稱、類別進行對應標記形成結構化數據;將傳統的BILSTM-CRF模型訓練方式簡化為BILSTM模型訓練,去掉了CRF的約束條件,有效地提高了對大量文字數據進行實體名詞提取的效率。
附圖說明
圖1為本發明流程圖;
圖2為本發明BILSTM模型訓練流程圖;
圖3為本發明BILSTM模型內部運算原理圖。
具體實施方式
如圖1、圖2、圖3所示,一種從新聞頁面中自動提取機構實體名詞的方法:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中譯語通科技(成都)有限公司,未經中譯語通科技(成都)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111140918.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:波長轉換構件及發光裝置
- 下一篇:濺射沉積設備和方法





