[發(fā)明專利]一種從新聞頁面中自動(dòng)提取機(jī)構(gòu)實(shí)體名詞的方法在審
| 申請(qǐng)?zhí)枺?/td> | 202111140918.2 | 申請(qǐng)日: | 2021-09-29 |
| 公開(公告)號(hào): | CN114329286A | 公開(公告)日: | 2022-04-12 |
| 發(fā)明(設(shè)計(jì))人: | 夏朝;高華偉 | 申請(qǐng)(專利權(quán))人: | 中譯語通科技(成都)有限公司 |
| 主分類號(hào): | G06F16/958 | 分類號(hào): | G06F16/958;G06F16/335;G06F40/205;G06F40/295;G06N3/04;G06N3/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 610000 四川省成都市高新區(qū)天府*** | 國(guó)省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 新聞 頁面 自動(dòng) 提取 機(jī)構(gòu) 實(shí)體 名詞 方法 | ||
1.一種從新聞頁面中自動(dòng)提取機(jī)構(gòu)實(shí)體名詞的方法,其特征在于,包括以下步驟:
(1)對(duì)新聞頁面中文本內(nèi)容進(jìn)行提取解析;
(2)將提取的文本內(nèi)容進(jìn)行去重過濾處理,并對(duì)空格、標(biāo)題、符號(hào)進(jìn)行刪除,獲得待輸入文本內(nèi)容;
(3)將待輸入文本內(nèi)容輸入標(biāo)注模型中進(jìn)行序列處理,獲得文本內(nèi)容中各單詞預(yù)測(cè)標(biāo)簽;
(4)將各單詞預(yù)測(cè)標(biāo)簽與現(xiàn)有實(shí)體名詞數(shù)據(jù)庫進(jìn)行對(duì)比,確認(rèn)各單詞預(yù)測(cè)標(biāo)簽對(duì)應(yīng)的實(shí)體名詞類別;
(5)將新聞頁面與實(shí)體名詞和實(shí)體名詞對(duì)應(yīng)類別進(jìn)行對(duì)應(yīng)并入庫。
2.根據(jù)權(quán)利要求1所述的一種從新聞頁面中自動(dòng)提取機(jī)構(gòu)實(shí)體名詞的方法,其特征在于,所述步驟(1)中新聞頁面中文本內(nèi)容的解析提取具體為:采用Python3的request庫和lxml庫對(duì)新聞頁面的HTML的DOM結(jié)構(gòu)進(jìn)行文本內(nèi)容提取,再通過etree.HTML和csssector選擇器進(jìn)行解析。
3.根據(jù)權(quán)利要求2所述的一種從新聞頁面中自動(dòng)提取機(jī)構(gòu)實(shí)體名詞的方法,其特征在于,所述新聞頁面中文本內(nèi)容提取還包括對(duì)頁面常用標(biāo)簽進(jìn)行提取。
4.根據(jù)權(quán)利要求1所述的一種從新聞頁面中自動(dòng)提取機(jī)構(gòu)實(shí)體名詞的方法,其特征在于,所述將提取的文本內(nèi)容進(jìn)行去重過濾處理采用Python3的BloomFilter進(jìn)行。
5.根據(jù)權(quán)利要求1所述的一種從新聞頁面中自動(dòng)提取機(jī)構(gòu)實(shí)體名詞的方法,其特征在于,所述標(biāo)注模型采用BILSTM模型結(jié)構(gòu),其訓(xùn)練方式如下:
(1)將待訓(xùn)練數(shù)據(jù)進(jìn)行處理,解析其中文本信息和實(shí)體信息,將每個(gè)句子保存為單詞序列和標(biāo)注序列;
(2)將每個(gè)句子的單詞序列中各單詞在詞庫中進(jìn)行檢索,對(duì)未檢索到的單詞賦值為1,檢索到的單詞賦值為詞庫中對(duì)應(yīng)值加上檢索次數(shù),將每個(gè)句子轉(zhuǎn)換為數(shù)值序列;
(3)將每個(gè)句子數(shù)值序列進(jìn)行歸一化處理;
(4)將歸一化后的每個(gè)句子數(shù)值序列輸入BILSTM模型,通過循環(huán)神經(jīng)網(wǎng)絡(luò)隱藏層向前推算和向后推算輸出每個(gè)句子中各單詞的預(yù)測(cè)標(biāo)簽;
(5)將各句子的預(yù)測(cè)標(biāo)簽與標(biāo)注序列對(duì)比檢測(cè)訓(xùn)練結(jié)果;
(6)重復(fù)步驟(1)至步驟(5),在對(duì)比檢測(cè)訓(xùn)練結(jié)果滿足需求時(shí)完成標(biāo)注模型訓(xùn)練。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中譯語通科技(成都)有限公司,未經(jīng)中譯語通科技(成都)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111140918.2/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。





