[發(fā)明專利]一種結(jié)合頁面解析規(guī)則和NLP文本向量化的摘要提取方法有效
| 申請?zhí)枺?/td> | 201811604934.0 | 申請日: | 2018-12-26 |
| 公開(公告)號: | CN109684642B | 公開(公告)日: | 2023-01-13 |
| 發(fā)明(設(shè)計(jì))人: | 陳瑋;劉德彬;孫世通;嚴(yán)開;吳濤 | 申請(專利權(quán))人: | 重慶電信系統(tǒng)集成有限公司;重慶譽(yù)存大數(shù)據(jù)科技有限公司 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F16/34 |
| 代理公司: | 重慶志合專利事務(wù)所(普通合伙) 50210 | 代理人: | 胡榮琿 |
| 地址: | 400042 *** | 國省代碼: | 重慶;50 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 結(jié)合 頁面 解析 規(guī)則 nlp 文本 量化 摘要 提取 方法 | ||
1.一種結(jié)合頁面解析規(guī)則和NLP文本向量化的摘要提取方法,其特征在于,包括以下步驟:
S1:運(yùn)用Readability包對網(wǎng)頁類的文本數(shù)據(jù)的“body”標(biāo)簽內(nèi)html格式的正文數(shù)據(jù)進(jìn)行抽取,得到頁面正文的文本語料;
S2:獲取所述文本語料的文本長度,排除不合格的文本語料,合格的文本語料進(jìn)入S3;
S3:判斷所述文本語料的句子數(shù)量是否大于閾值;若不大于閾值,進(jìn)入步驟S7,若大于閾值,進(jìn)入步驟S4;
S4:判斷能否獲取段落小標(biāo)題語段,如果能,獲取段落小標(biāo)題語段后進(jìn)入S6;如果不能,進(jìn)入S5;
S5:定義正則匹配關(guān)鍵詞,剔除匹配到正則匹配關(guān)鍵詞的文本得到過濾后的文本語料;對所述過濾后的文本語料取一定長度的首尾段語段進(jìn)入S6;
S6:對語段進(jìn)行合規(guī)性判定,若語段的合規(guī)性符合要求,則認(rèn)定所述語段為文本摘要句子;若語段的合規(guī)性不符合要求,則返回至步驟S4;
S7:訓(xùn)練Word2Vec模型,將所述文本語料拆分成句子,再將句子拆分成詞做向量化操作并用EMD求句子相似度,再運(yùn)用TextRank算法基于句子相似度給予權(quán)重并認(rèn)定權(quán)重最高的句子為文本摘要句子。
2.根據(jù)權(quán)利要求1所述的一種結(jié)合頁面解析規(guī)則和NLP文本向量化的摘要提取方法,其特征在于,運(yùn)用python的內(nèi)置函數(shù)的方式來獲取步驟S2所述的文本語料的文本長度,在經(jīng)過對文本語料的句子做過濾后,排除句子數(shù)量小于2或在ascii編碼條件下句子長度不大于45或包含正則匹配關(guān)鍵詞的文本語料。
3.根據(jù)權(quán)利要求1所述的一種結(jié)合頁面解析規(guī)則和NLP文本向量化的摘要提取方法,其特征在于,步驟S4的具體步驟為在HTML格式的文本中抽取h2、h3、h4、h5、strong標(biāo)簽,若抽取結(jié)果為空則代表沒有獲取到小標(biāo)題語段,若不為空,則將h2、h3、h4、h5、strong標(biāo)簽作為小標(biāo)題語段并進(jìn)入步驟S6。
4.根據(jù)權(quán)利要求1所述的一種結(jié)合頁面解析規(guī)則和NLP文本向量化的摘要提取方法,其特征在于,步驟S7的具體步驟為將文本劃分為句子,采用CBOW與skip-gram模型和負(fù)采樣與層次softmax方法的組合將句子拆分成詞做向量化,將基于詞向量的句子用EMD求句子的相似度,再運(yùn)用TextRank算法基于句子相似度給予權(quán)重并認(rèn)定權(quán)重最高的句子為文本摘要句子。
5.根據(jù)權(quán)利要求1所述的一種結(jié)合頁面解析規(guī)則和NLP文本向量化的摘要提取方法,其特征在于,步驟S6的合規(guī)性判定為:對于能獲取小標(biāo)題的語段,選取語段段落大于5且不包含正則匹配關(guān)鍵詞且?guī)в衕2、h3、h4、h5、strong標(biāo)簽的段落位置不相鄰的文本語段;對于不能獲取小標(biāo)題的語段,選取在unicode編碼下長度大于5且不包含正則匹配關(guān)鍵詞的文本語料。
6.根據(jù)權(quán)利要求1所述的一種結(jié)合頁面解析規(guī)則和NLP文本向量化的摘要提取方法,其特征在于,步驟S3的閾值為28。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于重慶電信系統(tǒng)集成有限公司;重慶譽(yù)存大數(shù)據(jù)科技有限公司,未經(jīng)重慶電信系統(tǒng)集成有限公司;重慶譽(yù)存大數(shù)據(jù)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811604934.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 規(guī)則發(fā)現(xiàn)程序、規(guī)則發(fā)現(xiàn)處理和規(guī)則發(fā)現(xiàn)裝置
- 不規(guī)則瓶蓋
- 相關(guān)規(guī)則分析裝置以及相關(guān)規(guī)則分析方法
- 分析規(guī)則調(diào)整裝置、分析規(guī)則調(diào)整系統(tǒng)以及分析規(guī)則調(diào)整方法
- 規(guī)則抽取方法和規(guī)則抽取設(shè)備
- 終端規(guī)則引擎裝置、終端規(guī)則運(yùn)行方法
- 布(規(guī)則)
- 規(guī)則呈現(xiàn)方法、存儲介質(zhì)和規(guī)則呈現(xiàn)裝置
- 可編寫規(guī)則配置模塊、規(guī)則生成系統(tǒng)、及規(guī)則管理平臺
- 不規(guī)則圍棋





