[發(fā)明專利]一種大規(guī)模并行政策數(shù)據(jù)知識抽取方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 202011354524.2 | 申請日: | 2020-11-27 |
| 公開(公告)號: | CN112395860A | 公開(公告)日: | 2021-02-23 |
| 發(fā)明(設(shè)計)人: | 李釗;盧鳳;陳通;王瑞霜;胡傳會;魏靜 | 申請(專利權(quán))人: | 山東省計算中心(國家超級計算濟(jì)南中心);山東億云信息技術(shù)有限公司 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F40/284;G06F16/36;G06N5/02 |
| 代理公司: | 濟(jì)南誠智商標(biāo)專利事務(wù)所有限公司 37105 | 代理人: | 朱曉熹 |
| 地址: | 250015 山*** | 國省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 大規(guī)模 并行 政策 數(shù)據(jù) 知識 抽取 方法 系統(tǒng) | ||
本發(fā)明提供了一種大規(guī)模并行政策數(shù)據(jù)知識抽取方法及系統(tǒng),本發(fā)明通過對政策數(shù)據(jù)進(jìn)行正文內(nèi)容解析,獲得政策正文數(shù)據(jù)列表,分別進(jìn)行政策發(fā)文機(jī)構(gòu)、發(fā)布日期知識抽取、政策申報截止日期知識抽取以及政策事件知識抽取,從而實(shí)現(xiàn)政策數(shù)據(jù)的知識抽取。本發(fā)明實(shí)現(xiàn)依存句法分析模型預(yù)加載,達(dá)到模型加載一次,多次使用的效果,提高知識抽取的效率,無需使用人工對知識進(jìn)行抽取,節(jié)省人力成本,提高效率,適用于信息量巨大的網(wǎng)絡(luò)信息獲取。
技術(shù)領(lǐng)域
本發(fā)明涉及知識抽取領(lǐng)域,特別是一種大規(guī)模并行政策數(shù)據(jù)知識抽取方法及系統(tǒng)。
背景技術(shù)
隨著互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,網(wǎng)絡(luò)上信息資源的不斷增加,人們對信息獲取的準(zhǔn)確度也有著更高的要求。在信息量巨大的網(wǎng)絡(luò)中,檢索到符合用戶預(yù)期的結(jié)果信息是亟待解決的問題,為了讓用戶更精準(zhǔn)更快速的獲取到自己想要的政策信息,這就需要構(gòu)建政策知識圖譜,基于政策知識圖譜建立自動問答系統(tǒng)。而構(gòu)建政策知識圖譜,需要先有知識,而現(xiàn)有技術(shù)中缺少快速準(zhǔn)確的知識獲取方法。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種大規(guī)模并行政策數(shù)據(jù)知識抽取方法及系統(tǒng),旨在解決現(xiàn)有技術(shù)中缺少從網(wǎng)絡(luò)中快速獲取政策知識信息的問題,實(shí)現(xiàn)提高知識抽取的效率及準(zhǔn)確度。
為達(dá)到上述技術(shù)目的,本發(fā)明提供了一種大規(guī)模并行政策數(shù)據(jù)知識抽取方法,所述方法包括以下操作:
采集政策信息數(shù)據(jù),對政策信息數(shù)據(jù)進(jìn)行正文內(nèi)容解析,生成政策正文數(shù)據(jù)列表;
對政策正文數(shù)據(jù)列表進(jìn)行倒序遍歷,根據(jù)當(dāng)前列表元素與下一列表元素的內(nèi)容,判斷是否為發(fā)布日期,進(jìn)行發(fā)布日期知識抽取;
對發(fā)布日期后的列表元素,根據(jù)列表元素是否含有發(fā)文機(jī)構(gòu)關(guān)鍵詞作為結(jié)尾,進(jìn)行發(fā)文機(jī)構(gòu)知識抽取;
根據(jù)截止日期規(guī)則對政策正文數(shù)據(jù)列表進(jìn)行截止日期知識抽取;
對政策標(biāo)題通過依存句法分析模型進(jìn)行分析,根據(jù)得到的依存句法分析結(jié)果進(jìn)行政策事件知識抽取。
優(yōu)選地,所述當(dāng)前列表元素為日期且下一列表元素含有發(fā)文機(jī)構(gòu)關(guān)鍵詞作為結(jié)尾,則當(dāng)前列表元素為發(fā)布日期。
優(yōu)選地,所述根據(jù)得到的依存句法分析結(jié)果進(jìn)行政策事件知識抽取具體為:
根據(jù)得到的依存句法分析結(jié)果,獲取標(biāo)題中的謂詞及其索引,判斷謂詞索引的位置,如果謂詞索引位置大于等于句子長度的1/4,則對標(biāo)題句子進(jìn)行處理,否則不處理;對獲取的標(biāo)題句子進(jìn)行分析,獲取謂詞、主語、謂詞修飾語以及賓語,并根據(jù)分析結(jié)果抽取事件:
如果賓語的長度大于4,則事件為賓語;否則如果謂詞修飾語與賓語拼接后的長度大于4,則事件為謂詞修飾語與賓語拼接后的結(jié)果;否則如果主語的長度大于4,則事件為主語;如果均不符合,則將事件賦值為標(biāo)題句子。
優(yōu)選地,所述依存句法分析模型為預(yù)加載。
本發(fā)明還提供了一種大規(guī)模并行政策數(shù)據(jù)知識抽取系統(tǒng),所述系統(tǒng)包括:
政策信息采集模塊,用于采集政策信息數(shù)據(jù),對政策信息數(shù)據(jù)進(jìn)行正文內(nèi)容解析,生成政策正文數(shù)據(jù)列表;
發(fā)布日期抽取模塊,用于對政策正文數(shù)據(jù)列表進(jìn)行倒序遍歷,根據(jù)當(dāng)前列表元素與下一列表元素的內(nèi)容,判斷是否為發(fā)布日期,進(jìn)行發(fā)布日期知識抽取;
發(fā)文機(jī)構(gòu)抽取模塊,用于對發(fā)布日期后的列表元素,根據(jù)列表元素是否含有發(fā)文機(jī)構(gòu)關(guān)鍵詞作為結(jié)尾,進(jìn)行發(fā)文機(jī)構(gòu)知識抽取;
截止日期抽取模塊,用于根據(jù)截止日期規(guī)則對政策正文數(shù)據(jù)列表進(jìn)行截止日期知識抽取;
政策事件抽取模塊,用于對政策標(biāo)題通過依存句法分析模型進(jìn)行分析,根據(jù)得到的依存句法分析結(jié)果進(jìn)行政策事件知識抽取。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于山東省計算中心(國家超級計算濟(jì)南中心);山東億云信息技術(shù)有限公司,未經(jīng)山東省計算中心(國家超級計算濟(jì)南中心);山東億云信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011354524.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





