[發(fā)明專利]一種基于擴充語料庫神經(jīng)網(wǎng)絡(luò)的政策文件信息提取方法有效
| 申請?zhí)枺?/td> | 202011033636.8 | 申請日: | 2020-09-27 |
| 公開(公告)號: | CN112257442B | 公開(公告)日: | 2023-01-24 |
| 發(fā)明(設(shè)計)人: | 李軍鋒;廖敏;張磊;馮梅;向彥任;李濟;萬勤;陳喬松;曹宏劍;胡高浩 | 申請(專利權(quán))人: | 重慶生產(chǎn)力促進中心;重慶郵電大學(xué) |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F18/214;G06N3/045;G06N3/0442;G06N3/08 |
| 代理公司: | 重慶西南華渝專利代理有限公司 50270 | 代理人: | 郭桂林 |
| 地址: | 401120*** | 國省代碼: | 重慶;50 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 擴充 語料庫 神經(jīng)網(wǎng)絡(luò) 政策 文件 信息 提取 方法 | ||
本發(fā)明提供了一種基于擴充語料庫神經(jīng)網(wǎng)絡(luò)的政策文件信息提取方法,包括:構(gòu)建政策文件語料庫;基于構(gòu)建的政策文件語料庫進行模型訓(xùn)練以生成政策文件信息提取模型;利用政策文件信息提取模型對目標(biāo)政策文件進行提取。本發(fā)明的方法能夠在政策文件含有大量特定的表達方式、用詞措辭和專業(yè)性詞匯等情況下,有效的識別實體,更精準(zhǔn)的提取文件信息。
技術(shù)領(lǐng)域
本發(fā)明屬于自然語言處理技術(shù)領(lǐng)域,更具體地講,涉及一種基于擴充語料庫神經(jīng)網(wǎng)絡(luò)的政策文件信息提取方法。
背景技術(shù)
政策文件是指國家黨政機關(guān)等部門或組織,以正式標(biāo)準(zhǔn)化的語言文字,對在一定時期內(nèi)需要達到的目標(biāo)、完成的任務(wù)、遵循的原則、采取的步驟以及實施的方式等進行規(guī)定的文字材料,例如通知、規(guī)劃、實施方案等。黨政機關(guān)的相關(guān)職能部門需要對收到的政策文件進行研究解讀,對文件核心內(nèi)容進行通知轉(zhuǎn)發(fā),或進一步提出符合本地實際情況的實施細則并督促落實。
目前,利用自然語言處理技術(shù)提取文件信息得到了廣泛的應(yīng)用,讓計算機代替人力去完成文件信息提取、文件分類、信息存檔及轉(zhuǎn)發(fā)等重復(fù)且繁瑣的工作,大幅提升了工作效率。政策文件屬于文件中的一種,同樣可以利用自然語言處理技術(shù)對政策文件信息進行提取。
在當(dāng)前的現(xiàn)有技術(shù)中,對政策文件信息提取主要包括以下兩個方面的不足。一方面,現(xiàn)有語料庫包含的政策文件語料不專業(yè),含有大量與政策文件相關(guān)性較低的語料;另一方面,使用現(xiàn)有開源語料庫訓(xùn)練出來的模型,對政策文件進行信息提取的時候效果并不理想,主要的問題表現(xiàn)在無法正確劃分實體。例如,在對同一機構(gòu)或部門不同的名稱(全稱、簡稱、一個機構(gòu)多塊牌子等)無法識別為統(tǒng)一實體;名稱特殊或名稱較長的專項計劃被識別為兩個或多個實體并出現(xiàn)歧義;部分部門領(lǐng)導(dǎo)同志的姓名識別有誤并出現(xiàn)歧義等等。這些歧義或錯誤信息會對下一步的文件分類、轉(zhuǎn)發(fā)等工作造成困難。具體來說,例如,中華人民共和國工業(yè)和信息化部是該部門的全稱,但是政策文件中的其他稱謂,如工業(yè)和信息化部、工信部、國家航天局、國家原子能機構(gòu)等名稱都指該部門。在現(xiàn)有的信息提取技術(shù)中,當(dāng)文件中出現(xiàn)全稱、簡稱共用,或在不同文件中對涉及到該部門的不同職責(zé)領(lǐng)域時使用別名時,會將他們識別為不同實體,降低了文件信息提取和分類的準(zhǔn)確性,加大了文件轉(zhuǎn)發(fā)的工作量,降低了工作效率。
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)中存在的不足,本發(fā)明的目的之一在于解決上述現(xiàn)有技術(shù)中存在的一個或多個問題。例如,本發(fā)明的目的之一在于提供一種關(guān)鍵字抽取效率以及準(zhǔn)確率均較高的基于擴充語料庫神經(jīng)網(wǎng)絡(luò)的政策文件信息提取方法。
本發(fā)明提供了一種基于擴充語料庫神經(jīng)網(wǎng)絡(luò)的政策文件信息提取方法,包括以下步驟:構(gòu)建政策文件語料庫;基于構(gòu)建的政策文件語料庫進行模型訓(xùn)練以生成政策文件信息提取模型;利用政策文件信息提取模型對目標(biāo)政策文件進行提取,其中,構(gòu)建政策文件語料庫包括:對現(xiàn)有開源語料庫進行篩選,保留與政策文件相關(guān)性大于80%的語料,并將現(xiàn)有開源語料庫中的其它語料刪除;收集現(xiàn)有政策文件,整理分類后得到政策文件常用詞語語料集、政府各部門領(lǐng)導(dǎo)名單語料集以及政策文件目錄語料集,并對現(xiàn)有政策文件中出現(xiàn)的一機構(gòu)對應(yīng)多名稱的語料進行標(biāo)注;對政策文件常用詞語語料集、政府各部門領(lǐng)導(dǎo)名單語料集以及政策文件目錄語料集定期更新并加入篩選后的現(xiàn)有開源語料庫中,得到初始政策文件語料庫;對包含政策文件的網(wǎng)頁進行爬取,人工閱讀后提取政策文件信息并將其加入初始政策文件語料庫,得到擴充后政策文件語料庫;對擴充后政策文件語料庫進行標(biāo)注,完成政策文件語料庫的構(gòu)建。
與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果至少包含以下中的至少一項:
(1)本發(fā)明的提取方法能夠在政策文件含有大量特定的表達方式、用詞措辭、專業(yè)性詞匯、復(fù)雜實體名等情況下,有效的識別實體,更精準(zhǔn)的提取文件框架及文件信息,能夠?qū)⑷藦慕庾x文件內(nèi)容的工作中解脫出來,從而把人力更多地投入到對文件內(nèi)容的研究和落實等工作中去;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于重慶生產(chǎn)力促進中心;重慶郵電大學(xué),未經(jīng)重慶生產(chǎn)力促進中心;重慶郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011033636.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 硬件神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法、計算裝置、軟硬件協(xié)作系統(tǒng)
- 生成較大神經(jīng)網(wǎng)絡(luò)
- 神經(jīng)網(wǎng)絡(luò)的生成方法、生成裝置和電子設(shè)備
- 一種舌診方法、裝置、計算設(shè)備及計算機存儲介質(zhì)
- 學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
- 脈沖神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法及相關(guān)轉(zhuǎn)換芯片
- 圖像處理方法、裝置、可讀存儲介質(zhì)和計算機設(shè)備
- 一種適應(yīng)目標(biāo)數(shù)據(jù)集的網(wǎng)絡(luò)模型微調(diào)方法、系統(tǒng)、終端和存儲介質(zhì)
- 用于重構(gòu)人工神經(jīng)網(wǎng)絡(luò)的處理器及其操作方法、電氣設(shè)備
- 一種圖像神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化方法及裝置





