[發(fā)明專利]一種基于遠(yuǎn)程關(guān)系抽取的信息獲取方法和系統(tǒng)有效
| 申請?zhí)枺?/td> | 201910566562.5 | 申請日: | 2019-06-27 |
| 公開(公告)號: | CN110377690B | 公開(公告)日: | 2021-03-16 |
| 發(fā)明(設(shè)計)人: | 陳雨婷;劉旭紅;劉秀磊 | 申請(專利權(quán))人: | 北京信息科技大學(xué) |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F16/36;G06F16/958;G06F40/211;G06F40/216;G06F40/295;G06F40/30 |
| 代理公司: | 北京庚致知識產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 11807 | 代理人: | 李曉輝 |
| 地址: | 100101 北京市朝*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 遠(yuǎn)程 關(guān)系 抽取 信息 獲取 方法 系統(tǒng) | ||
本申請?zhí)峁┮环N基于遠(yuǎn)程關(guān)系抽取的信息獲取系統(tǒng),該信息獲取系統(tǒng)包括信息檢索模塊、情報獲取模塊和情報分析模塊。本發(fā)明構(gòu)建了面向web的行業(yè)領(lǐng)域信息獲取框架,提出了借助知識融合、領(lǐng)域規(guī)則等方法,降低知識庫“遠(yuǎn)程監(jiān)督”標(biāo)注數(shù)據(jù)時出現(xiàn)的“噪聲”干擾問題;并借助因子圖模型良好的性能,實現(xiàn)了情報感知過程中的實體關(guān)系自動抽取任務(wù)。上述框架和方法可有效應(yīng)用于情報感知、數(shù)據(jù)分析和獲取工作中,并具有領(lǐng)域移植性。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)信息獲取技術(shù)領(lǐng)域,尤其涉及一種基于遠(yuǎn)程關(guān)系抽取的信息獲取方法和系統(tǒng)。
背景技術(shù)
情報感知在早期需要依靠人工處理來獲取信息,進(jìn)而洞察感知情報,做出決策。隨著信息化技術(shù)的發(fā)展,情報獲取出現(xiàn)了基于網(wǎng)頁搜索的方法,該方法主要依靠web搜索引擎及改進(jìn)技術(shù)搜索相關(guān)網(wǎng)頁,但是由于搜集到的網(wǎng)頁信息量過于龐雜,使得情報處理和分析的難度加大,情報感知的及時性不足。為此,基于web文本挖掘和信息抽取的情報獲取方法成為新的研究熱點。該類方法對搜集到的網(wǎng)頁進(jìn)行文本關(guān)鍵詞提取、文本去重等處理,再利用文本挖掘、信息抽取等技術(shù)獲取所需的情報內(nèi)容。通過與相關(guān)領(lǐng)域?qū)W科的知識和技術(shù)相結(jié)合,不僅有助于提高感知情報的精準(zhǔn)性和時效性,為企業(yè)的決策和發(fā)展提供更高的價值;還能夠?qū)⑶閳蟾兄蝿?wù)推向自動化、智能化。
基于web文本挖掘和信息抽取的方法已逐漸融入競爭情報系統(tǒng)中,但在面向行業(yè)應(yīng)用時,多數(shù)系統(tǒng)還局限于網(wǎng)頁搜索或僅結(jié)合有限的自然語言處理技術(shù),原因及挑戰(zhàn)如下:
1)數(shù)據(jù)量龐大,情報獲取能力不足;2)信息獲取過程產(chǎn)生大量噪聲數(shù)據(jù),影響情報質(zhì)量;3)半自動化/自動化情報分析處理技術(shù)缺乏。這些問題因素導(dǎo)致目前情報感知的實際效果還無法滿足行業(yè)領(lǐng)域的需求。
在情報感知的前期信息處理過程中,將海量非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)是一項重要的情報處理與生產(chǎn)任務(wù),而實體關(guān)系抽取是該任務(wù)的重要步驟之一。傳統(tǒng)的實體關(guān)系抽取方法可分為監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。其中,監(jiān)督學(xué)習(xí)方法的研究成果最為顯著。近些年,基于神經(jīng)網(wǎng)絡(luò)的監(jiān)督學(xué)習(xí)實體關(guān)系抽取研究受到了廣泛關(guān)注,現(xiàn)已成功應(yīng)用在生物醫(yī)學(xué)、煤礦安全生產(chǎn)等領(lǐng)域中,取得良好的抽取效果。但該類方法需要借助大量標(biāo)注語料,而在web數(shù)據(jù)日益增長的環(huán)境下,該類方法的發(fā)展受到了制約。半監(jiān)督學(xué)習(xí)方法在迭代過程中易產(chǎn)生“語義漂流”問題,而無監(jiān)督學(xué)習(xí)方法在映射過程中易出現(xiàn)實例聚合錯誤等連帶問題,使得目前這三類實體關(guān)系抽取方法都遇到了一定困難。
網(wǎng)站資源中蘊含著豐富的情報信息,傳統(tǒng)的情報獲取方法直接以網(wǎng)頁檢索的結(jié)果為研究對象,使得在如今的大數(shù)據(jù)環(huán)境下,情報感知工作的難度不斷增大。因此,如何進(jìn)行準(zhǔn)確的信息獲取已成了急需解決的技術(shù)問題。
發(fā)明內(nèi)容
為解決上述問題,本發(fā)明提供一種基于遠(yuǎn)程關(guān)系抽取的信息獲取方法和系統(tǒng),該方法面向Web的領(lǐng)域情報獲取框架設(shè)計了,并提出基于因子圖模型的遠(yuǎn)程監(jiān)督實體關(guān)系抽取方法用于抽取有價值的信息,以用于數(shù)據(jù)分析工作。
本申請是通過如下技術(shù)方案實現(xiàn)的:
一種基于遠(yuǎn)程關(guān)系抽取的信息獲取系統(tǒng),該信息獲取系統(tǒng)包括信息檢索模塊、情報獲取模塊和情報分析模塊:
信息檢索模塊根據(jù)情報獲取需求搜集網(wǎng)絡(luò)文本信息,得到大量不同領(lǐng)域的網(wǎng)頁數(shù)據(jù)內(nèi)容,獲得信息檢索結(jié)果;
情報獲取模塊基于所述信息檢索結(jié)果,通過web文本挖掘?qū)崿F(xiàn)信息抽取,獲取初級情報;
情報分析模塊通過對所述初級情報進(jìn)行統(tǒng)計、分析與可視化處理,獲得最終情報。
進(jìn)一步的,所述通過web文本挖掘?qū)崿F(xiàn)信息抽取,具體包括對結(jié)構(gòu)化數(shù)據(jù)的信息抽取,和對非結(jié)構(gòu)化數(shù)據(jù)的信息抽取。
進(jìn)一步的,所述對非結(jié)構(gòu)化數(shù)據(jù)的信息抽取,具體包括:
步驟1,對目標(biāo)網(wǎng)站中各文檔進(jìn)行數(shù)據(jù)清洗預(yù)處理;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京信息科技大學(xué),未經(jīng)北京信息科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910566562.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 用于提供遠(yuǎn)程幫助的方法和服務(wù)器
- 遠(yuǎn)程登錄會話維護(hù)方法、遠(yuǎn)程登錄代理和計算機(jī)網(wǎng)絡(luò)系統(tǒng)
- 汽車遠(yuǎn)程控制裝置和方法
- 一種基于EMS系統(tǒng)的變電站遠(yuǎn)程監(jiān)控系統(tǒng)
- 遠(yuǎn)程控制終端、遠(yuǎn)程控制方法、遠(yuǎn)程受控終端和遠(yuǎn)程受控方法
- 對遠(yuǎn)程受控終端的受控方式進(jìn)行自定義的裝置及方法
- 一種基于互聯(lián)網(wǎng)的移動遠(yuǎn)程醫(yī)療綜合服務(wù)系統(tǒng)
- 一種遠(yuǎn)程控制方法、裝置及存儲介質(zhì)
- 一種遠(yuǎn)程炒菜機(jī)、遠(yuǎn)程炒菜機(jī)系統(tǒng)及遠(yuǎn)程炒菜方法
- 一種計算機(jī)遠(yuǎn)程控制組件





