[發(fā)明專利]一種基于科技資源的知識抽取方法有效
| 申請?zhí)枺?/td> | 202110895695.4 | 申請日: | 2021-08-05 |
| 公開(公告)號: | CN113590808B | 公開(公告)日: | 2023-10-10 |
| 發(fā)明(設(shè)計)人: | 杜豐 | 申請(專利權(quán))人: | 蘇州工業(yè)園區(qū)企業(yè)發(fā)展服務(wù)中心 |
| 主分類號: | G06F16/335 | 分類號: | G06F16/335;G06F16/951;G06F40/205;G06F40/289;G06N3/0464 |
| 代理公司: | 重慶百潤洪知識產(chǎn)權(quán)代理有限公司 50219 | 代理人: | 姚瓊斯 |
| 地址: | 214000 江蘇省蘇州*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 科技 資源 知識 抽取 方法 | ||
本發(fā)明涉及知識抽取技術(shù)領(lǐng)域,尤其涉及一種基于科技資源的知識抽取方法。本發(fā)明構(gòu)建科技資源本體庫、本體庫解析、待解析文本預(yù)處理、句子的矩陣化表示、剩余殘差網(wǎng)絡(luò)獲取結(jié)構(gòu)化信息、評價標準計算、判斷預(yù)設(shè)的收斂條件。本發(fā)明基于科技資源本體,通過剩余殘差網(wǎng)絡(luò)有效地抽取非結(jié)構(gòu)化文本中的知識并形成結(jié)構(gòu)化信息,采用這種抽取方法,極大地提高了結(jié)構(gòu)化信息抽取的效率,有助于豐富已有的知識圖譜資源,進而為各種智能化應(yīng)用更好地服務(wù)。
技術(shù)領(lǐng)域
本發(fā)明涉及知識抽取技術(shù)領(lǐng)域,尤其涉及一種基于科技資源的知識抽取方法。
背景技術(shù)
隨著網(wǎng)絡(luò)和計算機的發(fā)展,信息資源更新速度快且數(shù)量龐大,其中蘊含著豐富的可用知識和很高的研究價值。在這樣的大數(shù)據(jù)且信息資源低密度的前提下,知識抽取具有很大的研究意義。這些網(wǎng)絡(luò)化、數(shù)字化的信息資源的存在形式大多是自由、半結(jié)構(gòu)化或者非結(jié)構(gòu)化的,信息數(shù)量繁雜且實時更新,而知識抽取則能夠利用相關(guān)技術(shù)和方法從信息中抽取出用戶所需要的知識,從而實現(xiàn)信息資源的有效利用。
本體是一種元模型,提供各個領(lǐng)域的標準術(shù)語和要領(lǐng)。本體能將知識體系化、結(jié)構(gòu)化、標準化,也使存在于客觀世界的無意識的隱性知識形式化。本體的分析澄清了領(lǐng)域知識的結(jié)構(gòu),確定該領(lǐng)域內(nèi)共同認可的詞匯術(shù)語,通過構(gòu)建統(tǒng)一的規(guī)范模型來縮小概念和術(shù)語上的差異性,基于本體的知識抽取技術(shù)將在未來的知識抽取發(fā)展中成為不可或缺的重要技術(shù)。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的目的是提供一種基于科技資源的知識抽取方法,本發(fā)明具體按以下步驟執(zhí)行:
S1:按照知識抽取的需求,由科技領(lǐng)域工作人員完成科技資源本體庫的構(gòu)建,使用該本體作為知識抽取的基礎(chǔ);
S2:利用本體解析工具,對建好的在科技資源本體中所描述概念以及概念之間的層次關(guān)系進行解析,把解析出來的概念和關(guān)系結(jié)構(gòu)存入記錄表中,得到本體中定義的概念、分類層次、關(guān)系和實例;
S3:生成包括各種類型的數(shù)據(jù)資源的待解析文本;
S4:通過預(yù)處理去噪進行文本預(yù)處理,并生成編碼和格式統(tǒng)一的格式化文檔;在預(yù)處理去噪包括用爬蟲收集的語料數(shù)據(jù),去掉內(nèi)容中的html的標簽,然后進行處理中文編碼、中文分詞、引入停用詞、特征處理和建立分析模型。
S5:把經(jīng)過預(yù)處理后的文本用句子的矩陣化表示;
S6:根據(jù)句子的矩陣化表示,以及本體中已定義的概念和關(guān)系類型集合,經(jīng)過剩余殘差網(wǎng)絡(luò)模型ResNet,獲取經(jīng)過預(yù)處理的待解析文本中的結(jié)構(gòu)化信息;當(dāng)輸入為x時其學(xué)習(xí)到的特征記為H(x),設(shè)置其學(xué)習(xí)到殘差F(x)=H(x)-x,原始的學(xué)習(xí)特征是F(x)+x,一個殘差單元的公式如式(1)所示:
后面的x前面也需要經(jīng)過參數(shù)Ws變換,從而使得和前面部分的輸出形狀相同,可以進行加法運算。
S7:判斷結(jié)構(gòu)化信息是否達到預(yù)設(shè)的收斂條件,根據(jù)具體的評價標準,判斷是否達到收斂條件,若達到則停止,若未達到,則可調(diào)整網(wǎng)絡(luò)模型的參數(shù)或?qū)萍假Y源本體庫進行修改和完善,直到達到預(yù)設(shè)收斂條件為止。
進一步,在步驟S1中,科技資源本體庫包括項目標題、作者、內(nèi)容關(guān)鍵詞、儀器名稱、地點、歸屬、用途和價格信息。
進一步,步驟S3的各種類型根據(jù)實際需求,特定生成針對設(shè)備、項目或者人員信息的待解析文本。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于蘇州工業(yè)園區(qū)企業(yè)發(fā)展服務(wù)中心,未經(jīng)蘇州工業(yè)園區(qū)企業(yè)發(fā)展服務(wù)中心許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110895695.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





