[發(fā)明專利]資源庫的確定方法和裝置、存儲介質(zhì)及電子裝置在審
| 申請?zhí)枺?/td> | 202010888627.0 | 申請日: | 2020-08-28 |
| 公開(公告)號: | CN112035723A | 公開(公告)日: | 2020-12-04 |
| 發(fā)明(設(shè)計)人: | 朱學(xué)鋒;鐵力;何沉;田然;田江;向小佳;丁永建;李璠 | 申請(專利權(quán))人: | 光大科技有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/9535;G06F16/955;G06F16/958 |
| 代理公司: | 北京康信知識產(chǎn)權(quán)代理有限責(zé)任公司 11240 | 代理人: | 王曉婷 |
| 地址: | 100040 北京市石景*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 資源庫 確定 方法 裝置 存儲 介質(zhì) 電子 | ||
本發(fā)明公開了一種資源庫的確定方法和裝置、存儲介質(zhì)及電子裝置。其中,該方法包括:通過網(wǎng)絡(luò)捕獲器獲取與目標(biāo)主題對應(yīng)的第一網(wǎng)頁地址,根據(jù)第一網(wǎng)頁地址生成第一地址隊列;使用網(wǎng)絡(luò)捕獲器獲取第一地址隊列對應(yīng)的網(wǎng)頁源碼;根據(jù)網(wǎng)頁源碼生成網(wǎng)頁向量,確定網(wǎng)頁向量與預(yù)先建立的標(biāo)準(zhǔn)特征向量之間的第一距離,將第一距離小于第一預(yù)設(shè)閾值對應(yīng)的第二網(wǎng)頁地址從第一地址隊列中刪除,得到第二地址隊列,其中,網(wǎng)頁向量是根據(jù)網(wǎng)頁源碼對應(yīng)的文本信息生成的;從第二地址隊列對應(yīng)的網(wǎng)頁源碼中獲取目標(biāo)資源信息,將目標(biāo)資源信息存儲至目標(biāo)資源庫,其中,目標(biāo)資源信息用于描述與目標(biāo)主題相關(guān)的資源,目標(biāo)資源庫用于存儲與目標(biāo)主題相關(guān)的資源信息。
技術(shù)領(lǐng)域
本發(fā)明涉及計算機領(lǐng)域,具體而言,涉及一種資源庫的確定方法和裝置、存儲介質(zhì)及電子裝置。
背景技術(shù)
傳統(tǒng)搜索引擎使用通用爬蟲從互聯(lián)網(wǎng)中搜集網(wǎng)頁,采集信息,這些網(wǎng)頁信息用于為搜索引擎建立索引從而提供支持,它決定著整個引擎系統(tǒng)的內(nèi)容是否豐富,信息是否即時,因此其性能的優(yōu)劣直接影響著搜索引擎的效果。
傳統(tǒng)的搜索引擎雖然具有強大的網(wǎng)絡(luò)爬蟲,覆蓋面廣,但分類專業(yè)性較差,信息搜索結(jié)果不盡如人意,不能準(zhǔn)確理解某些特定領(lǐng)域的詞匯,例如金融業(yè)詞匯。
另一方面,現(xiàn)有金融業(yè)信息采集系統(tǒng)集中研究的是在金融業(yè)主題搜索引擎,重點研究金融業(yè)主題搜索引擎的設(shè)計、主題爬蟲算法、信息源發(fā)現(xiàn)方法等算法優(yōu)化問題,但對金融知識識別、提取等涉及較少。
因此,針對相關(guān)技術(shù)中,由于傳統(tǒng)的搜索引擎的分類專業(yè)性較差,存在對某些特定的領(lǐng)域的詞匯識別效果差的問題,尚未得到有效的解決方案。
發(fā)明內(nèi)容
本發(fā)明實施例提供了一種資源庫的確定方法和裝置、存儲介質(zhì)及電子裝置,以至少解決相關(guān)技術(shù)中,由于傳統(tǒng)的搜索引擎的分類專業(yè)性較差,存在對某些特定的領(lǐng)域的詞匯識別效果差的技術(shù)問題。
根據(jù)本發(fā)明實施例的一個方面,提供了一種資源庫的確定方法,包括:通過網(wǎng)絡(luò)捕獲器獲取與目標(biāo)主題對應(yīng)的第一網(wǎng)頁地址,根據(jù)上述第一網(wǎng)頁地址生成第一地址隊列;使用上述網(wǎng)絡(luò)捕獲器獲取上述第一地址隊列對應(yīng)的網(wǎng)頁源碼;根據(jù)上述網(wǎng)頁源碼生成網(wǎng)頁向量,確定上述網(wǎng)頁向量與預(yù)先建立的標(biāo)準(zhǔn)特征向量之間的第一距離,將第一距離小于第一預(yù)設(shè)閾值對應(yīng)的第二網(wǎng)頁地址從上述第一地址隊列中刪除,得到第二地址隊列,其中,上述網(wǎng)頁向量是根據(jù)上述網(wǎng)頁源碼對應(yīng)的文本信息生成的;從上述第二地址隊列對應(yīng)的網(wǎng)頁源碼中獲取目標(biāo)資源信息,將上述目標(biāo)資源信息存儲至目標(biāo)資源庫,其中,上述目標(biāo)資源信息用于描述與上述目標(biāo)主題相關(guān)的資源,上述目標(biāo)資源庫用于存儲與上述目標(biāo)主題相關(guān)的資源信息。
根據(jù)本發(fā)明實施例的另一方面,還提供了一種資源庫的確定裝置,包括:第一處理單元,用于通過網(wǎng)絡(luò)捕獲器獲取與目標(biāo)主題對應(yīng)的第一網(wǎng)頁地址,根據(jù)上述第一網(wǎng)頁地址生成第一地址隊列;第一獲取單元,用于使用上述網(wǎng)絡(luò)捕獲器獲取上述第一地址隊列對應(yīng)的網(wǎng)頁源碼;第一確定單元,用于根據(jù)上述網(wǎng)頁源碼生成網(wǎng)頁向量,確定上述網(wǎng)頁向量與預(yù)先建立的標(biāo)準(zhǔn)特征向量之間的第一距離,將第一距離小于第一預(yù)設(shè)閾值對應(yīng)的第二網(wǎng)頁地址從上述第一地址隊列中刪除,得到第二地址隊列,其中,上述網(wǎng)頁向量是根據(jù)上述網(wǎng)頁源碼對應(yīng)的文本信息生成的;第二處理單元,用于從上述第二地址隊列對應(yīng)的網(wǎng)頁源碼中獲取目標(biāo)資源信息,將上述目標(biāo)資源信息存儲至目標(biāo)資源庫,其中,上述目標(biāo)資源信息用于描述與上述目標(biāo)主題相關(guān)的資源,上述目標(biāo)資源庫用于存儲與上述目標(biāo)主題相關(guān)的資源信息。
根據(jù)本發(fā)明實施例的又一方面,還提供了一種計算機可讀的存儲介質(zhì),該計算機可讀的存儲介質(zhì)中存儲有計算機程序,其中,該計算機程序被設(shè)置為運行時執(zhí)行上述資源庫的確定方法。
根據(jù)本發(fā)明實施例的又一方面,還提供了一種電子裝置,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,其中,上述處理器通過計算機程序執(zhí)行上述的資源庫的確定方法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于光大科技有限公司,未經(jīng)光大科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010888627.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





