[發(fā)明專利]一種基于DeepDive技術(shù)構(gòu)建K12教育知識(shí)圖譜的方法在審
| 申請(qǐng)?zhí)枺?/td> | 201911113450.0 | 申請(qǐng)日: | 2019-11-14 |
| 公開(kāi)(公告)號(hào): | CN111061884A | 公開(kāi)(公告)日: | 2020-04-24 |
| 發(fā)明(設(shè)計(jì))人: | 張金剛;甘尼什庫(kù)瑪;基蘭戈達(dá);庫(kù)木達(dá);呂玉茂 | 申請(qǐng)(專利權(quán))人: | 臨沂市拓普網(wǎng)絡(luò)股份有限公司 |
| 主分類號(hào): | G06F16/36 | 分類號(hào): | G06F16/36;G06F16/33;G06F16/951 |
| 代理公司: | 廣州文衡知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44535 | 代理人: | 王茜 |
| 地址: | 276000 山東省*** | 國(guó)省代碼: | 山東;37 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 deepdive 技術(shù) 構(gòu)建 k12 教育 知識(shí) 圖譜 方法 | ||
本發(fā)明公開(kāi)了一種基于DeepDive技術(shù)構(gòu)建K12教育知識(shí)圖譜的方法,包括以下步驟,S1、輸入文章,輸入到DeepDive深度學(xué)習(xí)框架中;S2、挖掘知識(shí)點(diǎn),DeepDive分解得到的知識(shí)點(diǎn)存儲(chǔ)到csv文件中;S3、關(guān)系、特征的提取,從csv文件中提取出他們的特征和關(guān)系;S4、計(jì)算知識(shí)相關(guān)性,然后通過(guò)對(duì)不同層級(jí)知識(shí)點(diǎn)相關(guān)性計(jì)算和同層級(jí)知識(shí)點(diǎn)相關(guān)性計(jì)算的方法計(jì)算知識(shí)點(diǎn)之間的相關(guān)性;S5、繪制知識(shí)圖譜,將知識(shí)點(diǎn)之間的相關(guān)性輸入到NEO4J工具中,進(jìn)行構(gòu)造成知識(shí)圖譜;本發(fā)明使用DeepDive技術(shù)可以提高獲取結(jié)構(gòu)化數(shù)據(jù)的效率;使用量化的數(shù)據(jù)計(jì)算知識(shí)點(diǎn)之間的關(guān)系,可以提高知識(shí)圖譜的精確度;通過(guò)對(duì)比數(shù)據(jù)庫(kù)中已有知識(shí)點(diǎn)提取出文章中知識(shí)點(diǎn)。
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)科學(xué)技術(shù)領(lǐng)域,具體為一種基于DeepDive技術(shù)構(gòu)建K12教育知識(shí)圖譜的方法。
背景技術(shù)
隨著計(jì)算機(jī)的發(fā)展,人們?cè)谟?jì)算機(jī)的使用上越來(lái)越豐富,對(duì)于計(jì)算機(jī)的研究也越來(lái)越深層次了,并且將計(jì)算機(jī)運(yùn)用到對(duì)知識(shí)點(diǎn)的篩選上,即是通過(guò)計(jì)算機(jī)繪制知識(shí)圖譜,知識(shí)圖譜在圖書(shū)情報(bào)界稱為知識(shí)域可視化或知識(shí)領(lǐng)域映射地圖,是顯示知識(shí)發(fā)展進(jìn)程與結(jié)構(gòu)關(guān)系的一系列各種不同的圖形,用可視化技術(shù)描述知識(shí)資源及其載體,挖掘、分析、構(gòu)建、繪制和顯示知識(shí)及它們之間的相互聯(lián)系。DeepDive是一種抽取文本知識(shí)之間關(guān)系的技術(shù)。
現(xiàn)有技術(shù)也在使用一些內(nèi)置的模型,并有自己的API,它們已經(jīng)完成了產(chǎn)品推薦、工作推薦、工作列表和一些個(gè)人細(xì)節(jié)的搜索以及教育領(lǐng)域的工作。教育領(lǐng)域正在進(jìn)行更多的研究工作,但它們沒(méi)有提供良好的準(zhǔn)確性。因此,我們提出了使用deepdive技術(shù)提取知識(shí)點(diǎn)之間的關(guān)系,通過(guò)大量的文章數(shù)據(jù)計(jì)算他們之間的相關(guān)度,來(lái)提高精度。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種基于DeepDive技術(shù)構(gòu)建K12教育知識(shí)圖譜的方法,具有DeepDive技術(shù)提高獲取結(jié)構(gòu)化數(shù)據(jù)的效率;使用量化的數(shù)據(jù)計(jì)算知識(shí)點(diǎn)之間的關(guān)系,提高知識(shí)圖譜的精確度;通過(guò)數(shù)據(jù)庫(kù)中已有知識(shí)點(diǎn)與文章中知識(shí)點(diǎn)的對(duì)比的方式提取出知識(shí)點(diǎn)等優(yōu)點(diǎn),用以解決上述背景技術(shù)中提出的問(wèn)題。
為實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:一種基于DeepDive技術(shù)構(gòu)建K12教育知識(shí)圖譜的方法,包括如下步驟:
S1、輸入文章,首先利用scrapy爬蟲(chóng)技術(shù)從網(wǎng)站上抓取文章,然后通過(guò)beautifulsoup從HTML和XML文件中提取數(shù)據(jù),再將這些文章輸入到DeepDive深度學(xué)習(xí)框架中;
S2、挖掘知識(shí)點(diǎn),DeepDive通過(guò)執(zhí)行NLP函數(shù)將輸入的文章拆分成句子,再進(jìn)行分詞,詞性標(biāo)注、語(yǔ)法依賴,再將知識(shí)點(diǎn)與數(shù)據(jù)庫(kù)中的已有知識(shí)點(diǎn)進(jìn)行對(duì)比,輸出相同知識(shí)點(diǎn),并將分解得到的知識(shí)點(diǎn)存儲(chǔ)到csv文件中;
S3、關(guān)系、特征的提取,從csv文件中提取出他們的特征和關(guān)系,經(jīng)過(guò)一系列的篩選和整合操作,最終獲取到符合要求的知識(shí)點(diǎn);
S4、計(jì)算知識(shí)相關(guān)性,然后通過(guò)對(duì)不同層級(jí)知識(shí)點(diǎn)相關(guān)性計(jì)算和同層級(jí)知識(shí)點(diǎn)相關(guān)性計(jì)算的方法,開(kāi)始計(jì)算所得到的知識(shí)點(diǎn)之間的相關(guān)性;
S5、繪制知識(shí)圖譜,最后將知識(shí)點(diǎn)之間的相關(guān)性輸入到NEO4J工具中,進(jìn)行構(gòu)造成知識(shí)圖譜。
所述步驟S1中beautifulsoup是一個(gè)用于從HTML和XML文件中提取數(shù)據(jù)的Python庫(kù),且能夠獲取單個(gè)的URL并剪切指定的數(shù)據(jù);scrapy是一個(gè)用Python編寫(xiě)的免費(fèi)開(kāi)源的Web爬行框架。
所述步驟S2中DeepDive從文本文檔中的暗數(shù)據(jù)提取有價(jià)值的數(shù)據(jù);DeepDive將非結(jié)構(gòu)化信息中創(chuàng)建結(jié)構(gòu)化數(shù)據(jù)SQL表,并將這些數(shù)據(jù)與現(xiàn)有的結(jié)構(gòu)化數(shù)據(jù)庫(kù)集成,提取有用的知識(shí)點(diǎn)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于臨沂市拓普網(wǎng)絡(luò)股份有限公司,未經(jīng)臨沂市拓普網(wǎng)絡(luò)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911113450.0/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 防止技術(shù)開(kāi)啟的鎖具新技術(shù)
- 技術(shù)評(píng)價(jià)裝置、技術(shù)評(píng)價(jià)程序、技術(shù)評(píng)價(jià)方法
- 防止技術(shù)開(kāi)啟的鎖具新技術(shù)
- 視聽(tīng)模擬技術(shù)(VAS技術(shù))
- 用于技術(shù)縮放的MRAM集成技術(shù)
- 用于監(jiān)測(cè)技術(shù)設(shè)備的方法和用戶接口、以及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 用于監(jiān)測(cè)技術(shù)設(shè)備的技術(shù)
- 技術(shù)偵查方法及技術(shù)偵查系統(tǒng)
- 使用投影技術(shù)增強(qiáng)睡眠技術(shù)
- 基于技術(shù)庫(kù)的技術(shù)推薦方法
- 構(gòu)建墊、實(shí)體圖像構(gòu)建物和構(gòu)建構(gòu)建物支撐件的方法
- 支持松耦合的軟件構(gòu)建方法、系統(tǒng)及該系統(tǒng)的實(shí)現(xiàn)方法
- 版本的構(gòu)建系統(tǒng)及方法
- 工程構(gòu)建系統(tǒng)及其構(gòu)建方法
- 實(shí)例構(gòu)建方法、裝置及軟件系統(tǒng)
- 軟件構(gòu)建方法、軟件構(gòu)建裝置和軟件構(gòu)建系統(tǒng)
- 天花板地圖構(gòu)建方法、構(gòu)建裝置以及構(gòu)建程序
- 一種項(xiàng)目構(gòu)建方法、持續(xù)集成系統(tǒng)及終端設(shè)備
- 并行構(gòu)建的方法、裝置及設(shè)備
- 構(gòu)建肺癌預(yù)測(cè)模型構(gòu)建方法





