[發明專利]一種基于DeepDive技術構建K12教育知識圖譜的方法在審
| 申請號: | 201911113450.0 | 申請日: | 2019-11-14 |
| 公開(公告)號: | CN111061884A | 公開(公告)日: | 2020-04-24 |
| 發明(設計)人: | 張金剛;甘尼什庫瑪;基蘭戈達;庫木達;呂玉茂 | 申請(專利權)人: | 臨沂市拓普網絡股份有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/33;G06F16/951 |
| 代理公司: | 廣州文衡知識產權代理事務所(普通合伙) 44535 | 代理人: | 王茜 |
| 地址: | 276000 山東省*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 deepdive 技術 構建 k12 教育 知識 圖譜 方法 | ||
1.一種基于DeepDive技術構建K12教育知識圖譜的方法,其特征在于:包括如下步驟:
S1、輸入文章,首先利用scrapy爬蟲技術從網站上抓取文章,然后通過beautifulsoup從HTML和XML文件中提取數據,再將這些文章輸入到DeepDive深度學習框架中;
S2、挖掘知識點,DeepDive通過執行NLP函數將輸入的文章拆分成句子,再進行分詞,詞性標注、語法依賴,再將知識點與數據庫中的已有知識點進行對比,輸出相同知識點,并將分解得到的知識點存儲到csv文件中;
S3、關系、特征的提取,從csv文件中提取出他們的特征和關系,經過一系列的篩選和整合操作,最終獲取到符合要求的知識點;
S4、計算知識相關性,然后通過對不同層級知識點相關性計算和同層級知識點相關性計算的方法,開始計算所得到的知識點之間的相關性;
S5、繪制知識圖譜,最后將知識點之間的相關性輸入到NEO4J工具中,進行構造成知識圖譜。
2.根據權利要求1所述的一種基于DeepDive技術構建K12教育知識圖譜的方法,其特征在于:所述步驟S1中beautifulsoup是一個用于從HTML和XML文件中提取數據的Python庫,且能夠獲取單個的URL并剪切指定的數據;scrapy是一個用Python編寫的免費開源的Web爬行框架。
3.根據權利要求1所述的一種基于DeepDive技術構建K12教育知識圖譜的方法,其特征在于:所述步驟S2中DeepDive從文本文檔中的暗數據提取有價值的數據;DeepDive將非結構化信息中創建結構化數據SQL表,并將這些數據與現有的結構化數據庫集成,提取有用的知識點。
4.根據權利要求3所述的一種基于DeepDive技術構建K12教育知識圖譜的方法,其特征在于:所述步驟S2中使用DeepDive技術提取出知識點,并作為輸入,再根據分離結果,刪除所有不必要的數據,將數據轉換成鍵值對的形式,然后轉換為所需的規范,即不同的密鑰包含相同的值,因此我們將包含相同值的密鑰組合在一起,從獲得的結果中刪除單個字符和特殊符號。
5.根據權利要求4所述的一種基于DeepDive技術構建K12教育知識圖譜的方法,其特征在于:所述關鍵字的所有單詞和字符,即所選關鍵字中除復數形式外的任何單詞與末尾的最后一個字符相同,則該單詞將移動到新列表中,將新列表與標記文件(句子)進行比較,如果新列表的單個單詞位于標記文件(句子)中,則考慮該句子;且一直重復到所有句子都完成,將所有的句子合并成一個列表,并計算出句子列表中每個單詞的出現次數;再次將新列表與句子列表進行比較,通過創建新的列表,將新列表和句子列表中常見的單詞分開。
6.根據權利要求5所述的一種基于DeepDive技術構建K12教育知識圖譜的方法,其特征在于:所述新獲得的列表中,采用word2vec技術,查找單詞之間的相關性,并用neo4j技術展示知識圖譜。
7.根據權利要求3所述的一種基于DeepDive技術構建K12教育知識圖譜的方法,其特征在于:所述知識數據轉換成知識矩陣,且將數據鍵值對整理成知識之間的關系矩陣。
8.根據權利要求1所述的一種基于DeepDive技術構建K12教育知識圖譜的方法,其特征在于:所述步驟S4中的不同層級知識點相關性計算:假設a,b,c,d四個知識點都在同一個知識點N下,那么知識點N出現的次數為包含abcd四個知識點的文章數量,a與N的關系即a出現的次數/N出現的次數;同層級知識點相關性計算:a,b兩知識點的計算公式為log2(p(ab)/(p(a)*p(b))),其中p(ab)為ab同時出現的次數,p(a)為a出現的次數,p(b)為b出現的次數。
9.根據權利要求1所述的一種基于DeepDive技術構建K12教育知識圖譜的方法,其特征在于:所述步驟S5中的Neo4j是一個高性能的,NOSQL圖形數據庫,能夠將結構化數據存儲在網絡上而不是表中;是一個嵌入式的、基于磁盤的、具備完全的事務特性的Java持久化引擎,Neo4j也可以被看作是一個高性能的圖引擎。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于臨沂市拓普網絡股份有限公司,未經臨沂市拓普網絡股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911113450.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種薄片快速裁切設備
- 下一篇:一種無線電能傳輸系統





