[發(fā)明專利]一種基于ElasticSearch對MOOC課程進行分面檢索的方法在審
| 申請?zhí)枺?/td> | 201611074980.5 | 申請日: | 2016-11-29 |
| 公開(公告)號: | CN106776878A | 公開(公告)日: | 2017-05-31 |
| 發(fā)明(設(shè)計)人: | 劉均;石磊;魏筆凡;王萌;姚思雨;曾宏偉;郭朝彤;王瑞杰 | 申請(專利權(quán))人: | 西安交通大學(xué) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06Q50/20 |
| 代理公司: | 西安通大專利代理有限責任公司61200 | 代理人: | 陸萬壽 |
| 地址: | 710049 陜*** | 國省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 elasticsearch mooc 課程 進行 檢索 方法 | ||
1.一種基于ElasticSearch對MOOC課程進行分面檢索的方法,其特征在于,包括以下步驟:
1)元數(shù)據(jù)的獲取:首先從MOOC資源服務(wù)平臺獲取MOOC課程元數(shù)據(jù),然后解析數(shù)據(jù)并將MOOC課程元數(shù)據(jù)存儲在本地資源數(shù)據(jù)庫中;
2)索引構(gòu)建:首先在ElasticSearch中創(chuàng)建一個索引,然后通過ElasticSearch的批量導(dǎo)入機制,將本地資源數(shù)據(jù)庫中的MOOC課程元數(shù)據(jù)在ElasticSearch集群中建立索引;
3)多字段檢索和字段權(quán)重設(shè)置:首先根據(jù)MOOC課程資源的特點分析出若干個字段的數(shù)據(jù)并加入到待檢索字段中,然后利用ElasticSearch的Bool查詢嵌套,實現(xiàn)多字段檢索;最后對不同字段通過設(shè)置不同的權(quán)重,排除檢索結(jié)果中的干擾信息;
4)分面檢索和查詢結(jié)果排序:首先設(shè)置若干個分面,利用ElasticSearch的聚合查詢從不同分面對MOOC課程進行篩選和過濾,允許用戶創(chuàng)建自己的檢索路徑,實現(xiàn)分面檢索;然后設(shè)置排序,在MOOC課程檢索結(jié)果的基礎(chǔ)上按照一個特定分面進行排序,使具有預(yù)期屬性的MOOC課程盡可能靠前,完成檢索結(jié)果排序;
5)設(shè)置檢索服務(wù)接口,提供MOOC課程檢索服務(wù),檢索服務(wù)接口要求用戶提供檢索關(guān)鍵詞和檢索分面信息,用戶提供檢索關(guān)鍵詞和檢索分面信息后,檢索服務(wù)接口向用戶返回MOOC課程信息列表以及課程分面聚合結(jié)果。
2.根據(jù)權(quán)利要求1所述的一種基于ElasticSearch對MOOC課程進行分面檢索的方法,其特征在于,所述步驟1)中元數(shù)據(jù)的獲取具體包括以下步驟:
1.1)通過基于HTTP協(xié)議的GET請求規(guī)范從MOOC中國資源服務(wù)平臺獲取課程列表;
1.2)將所有課程的CourseID放入隊列中進行循環(huán)遍歷,根據(jù)CourseID這個字段通過基于HTTP協(xié)議的GET請求規(guī)范從MOOC中國資源服務(wù)平臺獲取每一課程的JSON文件;
1.3)利用JsonPath解析語法,對JSON文件進行解析,獲取MOOC課程元數(shù)據(jù);
1.4)將MOOC課程元數(shù)據(jù)存入本地的MySQL資源數(shù)據(jù)庫中。
3.根據(jù)權(quán)利要求1所述的一種基于ElasticSearch對MOOC課程進行分面檢索的方法,其特征在于,所述步驟2)中索引構(gòu)建具體包括:首先構(gòu)建ElasticSearch的Mapping描述文件,指明每一個字段如何索引數(shù)據(jù)以及是否被檢索到,并使用一個默認的分析器Analyzer;然后將Mapping文件寫入ElasticSearch集群中,創(chuàng)建一個索引Indexmooc;最后從本地MySQL資源數(shù)據(jù)庫中獲取MOOC課程元數(shù)據(jù),利用ElasticSearch的Bulk批量導(dǎo)入索引Indexmooc中。
4.根據(jù)權(quán)利要求1所述的一種基于ElasticSearch對MOOC課程進行分面檢索的方法,其特征在于,所述步驟3)中多字段檢索和字段權(quán)重設(shè)置具體包括以下步驟:
3.1)根據(jù)MOOC課程資源的特點分析出七個字段的數(shù)據(jù),七個字段包括課程名稱CourseName、課程簡介Introduction、課程機構(gòu)名稱OrgName、章節(jié)列表Chapterlist、教師團隊TeacherInfo、先修知識Priorknowledge和授課語言Language;
3.2)設(shè)置ElasticSearch的查詢器TermQuery和MatchQuery,并用ElasticSearch的Bool查詢進行嵌套,實現(xiàn)多字段檢索;
3.3)設(shè)置不同字段的權(quán)重,引入權(quán)重公式ω=CourseName×1.0+Introduction×ω1+OrgName×ω2+Chapterlist×ω3+TeacherInfo×ω4+Priorknowledge×ω5+Language×ω6;其中MOOC課程名稱CourseName的系數(shù)為1.0,其他字段系數(shù)ω1、ω2、ω3、ω4、ω5和ω6為待定系數(shù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西安交通大學(xué),未經(jīng)西安交通大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611074980.5/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:摩托車零件型號自動識別方法
- 下一篇:一種客戶繳費服務(wù)信息推送方法
- 基于Elasticsearch的DSL查詢方法
- 一種基于mongo數(shù)據(jù)庫的搜索系統(tǒng)
- 一種基于Presto和Elasticsearch的SQL查詢方法
- 一種基于Elasticsearch的數(shù)據(jù)處理方法及終端
- 一種Kafka與Elasticsearch數(shù)據(jù)庫數(shù)據(jù)的互相遷移方法
- 一種Elasticsearch數(shù)據(jù)查詢方法及系統(tǒng)
- 一種基于Elasticsearch的數(shù)據(jù)檢索方法、裝置、設(shè)備、介質(zhì)
- 基于條件下推elasticsearch的hive索引方法
- 一種Elasticsearch索引的加載方法、裝置、計算機設(shè)備和存儲介質(zhì)
- Elasticsearch搜索引擎的索引創(chuàng)建方法及裝置





