[發(fā)明專利]一種基于自然語言處理的知識(shí)庫建立方法有效
| 申請(qǐng)?zhí)枺?/td> | 201711178205.9 | 申請(qǐng)日: | 2017-11-23 |
| 公開(公告)號(hào): | CN107808014B | 公開(公告)日: | 2020-02-21 |
| 發(fā)明(設(shè)計(jì))人: | 黃浩;徐晨 | 申請(qǐng)(專利權(quán))人: | 北京中科智營科技發(fā)展有限公司 |
| 主分類號(hào): | G06F16/33 | 分類號(hào): | G06F16/33;G06F16/953 |
| 代理公司: | 北京天方智力知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11719 | 代理人: | 谷成 |
| 地址: | 100029 北*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 自然語言 處理 知識(shí)庫 建立 方法 | ||
本發(fā)明公開了一種基于自然語言處理的知識(shí)庫建立方法,該方法包括:步驟1,將文件中的文本數(shù)據(jù)放入預(yù)設(shè)的數(shù)據(jù)集中;步驟2,發(fā)現(xiàn)父主題、將涉及父主題的所有語句從數(shù)據(jù)集中摘出、作為父主題內(nèi)容清單;步驟3,發(fā)現(xiàn)子主題、將定義子主題的所有語句從父主題內(nèi)容清單中摘出;步驟4,判斷所有子主題是否全部被發(fā)現(xiàn),如果是,則執(zhí)行步驟5;如果否,則返回步驟3;步驟5,將父主題內(nèi)容清單中剩下的內(nèi)容作為父主題流程,將父主題和父主題流程作為知識(shí)點(diǎn)、納入知識(shí)庫中。本發(fā)明創(chuàng)建了符合用戶學(xué)習(xí)邏輯的知識(shí)庫,通過對(duì)待學(xué)習(xí)材料的提取和知識(shí)點(diǎn)的邏輯設(shè)計(jì),滿足用戶對(duì)知識(shí)點(diǎn)的快速檢索和深入學(xué)習(xí),有效提高用戶的檢索和學(xué)習(xí)效率,增強(qiáng)了用戶體驗(yàn)。
技術(shù)領(lǐng)域
本發(fā)明涉及自然語言處理技術(shù)領(lǐng)域,更為具體來說,本發(fā)明為一種基于自然語言處理的知識(shí)庫建立方法。
背景技術(shù)
目前,雖然已經(jīng)建立了一些用于用戶學(xué)習(xí)的知識(shí)庫或數(shù)據(jù)庫,但是,常規(guī)建立知識(shí)庫的方法往往是對(duì)現(xiàn)有內(nèi)容的簡單分類和簡單存儲(chǔ),實(shí)質(zhì)上相當(dāng)于建立了一個(gè)電子圖書館,所以常規(guī)知識(shí)庫中的內(nèi)容之間往往是相互獨(dú)立的。用戶在進(jìn)行檢索和學(xué)習(xí)時(shí),往往需要不斷地嘗試新的關(guān)鍵字才能得到足夠有用的信息,甚至有時(shí)即使經(jīng)過多次的檢索仍然沒有得到想要的結(jié)果。在用戶不斷嘗試新關(guān)鍵字的過程中,呈現(xiàn)給用戶的冗雜的、無用的內(nèi)容會(huì)耗費(fèi)用戶大量的時(shí)間,用戶往往需付出大量無用的勞動(dòng)才能對(duì)需要學(xué)習(xí)的知識(shí)點(diǎn)有所了解,導(dǎo)致知識(shí)獲取的效率過低、耗時(shí)耗力,難以滿足用戶的需求,而且上述問題導(dǎo)致用戶體驗(yàn)非常差。
因此,面對(duì)大量的學(xué)習(xí)材料的情況下,如何使用戶盡快學(xué)習(xí)到需要的知識(shí)點(diǎn)、提高用戶學(xué)習(xí)效率、改善用戶體驗(yàn),成為了本領(lǐng)域技術(shù)人員亟待解決的技術(shù)問題和始終研究的重點(diǎn)。
發(fā)明內(nèi)容
為解決已建立的常規(guī)知識(shí)庫會(huì)耗費(fèi)用戶大量的時(shí)間、限制用戶的學(xué)習(xí)效率、影響用戶體驗(yàn)等問題,本發(fā)明創(chuàng)新提出了一種基于自然語言處理的知識(shí)庫建立方法,該方法通過對(duì)待學(xué)習(xí)材料的處理和加工的方式提取用戶需要的核心內(nèi)容,以該核心內(nèi)容作為知識(shí)庫建立的基礎(chǔ)內(nèi)容,實(shí)現(xiàn)在用戶進(jìn)行檢索和查詢過程中能夠更快的接觸到主干知識(shí)點(diǎn),并可按照知識(shí)庫中預(yù)先創(chuàng)立的知識(shí)構(gòu)架進(jìn)行高效學(xué)習(xí),避免用戶將寶貴的時(shí)間浪費(fèi)在冗雜的無用內(nèi)容上;因此,本發(fā)明能夠顯著地提高用戶的檢索和學(xué)習(xí)效率,提高用戶滿意度。
為實(shí)現(xiàn)上述的技術(shù)目的,本發(fā)明公開了一種基于自然語言處理的知識(shí)庫建立方法,該方法包括如下步驟,
步驟1,讀取具有文本數(shù)據(jù)的文件,將文件中的文本數(shù)據(jù)放入預(yù)設(shè)的數(shù)據(jù)集中;
步驟2,通過掃描整個(gè)數(shù)據(jù)集的方式發(fā)現(xiàn)父主題,將涉及所述父主題的所有語句從數(shù)據(jù)集中摘出,并將涉及所述父主題的所有語句作為父主題內(nèi)容清單;
步驟3,通過掃描所述父主題內(nèi)容清單的方式發(fā)現(xiàn)子主題,并將定義所述子主題的所有語句從父主題內(nèi)容清單中摘出;其中,所述子主題用于解釋所述父主題;
步驟4,判斷父主題內(nèi)容清單中的所有子主題是否全部被發(fā)現(xiàn),如果是,則執(zhí)行步驟5;如果否,則返回步驟3;
步驟5,將父主題內(nèi)容清單中剩下的內(nèi)容作為父主題流程,將父主題和父主題流程作為知識(shí)點(diǎn)、納入知識(shí)庫中。
本發(fā)明建立了一種具有主題和主體流程的知識(shí)庫,將圍繞主題的核心內(nèi)容有效地提取出來,以滿足用戶通過主題流程而快速學(xué)習(xí)作為知識(shí)點(diǎn)的主題的需要,相對(duì)于現(xiàn)有知識(shí)庫,本發(fā)明有效地提高了用戶的學(xué)習(xí)效率和滿意度。
進(jìn)一步地,步驟5中,將父主題與子主題之間的關(guān)系作為基本主題網(wǎng)絡(luò),將所述基本主題網(wǎng)絡(luò)、父主題、父主題流程作為知識(shí)點(diǎn)納入知識(shí)庫中。
基于上述改進(jìn)的技術(shù)方案,本發(fā)明通過引入基本主題網(wǎng)絡(luò)的方式滿足用戶對(duì)作為主題的知識(shí)點(diǎn)進(jìn)行更為有效的學(xué)習(xí),并引導(dǎo)用戶有目標(biāo)地繼續(xù)學(xué)習(xí)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京中科智營科技發(fā)展有限公司,未經(jīng)北京中科智營科技發(fā)展有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711178205.9/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 一種專利文本自動(dòng)分析的系統(tǒng)及方法
- 基于知識(shí)的故障恢復(fù)支持系統(tǒng)
- 一種鐵磁諧振故障知識(shí)庫構(gòu)建方法
- 融合知識(shí)庫處理方法和裝置,以及知識(shí)庫管理系統(tǒng)
- 一種基于病理生理路徑的臨床知識(shí)庫系統(tǒng)
- 一種面向網(wǎng)絡(luò)安全的知識(shí)庫構(gòu)建方法
- 基于多知識(shí)庫推理的數(shù)據(jù)匹配決策方法及系統(tǒng)
- 一種語義知識(shí)庫構(gòu)建方法
- 基于人工智能的知識(shí)庫生成方法和智能機(jī)器人應(yīng)答方法
- 知識(shí)點(diǎn)存儲(chǔ)方法、裝置、服務(wù)器及介質(zhì)





