[發(fā)明專利]一種基于標準答案的知識點自動提取方法及系統(tǒng)在審
| 申請?zhí)枺?/td> | 201710272107.5 | 申請日: | 2017-04-24 |
| 公開(公告)號: | CN107169043A | 公開(公告)日: | 2017-09-15 |
| 發(fā)明(設計)人: | 王慶先 | 申請(專利權)人: | 成都準星云學科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06N5/04 |
| 代理公司: | 北京卓唐知識產權代理有限公司11541 | 代理人: | 唐海力 |
| 地址: | 610000 四川省成都市高*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 標準答案 知識點 自動 提取 方法 系統(tǒng) | ||
技術領域
本發(fā)明涉及自動推理技術、知識抽取領域,特別是涉及一種基于標準答案的知識點自動提取方法及系統(tǒng)。
背景技術
知識抽取是指從數字資源中識別、發(fā)現(xiàn)和提取出概念、類型、事實及其相關關系、約束規(guī)則,以及進行問題求解的步驟、規(guī)則的過程。(參考《當前知識抽取的主要技術方法解析》,張智雄等,現(xiàn)代圖書情報技術,2008年第8期)目前,大多數的知識點抽取集中在設計自動或半自動的算法,從非結構化和半結構化文本中提取結構化信息,即從現(xiàn)有的(自然語言)文檔中提取知識。比如,北京師范大學的劉曉娟在研究利用知識抽取技術,對數字圖書館中海量的數字信息資源進行一系列處理,使得用戶更易于查詢和理解,機器更易于自動處理。又比如,GATE、KIM、ArtEquAKT等國外的知識抽取系統(tǒng)主要應用在數字圖書館中的文檔標注和處理、生物信息學、為語義web生成元數據,提高標引、檢索、分類和過濾應用的效率等。可見,不管是國內還是國外,對“知識抽取”的應用只限于從文本中提取出人們所需要的信息,雖然有自然語言理解相關技術,但是沒有推理機制,顯得單一。
發(fā)明內容
本發(fā)明要解決的技術問題是,如何提供具有知識點標注的標準答案給老師來了解學生對知識點的掌握情況,同時能夠提高學生對題目答案的學習、理解的知識點自動提取方法。
解決上述技術問題,本發(fā)明提供了一種基于標準答案的知識點自動提取方法,包括如下步驟:
對題目和對應的標準答案進行自然語言理解,結果作為源知識集,
將所述源知識集放入一推理機中,并根據規(guī)則庫使用drools規(guī)則引擎訓練得到一知識庫,
根據所述知識庫依次對所述標準答案中的每個解答步驟進行比較,提取并標記出知識點。
更進一步,對題目和對應的標準答案進行自然語言理解具體包括:
2-1)實體標注,將題目和對應的標準答案到的文本中實體用事先定義的符號標記,作為統(tǒng)一文本形式的模板,
2-2)模板匹配,對所述模板按照同一類型構成同一個XML文件。
更進一步,將所述源知識集放入一推理機中后還包括如下的步驟:
3-1)定義實體與關系兩個概念,
3-2)基于包括已知事實和規(guī)則的產生式規(guī)則引擎,
3-3)通過所述產生式規(guī)則引擎訓練一知識庫。
更進一步,所述推理機中的推理規(guī)則包括:
4-1)將給定的已知事實插入到事實庫中;
4-2)利用模式匹配對規(guī)則庫中的規(guī)則和事實庫中的已知事實進行匹配;
4-3)若多個所述規(guī)則同時滿足條件且處于激活狀態(tài),則存在沖突性規(guī)則,同時將沖突的所有規(guī)則放入沖突集合中;
4-4)將用以處理激活狀態(tài)的規(guī)則按設定順序放入所述沖突集中并處理沖突;
4-5)利用執(zhí)行引擎執(zhí)行所述沖突集中的規(guī)則,重復以上步驟4-2)至4-4),直至所述沖突集沒有處于激活狀態(tài)的規(guī)則。
更進一步,根據所述知識庫依次對所述標準答案中的每個解答步驟進行比較的方法如下:
源知識集中的經過自然語言理解處理后的標準答案的文本作為知識與知識庫中的內容作比較;
若所述標準答案的文本是題干中的已知條件,則不作處理;
若所述標準答案的文本是由已知條件推導而來,則在知識庫中查找每個關系所對應的條件集及規(guī)則名;
若標準答案推導過程中所用的條件與知識庫中的查找到的條件相匹配,則將知識庫中對應的規(guī)則名提取出來自動標注為知識點。
更進一步,若所述標準答案的文本作為知識存在,則查找該知識的父親節(jié)點,將所述知識庫中推導出該知識的條件集,同時獲取推導出該知識規(guī)則的知識點并進行標記,如果該知識不存在,則該步驟不標記。
更進一步,若所述標準答案的文本作為知識存在,而對同一知識由不同的條件集產生,則在所述知識庫中每一個知識節(jié)點有兩個屬性,一個是條件集即該知識節(jié)點的父親節(jié)點;另一個是規(guī)則名即推理出該知識所對應的知識點,則,選取所述知識庫中與當前答案的文本中上一步等價的條件集作為當前知識的父親結點進行推理,獲取與該條件集同組的規(guī)則名作為知識點進行標記。
基于上述本發(fā)明還提供了一種基于標準答案的知識點自動提取系統(tǒng),包括:知識采集單元、知識處理單元以及知識點提取單元,
所述知識采集單元,用以對題目和對應的標準答案進行自然語言理解,結果作為源知識集,
所述知識處理單元,用以將所述源知識集放入一推理機中,并根據規(guī)則庫使用drools規(guī)則引擎訓練得到一知識庫,
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都準星云學科技有限公司,未經成都準星云學科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710272107.5/2.html,轉載請聲明來源鉆瓜專利網。





