[發明專利]知識點提取方法和裝置在審
| 申請號: | 202110336756.3 | 申請日: | 2021-03-29 |
| 公開(公告)號: | CN115129857A | 公開(公告)日: | 2022-09-30 |
| 發明(設計)人: | 吳智東 | 申請(專利權)人: | 廣州視源電子科技股份有限公司;廣州視源人工智能創新研究院有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/194;G06F40/279;G06F40/30;G06K9/62 |
| 代理公司: | 北京同立鈞成知識產權代理有限公司 11205 | 代理人: | 張娜;臧建明 |
| 地址: | 510530 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 知識點 提取 方法 裝置 | ||
1.一種知識點提取方法,其特征在于,包括:
將待處理文本輸入知識點分類模型,得到概率向量,所述概率向量包括所述待處理文本屬于各個知識點的概率;
根據所述待處理文本和各個知識點的知識點向量,獲取相關度向量,所述相關度向量包括所述待處理文本和各個知識點的相關度;
根據所述概率向量和所述相關度向量,獲取各個知識點的相關性評分;
根據各個知識點的相關性評分,確定所述待處理文本所屬的知識點。
2.根據權利要求1所述的方法,其特征在于,所述將待處理文本輸入知識點分類模型之前,所述方法還包括:
構建訓練集數據,所述訓練集數據包括多個訓練樣本,每個訓練樣本包括:題目、所述題目的特征詞表以及所述題目的知識點;
構建初始知識點分類模型;
使用所述訓練集數據對所述初始知識點分類模型進行訓練,得到所述知識點分類模型。
3.根據權利要求2所述的方法,其特征在于,所述構建訓練集數據包括:
構建學科詞表;
針對題庫中每個題目,使用所述學科詞表和所述題目進行匹配,得到所述題目的特征詞表,所述題庫中每個題目、所述題目的特征詞表以及所述題目的知識點構成一個訓練樣本。
4.根據權利要求3所述的方法,其特征在于,所述構建學科詞表,包括:
對題目文本進行分詞處理,得到第一候選詞表,所述題目文本由所述題庫中的所有題目構成;
計算所述第一候選詞表中每個詞的詞頻-逆文本頻率指數TF-IDF;
根據所述第一候選詞表中每個詞的TF-IDF,獲取所述學科詞表。
5.根據權利要求4所述的方法,其特征在于,所述根據所述待處理文本和各個知識點的知識點向量,獲取相關度向量之前,還包括:
針對每個知識點,從所述題庫獲取和所述知識點相關的所有題目;
提取所有題目中每個題目的特征向量;
根據每個題目的特征向量,確定所述知識點的知識點向量。
6.根據權利要求1-5任一項所述的方法,其特征在于,所述根據每個題目的特征向量,確定所述知識點的知識點向量,包括:
采用如下公式確定所述知識點的知識點向量:
其中,Vci為所述知識點的知識點向量,VQij表示所述知識點第j個題目的特征向量,nci表示所述知識點相關的所有題目的數量。
7.根據權利要求6所述的方法,其特征在于,所述根據所述待處理文本和各個知識點的知識點向量,獲取相關度向量,包括:
提取所述待處理文本的特征向量;
針對每個知識點,根據所述待處理文本的特征向量和所述知識點的知識點向量,確定所述待處理文本和所述知識點的相關度,所述待處理文本和各個知識點的相關度構成所述相關度向量。
8.根據權利要求7所述的方法,其特征在于,所述根據所述待處理文本的特征向量和所述知識點的知識點向量,確定所述待處理文本和所述知識點的相關度,包括:
采用如下公式獲取確定所述待處理文本和所述知識點的相關度:
Score=Cosine(Bert(xq),Vci)
其中,Score為所述待處理文本和所述知識點的相關度,Bert(xq)為待處理文本的特征向量,Vci為所述知識點的知識點向量。
9.根據權利要求6所述的方法,其特征在于,所述根據所述概率向量和所述相關度向量,獲取各個知識點的相關性評分,包括:
采用如下公式獲取各個知識點的相關性評分:
其中,VMxq為概率向量,VSxq為相關度向量,Vscore包括各個知識點的相關性評分,為概率向量對應的權重。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州視源電子科技股份有限公司;廣州視源人工智能創新研究院有限公司,未經廣州視源電子科技股份有限公司;廣州視源人工智能創新研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110336756.3/1.html,轉載請聲明來源鉆瓜專利網。





