[發明專利]一種基于圖神經網絡的習題文本相似度檢測方法和裝置在審
| 申請號: | 202111412407.1 | 申請日: | 2021-11-25 |
| 公開(公告)號: | CN116186550A | 公開(公告)日: | 2023-05-30 |
| 發明(設計)人: | 李智 | 申請(專利權)人: | 廣州視源電子科技股份有限公司;廣州視源人工智能創新研究院有限公司 |
| 主分類號: | G06F18/22 | 分類號: | G06F18/22;G06N3/042;G06N3/048;G06N3/08;G06F40/30 |
| 代理公司: | 北京辰權知識產權代理有限公司 11619 | 代理人: | 付婧 |
| 地址: | 510530 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 神經網絡 習題 文本 相似 檢測 方法 裝置 | ||
本申請涉及一種基于圖神經網絡的習題文本相似度檢測方法和裝置。所述方法包括:獲取第一習題文本和第二習題文本,并對第一習題文本和第二習題文本進行預處理;將預處理后的第一習題文本轉化為第一圖結構,并將預處理后的第二習題文本轉化為第二圖結構;利用訓練好的多級圖神經網絡對第一圖結構進行處理得到第一多重結果,并對第一多重結果進行拼接得到第一向量;利用訓練好的多級圖神經網絡對第二圖結構進行處理得到第二多重結果,并對第二多重結果進行拼接得到第二向量;計算第一向量與第二向量之間的余弦距離,得到第一習題文本和第二習題文本之間的相似度。本申請所述方法得到的相似度更為精準,進而提升了習題文本之間比較的效率和精度。
技術領域
本申請涉及文本及語義識別技術領域,具體來說,本申請涉及一種基于圖神經網絡的習題文本相似度檢測方法和裝置。
背景技術
文本相似度,即計算兩個文本之間的字面或者語義上的相似性,其作為自然語言處理領域中的常用算法,在如互聯網+教育場景等相關應用場景下有著重要的應用。目前常見的文本相似度的算法主要分為兩大類,基于字符的字面匹配和基于詞向量的語義匹配?;谧置嫫ヅ湟话愫雎粤松舷挛牡恼Z序,根據輸入的文本字符的相似度進行判斷,其更多考慮整篇文章的整體結構;基于詞向量更多應用在短文本的相似度上,首先將每個詞通過訓練模型得到對應詞向量,然后將每個詞向量依照語序聚合起來得到整個文本的語義信息,最后再計算兩個文本之間的距離。
然而上述方法存在一定的局限性?;谧置嫫ヅ湟话愀嚓P注句子中整體的信息,卻往往忽略詞與詞之間的相對位置,因而更多用在主題抽取中,此外由于字面匹配并沒有考慮語義方面的信息,對近義詞和同義詞方面并沒有進行特殊的處理,因而效果往往較差。而對于詞向量算法,一方面它的輸入會根據語序進行,因而對更多會關注于局部而非整體,其資源的消耗遠超于字面的匹配,推理速度也略低于基于字面的算法,但其效果不一定更好;同時,盡管基于詞向量的方法能夠從語義層面上進行解析,但在長文本中,由于文章的信息量足夠多,而且引入語義的信息也會引入一定的誤差傳遞,從而導致準確率的下降。
發明內容
基于上述技術問題,本發明基于消息傳遞框架搭建多級圖神經網絡模型,所述多級圖神經網絡包括一級圖神經網絡至Z級圖神經網絡,其中,Z為大于1的自然數,且前一級圖神經網絡的輸出作為下一級圖神經網絡的輸入,這樣消息傳遞所傳遞的是結點和鄰居的邊的權重,使最后得到的向量既包含習題文本的局部信息又包含全局信息。兩個或多個習題文本都經過多級圖神經網絡處理得到的向量再求二者的余弦距離,得到兩個或多個習題文本相似度。
本發明第一方面提供了一種基于圖神經網絡的習題文本相似度檢測方法,所述方法包括:
獲取第一習題文本和第二習題文本,并對所述第一習題文本和所述第二習題文本進行預處理;
將預處理后的第一習題文本轉化為第一圖結構,并將預處理后的第二習題文本轉化為第二圖結構;
利用訓練好的多級圖神經網絡對所述第一圖結構進行處理得到第一多重結果,并對所述第一多重結果進行拼接得到第一向量;
利用訓練好的多級圖神經網絡對所述第二圖結構進行處理得到第二多重結果,并對所述第二多重結果進行拼接得到第二向量;
計算所述第一向量與所述第二向量之間的余弦距離,得到所述第一習題文本和所述第二習題文本之間的相似度。
優選地,所述獲取第一習題文本和第二習題文本,并對所述第一習題文本和所述第二習題文本進行預處理,包括:
獲取第一習題文本和第二習題文本;
將所述第一習題文本和所述第二習題文本中的無效文本去除;
對去除無效文本后的第一習題文本和第二習題文本進行文本歸一化。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州視源電子科技股份有限公司;廣州視源人工智能創新研究院有限公司,未經廣州視源電子科技股份有限公司;廣州視源人工智能創新研究院有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111412407.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種可升降驗電器
- 下一篇:一種燃煤電廠現貨輔助報價方法及系統





