[發明專利]抄襲源檢索排序模型構建方法和抄襲源檢索排序方法有效
| 申請號: | 201810557843.X | 申請日: | 2018-06-01 |
| 公開(公告)號: | CN108829791B | 公開(公告)日: | 2022-04-05 |
| 發明(設計)人: | 孔蕾蕾;韓中元;齊浩亮 | 申請(專利權)人: | 黑龍江工程學院 |
| 主分類號: | G06F16/338 | 分類號: | G06F16/338;G06F16/383 |
| 代理公司: | 哈爾濱市陽光惠遠知識產權代理有限公司 23211 | 代理人: | 劉景祥 |
| 地址: | 150050 黑龍江*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 抄襲 檢索 排序 模型 構建 方法 | ||
本發明提供了一種抄襲源檢索排序模型構建方法和抄襲源檢索排序方法。抄襲源檢索排序模型構建方法基于參考文檔的每個抄襲源文檔與該參考文檔之間的聚合度,利用訓練樣本、通過基于序對的排序學習方式對預定排序邏輯回歸模型進行訓練,直至預定損失函數的值最小,預定損失函數包括第一和第二子損失函數,第一子損失函數表示基于參考文檔的抄襲源文檔和非抄襲源文檔構成的序對的排序錯誤帶來的損失,而第二子損失函數表示由具有不同的聚合度的抄襲源文檔構成的序對的排序錯誤帶來的損失。抄襲源檢索排序方法利用上述獲得的排序模型對可疑文檔的檢索結果進行重排序。本發明的上述技術能夠在抄襲檢測中對可疑文檔的源檢索結果進行更準確地排序。
技術領域
本發明涉及信息檢索技術,尤其涉及一種抄襲源檢索排序模型構建方法和抄襲源檢索排序方法。
背景技術
在抄襲檢測源檢索的一般過程中,抄襲源檢索算法通常對檢索結果實施過濾來獲得最終與可疑文檔進行文本對齊的抄襲源文檔。其中,過濾的性能對源檢索的性能至關重要,是源檢索不可或缺的關鍵步驟。
目前,現有的源檢索過濾技術主要采取啟發式方法。然而,啟發式方法難于融合更多有效特征,其性能的提升依賴于專家的經驗和對有效過濾特征的發現。
與啟發式方法相比,機器學習方法具有更多先進性,將源檢索的過濾形式化為一個機器學習任務允許過濾模型利用許多機器學習領域已經開發好的復雜的方法,融合來自各個方面不同的特征,克服啟發式方法對于專家經驗的依賴。然而,目前僅有Williams等人使用基于分類的機器學習方法(Williams K,Chen H H,Giles C L.Classifying andTanking Search Engine Results as Potential Sources ofPlagiarism[C].Proceedings ofthe 2014ACM Symposium on Document Engineering.FortCollins,CO,USA,September 16-19,2014.ACM,2014:97-106.)來解決源檢索的過濾問題。
然而,以上現有技術均存在源檢索過濾結果較不準確的問題。
發明內容
在下文中給出了關于本發明的簡要概述,以便提供關于本發明的某些方面的基本理解。應當理解,這個概述并不是關于本發明的窮舉性概述。它并不是意圖確定本發明的關鍵或重要部分,也不是意圖限定本發明的范圍。其目的僅僅是以簡化的形式給出某些概念,以此作為稍后論述的更詳細描述的前序。
鑒于此,本發明提供了一種,以至少解決現有技術存在的抄襲源檢索過濾結果較不準確的問題。
根據本發明的一個方面,提供了一種基于檢索結果聚合性損失的抄襲源檢索排序模型構建方法,其特征在于,該抄襲源檢索排序模型構建方法包括:獲取參考文檔以及所述參考文檔的抄襲源文檔和非抄襲源文檔;確定所述參考文檔的多個查詢;根據所述參考文檔的每個查詢分別進行檢索,得到該參考文檔的多次檢索結果;確定所述參考文檔的每個抄襲源文檔在該參考文檔的多次檢索中被檢索到的次數,以根據該次數計算所述參考文檔的每個抄襲源文檔與該參考文檔之間的聚合度;提取所述參考文檔的抄襲源文檔和非抄襲源文檔各自的特征向量,作為訓練樣本,并設定每個訓練樣本的標簽;利用所述訓練樣本、通過迭代計算方式對預定邏輯回歸模型進行訓練,直至預定損失函數的值最小,以將當前的預定邏輯回歸模型作為最終獲得的抄襲源檢索排序模型;其中,所述預定損失函數包括第一子損失函數和第二子損失函數,所述第一子損失函數表示基于所述參考文檔的抄襲源文檔和非抄襲源文檔構成的序對的排序錯誤帶來的損失,而所述第二子損失函數表示由具有不同的聚合度的抄襲源文檔構成的序對的排序錯誤帶來的損失;所述參考文檔的抄襲源文檔和非抄襲源文檔構成的序對的排序錯誤包括:所述參考文檔的抄襲源文檔排在其非抄襲源文檔之后;所述具有不同的聚合度的抄襲源文檔構成的序對的排序錯誤包括:高聚合度的抄襲源文檔排在低聚合度的抄襲源文檔之后。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于黑龍江工程學院,未經黑龍江工程學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810557843.X/2.html,轉載請聲明來源鉆瓜專利網。





