[發(fā)明專利]用于檢測原創(chuàng)文本的方法、裝置、電子設備及存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 202011378235.6 | 申請日: | 2020-11-30 |
| 公開(公告)號: | CN112507684B | 公開(公告)日: | 2023-09-22 |
| 發(fā)明(設計)人: | 鄭燁翰;羅雨 | 申請(專利權)人: | 北京百度網(wǎng)訊科技有限公司 |
| 主分類號: | G06F40/194 | 分類號: | G06F40/194;G06F40/216;G06F40/30;G06F16/36 |
| 代理公司: | 北京英賽嘉華知識產(chǎn)權代理有限責任公司 11204 | 代理人: | 王達佐;馬曉亞 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 檢測 原創(chuàng) 文本 方法 裝置 電子設備 存儲 介質(zhì) | ||
本申請實施例公開了用于檢測原創(chuàng)文本的方法、裝置、電子設備及計算機可讀存儲介質(zhì),涉及自然語言處理、知識圖譜、云服務、深度學習技術領域。該方法的一具體實施方式包括:從獲取到的待檢測文本中提取出主題;從該待檢測文本中提取出主謂賓三元組;計算該待檢測文本與公開文本各自的主題和主謂賓三元組之間的相似程度,并基于該相似程度確定該待檢測文本是否為原創(chuàng)文本。為識別出經(jīng)更復雜改寫操作的非原創(chuàng)文本,該實施方式通過比對表達待檢測文本與公開文本在所表達內(nèi)容的主題和主謂賓三元組,來更加準確的識別兩文本是否在內(nèi)容上存在實質(zhì)性等同或較為相似,進而使得原創(chuàng)文本的檢測結果更加準確。
技術領域
本申請涉及數(shù)據(jù)處理技術領域,具體涉及自然語言處理、知識圖譜、云服務、深度學習技術領域,尤其涉及用于檢測原創(chuàng)文本的方法、裝置、電子設備及計算機可讀存儲介質(zhì)。
背景技術
隨著電子信息化程度的不斷提高、獲取信息途徑的不斷增加,人們可以獲取到豐富的信息,但同樣的信息也很容易被他人直接或通過經(jīng)過簡單的改寫后作為其原創(chuàng)內(nèi)容在網(wǎng)絡上發(fā)布。因此,驗證實際內(nèi)容是否為原創(chuàng)內(nèi)容為高質(zhì)量內(nèi)容的產(chǎn)生促進、作者著作權保護、營銷號傳播低質(zhì)信息甚至學術不端等方面都有著十分重要的作用。
現(xiàn)有技術通常僅能通過相同文本匹配、直接針對文本相似度識別,來識別出直接抄襲或僅做簡單改寫的非原創(chuàng)文本。
發(fā)明內(nèi)容
本申請實施例提出了一種用于檢測原創(chuàng)文本的方法、裝置、電子設備及計算機可讀存儲介質(zhì)。
第一方面,本申請實施例提出了一種用于檢測原創(chuàng)文本的方法,包括:從獲取到的待檢測文本中提取出主題;從待檢測文本中提取出主謂賓三元組;計算待檢測文本與公開文本各自的主題和主謂賓三元組之間的相似程度,并基于相似程度確定待檢測文本是否為原創(chuàng)文本。
第二方面,本申請實施例提出了一種用于檢測原創(chuàng)文本的裝置,包括:主題提取單元,被配置成從獲取到的待檢測文本中提取出主題;主謂賓三元組提取單元,被配置成從待檢測文本中提取出主謂賓三元組;原創(chuàng)文本確定單元,被配置成計算待檢測文本與公開文本各自的主題和主謂賓三元組之間的相似程度,并基于相似程度確定待檢測文本是否為原創(chuàng)文本。
第三方面,本申請實施例提供了一種電子設備,該電子設備包括:至少一個處理器;以及與至少一個處理器通信連接的存儲器;其中,存儲器存儲有可被至少一個處理器執(zhí)行的指令,該指令被至少一個處理器執(zhí)行,以使至少一個處理器執(zhí)行時能夠實現(xiàn)如第一方面中任一實現(xiàn)方式描述的用于檢測原創(chuàng)文本的方法。
第四方面,本申請實施例提供了一種存儲有計算機指令的非瞬時計算機可讀存儲介質(zhì),該計算機指令用于使計算機執(zhí)行時能夠實現(xiàn)如第一方面中任一實現(xiàn)方式描述的用于檢測原創(chuàng)文本的方法。
本申請實施例提供的用于檢測原創(chuàng)文本的方法、裝置、電子設備及計算機可讀存儲介質(zhì),首先,從獲取到的待檢測文本中提取出主題;然后,從該待檢測文本中提取出主謂賓三元組;最后,計算該待檢測文本與公開文本各自的主題和主謂賓三元組之間的相似程度,并基于該相似程度確定該待檢測文本是否為原創(chuàng)文本。為識別出經(jīng)更復雜改寫操作的非原創(chuàng)文本,本申請通過比對表達待檢測文本與公開文本在所表達內(nèi)容的主題和主謂賓三元組,來更加準確的識別兩文本是否在內(nèi)容上存在實質(zhì)性等同或較為相似,進而使得原創(chuàng)文本的檢測結果更加準確。
應當理解,本部分所描述的內(nèi)容并非旨在標識本公開的實施例的關鍵或重要特征,也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。
附圖說明
通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本申請的其它特征、目的和優(yōu)點將會變得更明顯:
圖1是本申請可以應用于其中的示例性系統(tǒng)架構;
圖2為本申請實施例提供的一種用于檢測原創(chuàng)文本的方法的流程圖;
圖3為本申請實施例提供的另一種用于檢測原創(chuàng)文本的方法的流程圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網(wǎng)訊科技有限公司,未經(jīng)北京百度網(wǎng)訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011378235.6/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 用戶原創(chuàng)內(nèi)容的推薦方法及推薦裝置
- 一種原創(chuàng)圖片的分享方法及系統(tǒng)
- 一種原創(chuàng)文檔判斷方法、裝置、電子設備及存儲介質(zhì)
- 一種金額分配方法、服務器和系統(tǒng)
- 原創(chuàng)內(nèi)容摘要確定方法及裝置,原創(chuàng)內(nèi)容推薦方法及裝置
- 基于區(qū)塊鏈的作品存證方法、系統(tǒng)、裝置及設備
- 原創(chuàng)內(nèi)容申明方法及裝置
- 基于相似度檢測的原創(chuàng)內(nèi)容申明方法及裝置
- 侵權視頻識別方法、裝置、電子設備及存儲介質(zhì)
- 一種基于區(qū)塊鏈的稿件知識產(chǎn)權保護方法和系統(tǒng)





