[發明專利]用于檢測原創文本的方法、裝置、電子設備及存儲介質有效
| 申請號: | 202011378235.6 | 申請日: | 2020-11-30 |
| 公開(公告)號: | CN112507684B | 公開(公告)日: | 2023-09-22 |
| 發明(設計)人: | 鄭燁翰;羅雨 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F40/194 | 分類號: | G06F40/194;G06F40/216;G06F40/30;G06F16/36 |
| 代理公司: | 北京英賽嘉華知識產權代理有限責任公司 11204 | 代理人: | 王達佐;馬曉亞 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 檢測 原創 文本 方法 裝置 電子設備 存儲 介質 | ||
1.一種用于檢測原創文本的方法,包括:
將獲取到的待檢測文本拆分為至少一個段落,并將每個所述段落拆分為至少一個語句;分別從每個所述段落和每個所述語句中提取核心短語,并將所述核心短語作為對應的段落或語句的主題;
從所述待檢測文本中提取出主謂賓三元組;
在相同的向量描述空間內,計算所述待檢測文本與公開文本各自的向量化主謂賓三元組的向量相似度;其中,所述向量化主謂賓三元組指將文本形式的主謂賓三元組的向量形式轉換結果;確定所述待檢測文本與所述公開文本之間具有的相似主題個數和相似主題相同分布數,所述相似主題相同分布數指在文本的相同位置分布有相似主題的數量;基于所述相似主題個數、所述相似主題相同分布數和所述向量相似度,確定所述待檢測文本與所述公開文本各自的主題和主謂賓三元組之間的相似程度;基于所述相似程度確定所述待檢測文本是否為原創文本。
2.根據權利要求1所述的方法,其中,所述從所述待檢測文本中提取出主謂賓三元組,包括:
利用知識圖譜的實體識別技術識別出所述待檢測文本中的實體文本;
利用知識圖譜的關系抽取技術抽取出與所述實體存在主謂賓關系的關聯文本;
根據所述實體文本與對應的關聯文本,生成所述主謂賓三元組。
3.根據權利要求1或2所述的方法,其中,所述基于所述相似程度確定所述待檢測文本是否為原創文本,包括:
獲取所述待檢測文本與所述公開文本的文本相似度;
基于所述相似程度、所述文本相似度,確定所述待檢測文本是否為原創文本。
4.根據權利要求3所述的方法,其中,所述基于所述相似程度、所述文本相似度,確定所述待檢測文本是否為原創文本,包括:
分別獲取預先為所述相似程度、所述文本相似度分配的第一權值、第二權值;其中,所述第一權值大于所述第二權值;
根據使用所述第一權值加權后的相似程度、使用所述第二權值加權后的文本相似度,計算得到綜合相似程度;
響應于所述綜合相似程度超過預設閾值,確定所述待檢測文本為非原創文本;
響應于所述綜合相似程度不超過所述預設閾值,確定所述待檢測文本為原創文本。
5.一種用于檢測原創文本的裝置,包括:
主題提取單元,被配置成將獲取到的待檢測文本拆分為至少一個段落,并將每個所述段落拆分為至少一個語句;分別從每個所述段落和每個所述語句中提取核心短語,并將所述核心短語作為對應的段落或語句的主題;
主謂賓三元組提取單元,被配置成從所述待檢測文本中提取出主謂賓三元組;
原創文本確定單元,被配置成在相同的向量描述空間內,計算所述待檢測文本與公開文本各自的向量化主謂賓三元組的向量相似度;其中,所述向量化主謂賓三元組指將文本形式的主謂賓三元組的向量形式轉換結果;確定所述待檢測文本與所述公開文本之間具有的相似主題個數和相似主題相同分布數,所述相似主題相同分布數指在文本的相同位置分布有相似主題的數量;基于所述相似主題個數、所述相似主題相同分布數和所述向量相似度,確定所述待檢測文本與所述公開文本各自的主題和主謂賓三元組之間的相似程度,并基于所述相似程度確定所述待檢測文本是否為原創文本。
6.根據權利要求5所述的裝置,其中,所述主謂賓三元組提取單元被進一步配置成:
利用知識圖譜的實體識別技術識別出所述待檢測文本中的實體文本;
利用知識圖譜的關系抽取技術抽取出與所述實體存在主謂賓關系的關聯文本;
根據所述實體文本與對應的關聯文本,生成所述主謂賓三元組。
7.根據權利要求5或6所述的裝置,其中,所述原創文本確定單元包括被配置成基于所述相似程度確定所述待檢測文本是否為原創文本的原創文本確定子單元,所述原創文本確定子單元包括:
文本相似度獲取模塊,被配置成獲取所述待檢測文本與所述公開文本的文本相似度;
綜合確定模塊,被配置成基于所述相似程度、所述文本相似度,確定所述待檢測文本是否為原創文本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011378235.6/1.html,轉載請聲明來源鉆瓜專利網。





