[發(fā)明專利]文本檢測方法、裝置、計算設(shè)備及計算機可讀存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 201810546892.3 | 申請日: | 2018-05-31 |
| 公開(公告)號: | CN108829780B | 公開(公告)日: | 2022-05-24 |
| 發(fā)明(設(shè)計)人: | 于洋;劉磊;徐香義;柏少乾 | 申請(專利權(quán))人: | 北京萬方數(shù)據(jù)股份有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/36;G06F40/211;G06F40/279;G06F40/247 |
| 代理公司: | 北京市立方律師事務(wù)所 11330 | 代理人: | 張筱寧 |
| 地址: | 100036*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文本 檢測 方法 裝置 計算 設(shè)備 計算機 可讀 存儲 介質(zhì) | ||
1.一種文本檢測方法,其特征在于,包括:
對待檢測文本進行聚類預(yù)處理,得到所述待檢測文本各分句中各分詞對應(yīng)的相似類列表;
基于所述相似類列表確定所述待檢測文本中所有分句對應(yīng)的相似句子列表,并對所述相似句子列表中各相似句子進行合并,得到相似片段;
基于所述相似片段確定所述待檢測文本與所述相似片段所屬文本的相似度;
所述基于所述相似類列表確定所述待檢測文本中所有分句對應(yīng)的相似句子列表,包括:基于所述相似類列表獲取所述相似類列表對應(yīng)分詞在倒排中的字節(jié)位置;
根據(jù)所述字節(jié)位置確定所述分詞對應(yīng)的句子列表;
對所述分詞與所述句子列表中各句子分別做TF_IDF差值計算,得到對應(yīng)的TF_IDF值;
并根據(jù)大于預(yù)設(shè)閾值的TF_IDF值所對應(yīng)的句子構(gòu)建相似句子列表。
2.如權(quán)利要求1所述的方法,其特征在于,所述基于所述相似類列表確定所述待檢測文本中所有分句對應(yīng)的相似句子列表,并對所述相似句子列表中各相似句子進行合并,得到相似片段,包括:
基于所述相似類列表確定各分詞對應(yīng)的相似句子列表;
根據(jù)所述相似句子列表確定目標(biāo)相似句子列表;其中,所述目標(biāo)相似句子列表中的各目標(biāo)相似句子與各分句一一對應(yīng);
根據(jù)所述目標(biāo)相似句子列表中各目標(biāo)相似句子間的關(guān)系進行合并,得到對應(yīng)的相似片段。
3.如權(quán)利要求2所述的方法,其特征在于,所述根據(jù)所述相似句子列表確定目標(biāo)相似句子列表,包括:
根據(jù)所述相似句子列表中各相似句子的ID確定各相似句子所對應(yīng)的相似文檔;
并分別計算各相似文檔的向量相似比;
基于所述向量相似比確定各分句分別對應(yīng)的目標(biāo)相似句子。
4.如權(quán)利要求3所述的方法,其特征在于,所述根據(jù)所述目標(biāo)相似句子列表中各目標(biāo)相似句子間的關(guān)系進行合并,得到對應(yīng)的相似片段,包括:
基于所述目標(biāo)相似句子列表中各目標(biāo)相似句子間的關(guān)系確定待補充目標(biāo)相似句子;
將該確定的待補充目標(biāo)相似句子添加到所述目標(biāo)相似句子列表中;
并將所述目標(biāo)相似句子列表中的目標(biāo)相似句子與待補充目標(biāo)相似句子進行合并,得到對應(yīng)的相似片段。
5.如權(quán)利要求4所述的方法,其特征在于,所述基于所述目標(biāo)相似句子列表中各目標(biāo)相似句子間的關(guān)系確定待補充目標(biāo)相似句子,包括:
確定所述目標(biāo)相似句子列表中各目標(biāo)相似句子間的對應(yīng)關(guān)系;
獲取具有對應(yīng)關(guān)系的各目標(biāo)相似句子的位置信息;
基于任意兩個具有對應(yīng)關(guān)系的目標(biāo)相似句子的位置信息確定對應(yīng)的第一相似文本范圍;
并在所述第一相似文本范圍中篩選出待補充目標(biāo)相似句子。
6.如權(quán)利要求5所述的方法,其特征在于,還包括:
獲取特定目標(biāo)相似句子的位置信息,其中,所述特定目標(biāo)相似句子為與其他目標(biāo)相似句子不具有對應(yīng)關(guān)系的句子;
基于所述位置信息確定所述特定目標(biāo)相似句子與其在位置上相鄰的目標(biāo)相似句子間的第二相似文本范圍;
并在所述第二相似文本范圍中篩選出待補充目標(biāo)相似句子。
7.如權(quán)利要求5-6中任一項所述的方法,其特征在于,所述對待檢測文本進行聚類預(yù)處理,得到所述待檢測文本各分句中各分詞對應(yīng)的相似類列表,包括:
對所述待檢測文本進行文本切分,得到包含各分詞及各分詞對應(yīng)的詞頻的詞組列表;
基于所述詞組列表中的詞頻計算各分詞的TF_IDF值;
基于所述TF_IDF值確定所述分詞的相似類列表。
8.如權(quán)利要求7所述的方法,其特征在于,所述對所述待檢測文本進行文本切分,得到詞組列表,包括:
對所述待檢測文本進行文本切分,得到組成所述待檢測文本的各分段;
并對各分段進行分句處理,得到各分句;
對各分句進行拆分,得到所述詞組列表。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京萬方數(shù)據(jù)股份有限公司,未經(jīng)北京萬方數(shù)據(jù)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810546892.3/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





