[發明專利]一種基于混合特征的中文文檔基因提取方法有效
| 申請號: | 201610434439.4 | 申請日: | 2016-06-19 |
| 公開(公告)號: | CN107526719B | 公開(公告)日: | 2020-10-09 |
| 發明(設計)人: | 李巖 | 申請(專利權)人: | 北京云量數盟科技有限公司 |
| 主分類號: | G06F40/205 | 分類號: | G06F40/205;G06F40/279;G06F40/194 |
| 代理公司: | 北京方安思達知識產權代理有限公司 11472 | 代理人: | 陳琳琳;楊青 |
| 地址: | 100012 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 混合 特征 中文 文檔 基因 提取 方法 | ||
本發明涉及一種基于混合特征的中文文檔基因提取方法。該方法針對中文文檔格式,面向文檔逃避檢查場景,提出了文檔載體特征、屬性特征、內容特征融合的混合特征,首次將順序關系引入內容特征,作為內容特征的有效補充,并最終形成一種相對層次清晰的文檔基因表征。基于該基因表征,進一步提出了基于短語特征提取的順序關系特征提取方法,并對混合特征中的其他特征提出了可操作的特征提取方法。基于本發明混合特征提取的文檔基因,對降低文檔分析的時間復雜度、防逃避檢查具有重要幫助作用,可實現性和實用性較強。
技術領域
本發明屬于自然語言處理、格式文檔處理和特征選擇與提取領域,具體涉及一種基于混合特征的中文文檔基因提取方法。
背景技術
互聯網高速、海量的數據中包含著錯綜復雜、種類繁多的文檔。同一個文檔在互聯網傳播的過程中,會存在對文檔內容進行增刪等部分修改的情況,也就產生了針對相同內容的文檔變種。這對文檔的匹配、溯源和傳播分析等問題都造成了一定程度的障礙和挑戰。
文檔基因是解決上述問題的一個重要技術手段,它主要指通過對文檔抽取若干特征并進行有效組合,形成為文檔本質刻畫的相對唯一的表征。目前對文檔基因的特征分類,主要有幾種:第一類是文檔載體特征,主要指文件名稱、文件大小、文件創建時間、文件修改時間和文件哈希值(包括MD5、SHA1、SHA265和SHA512)等特征;第二類是文檔屬性特征,主要指固有屬性和統計屬性,固有屬性包括文檔類型、文檔標題、文檔類別、文檔備注、文檔作者、文檔修訂號和文檔最后一次保存者,統計屬性包括文檔字數、文檔句數和文檔段數;第三類是文檔內容特征,主要是指摘要、分詞、關鍵詞、短語、命名實體、依存句法和局部敏感哈希(包括MinHash和SimHash)。
由于具體應用的不同,目前存在的文檔基因特征或是單獨使用上述單獨的特征類,或是融合幾個類的特征,但是均沒有在內容特征中引入對段落和句子順序關系的考慮。然而在部分實際應用中,特別在通過調整段落或者句子順序逃避文檔檢查的場景中,以上順序關系是可以有效識別與區分的重要特征。
因此,本發明針對中文文檔格式(不考慮圖片),面向文檔逃避檢查場景,提出了文檔載體特征、屬性特征、內容特征融合的混合特征,特別是首次將順序關系引入內容特征,作為內容特征的有效補充,并最終形成一種相對層次清晰的文檔特征體系。其中,順序關系特征的提取方法是在成熟的短語提取方法基礎上定義和提出的,具有可操作性。基于本發明混合特征提取的文檔基因,對降低文檔分析的時間復雜度、防逃避檢查具有重要幫助作用,可實現性和實用性較強。
發明內容
本發明針對中文文檔格式(不考慮圖片),面向文檔逃避檢查場景,提出了文檔載體特征、屬性特征、內容特征融合的混合特征,特別是首次將順序關系引入內容特征,作為內容特征的有效補充,并最終形成一種相對層次清晰的文檔特征體系。其中,順序關系特征的提取方法是在成熟的短語提取方法基礎上定義和提出的,具有可操作性。基于本發明混合特征提取的文檔基因,對降低文檔分析的時間復雜度、防逃避檢查具有重要幫助作用,可實現性和實用性較強。
本發明的內容主要包括以下幾個方面:
第一,在文檔特征提取上,本發明提出了基于順序關系的文檔內容特征表征,并進一步提出了由文檔載體特征、文檔屬性特征、文檔內容特征的混合特征組成的文檔基因表征。文檔載體特征包括文件名稱、文件大小、文件創建時間、文件修改時間和文件哈希值(包括MD5、SHA1、SHA265和SHA512)特征。文檔屬性特征包括固有屬性和統計屬性,固有屬性包括文檔類型、文檔標題、文檔類別、文檔備注、文檔作者、文檔修訂號和文檔最后一次保存者,統計屬性包括文檔字數、文檔句數和文檔段數。文檔內容特征包括語義要素和順序關系,語義要素包括摘要、分詞、短語、關鍵詞、命名實體、依存句法和局部敏感哈希(包括MinHash和SimHash),順序關系包括段間順序和句間順序。
第二,提出了基于短語特征提取的順序關系特征提取方法,并進一步對混合特征中的其他特征提出了具體的特征提取方法,使得所有特征提取方法可實施可操作。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京云量數盟科技有限公司,未經北京云量數盟科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610434439.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:使用低精度格式的張量處理
- 下一篇:意思生成方法、意思生成裝置以及程序





