[發明專利]一種基于混合特征的中文文檔基因提取方法有效
| 申請號: | 201610434439.4 | 申請日: | 2016-06-19 |
| 公開(公告)號: | CN107526719B | 公開(公告)日: | 2020-10-09 |
| 發明(設計)人: | 李巖 | 申請(專利權)人: | 北京云量數盟科技有限公司 |
| 主分類號: | G06F40/205 | 分類號: | G06F40/205;G06F40/279;G06F40/194 |
| 代理公司: | 北京方安思達知識產權代理有限公司 11472 | 代理人: | 陳琳琳;楊青 |
| 地址: | 100012 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 混合 特征 中文 文檔 基因 提取 方法 | ||
1.一種基于混合特征的中文文檔基因提取方法,其步驟包括:
定義由文檔載體特征、文檔屬性特征、文檔內容特征的28種混合特征組成的文檔基因表征;對混合特征中的每個特征執行具體的特征提取算法;
文檔載體特征包括文件名稱、文件大小、文件創建時間、文件修改時間和文件哈希值特征;文件哈希值包括MD5、SHA1、SHA265和SHA512;
文檔屬性特征包括固有屬性和統計屬性,固有屬性包括文檔類型、文檔標題、文檔類別、文檔備注、文檔作者、文檔修訂號和文檔最后一次保存者,統計屬性包括文檔字數、文檔句數和文檔段數;
文檔內容特征包括語義要素和順序關系,語義要素包括摘要、分詞、關鍵詞、命名實體識別、依存句法分析和局部敏感哈希,局部敏感哈希包括MinHash和SimHash,順序關系包括段間順序和句間順序;
計算順序關系特征的計算步驟包括:
使用成熟的短語提取方法,對文檔進行短語提取,形成一個文檔短語集合;對文檔進行分段和分句,形成段落集合和句子集合;在每個段落和每個句子中,查找提取短語,并按照短語在段落或者句子中出現的順序,為每個段落和句子形成一個短語順序組合;去掉短語順序組合長度為0的段落和句子,剩下的段落和句子稱之為關鍵段和關鍵句;使用短語順序組合來標識對應的關鍵段或者對應的關鍵句;通過關鍵段或者關鍵句在文檔中的出現的順序,賦予對應的短語順序組合相應的順序數值,此數值越小代表關鍵段或者關鍵句在文檔的位置越靠前;通過短語順序組合和順序數值形成關鍵段落或者關鍵句子的順序關系。
2.如權利要求1所述的方法,其特征在于:生成中文文檔基因的計算步驟包括:
28種具體特征提取與計算;順序組成混合特征生成中文文檔基因。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京云量數盟科技有限公司,未經北京云量數盟科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610434439.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:使用低精度格式的張量處理
- 下一篇:意思生成方法、意思生成裝置以及程序





