[發明專利]一種基于數值-字符串混合編碼的中文文檔基因量化與表征方法有效
| 申請號: | 201610407743.X | 申請日: | 2016-06-12 |
| 公開(公告)號: | CN107491423B | 公開(公告)日: | 2021-03-30 |
| 發明(設計)人: | 李巖 | 申請(專利權)人: | 北京云量數盟科技有限公司 |
| 主分類號: | G06F40/126 | 分類號: | G06F40/126 |
| 代理公司: | 北京方安思達知識產權代理有限公司 11472 | 代理人: | 陳琳琳;楊青 |
| 地址: | 100012 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 數值 字符串 混合 編碼 中文 文檔 基因 量化 表征 方法 | ||
1.一種基于數值-字符串混合編碼的中文文檔基因量化與表征方法,其步驟包括:
步驟1)提取待處理文檔的28種混合特征并生成文檔基因向量;
步驟2)獲取文檔基因向量中的一個文檔特征;
步驟3)提取該文檔特征的一個特征要素;
步驟4)判斷這個特征要素是否為數值型,如果為是,則對這個文檔特征要素按照數值型編碼方式編碼,進入步驟5);否則,對這個文檔特征要素按照字符串向量型編碼方式編碼,進入步驟5);
步驟5)判斷這個特征要素是否為該文檔特征最后的特征要素,如果為否,則加入文檔特征要素之間的分隔符編碼并且跳轉到步驟3),否則,進入步驟6);特征要素之間的分隔符的ASCII表示“,”,十六進制編碼為2C;
步驟6)將該文檔特征的所有特征要素的編碼和特征要素之間的分隔符編碼組合形成這個文檔特征的編碼;
步驟7)判斷該文檔特征是否為文檔基因向量最后的文檔特征,如果為否,則加入文檔特征之間的分隔符編碼并且跳轉到步驟2),否則,進入步驟8);文檔特征間的分隔符的ASCII表示為“%”,十六進制編碼為25;
步驟8)將該文檔特征的所有特征的編碼和文檔特征之間的分隔符編碼組合形成這個文檔基因的編碼;
文檔基因的28種混合特征分為數值型特征和字符串向量型特征,其中數值型類型的文檔特征包括文件大小、文件創建時間、文件修改時間、文檔字數、文檔句數和文檔段數;字符串向量類型的文檔特征包括文件名稱,MD5,SHA1,SHA256,SHA512,文檔類型,文檔標題,文檔類別,文檔備注,文檔作者,文檔修訂號,文檔最后一次保存者,摘要,分詞,關鍵詞,短語,命名實體,依存句法,MinHash,SimHash,段間順序和句間順序;
所述步驟1)具體包括:
(1)接收需要處理的文檔文件;
(2)獲取文檔文件的類型,判斷是否可以處理,如果不可以處理,跳轉到步驟(20);
(3)對文檔文件進行預處理,解決文檔字符編碼問題;
(4)獲取文件名稱、文件大小、文件創建時間、文件修改時間這些文件基本的特征屬性;
(5)使用MD5、SHA1、SHA256和SHA512哈希算法計算文檔文件的哈希值;
(6)匯總文件名稱、文件大小、文件創建時間、文件修改時間和文件哈希值,綜合形成文檔載體特征;
(7)讀取文檔獲取文檔的附加信息,包括文檔類型、文檔標題、文檔類別、文檔備注、文檔作者、文檔修訂號和文檔最后一次保存者這些文檔固有屬性信息;
(8)讀取文檔統計文檔內容的信息,包括統計文檔字數、文檔句數和文檔段數;
(9)匯總固有屬性和統計屬性,綜合形成文檔屬性特征;
(10)使用N-最短路徑算法來進行獲取分詞,得到文檔的分詞結果;
(11)使用步驟(10)的分詞結果,通過TextRank算法獲取摘要;
(12)使用步驟(10)的分詞結果,通過TextRank算法獲取關鍵詞;
(13)使用步驟(10)的分詞結果,通過基于互信息和左右信息熵提取識別短語;
(14)使用步驟(10)的分詞結果,使用基于層疊隱馬爾可夫模型的方法,提取命名實體;
(15)對文檔進行基于CRF序列標注的中文依存句法分析;
(16)使用MinHash和SimHash算法分別計算文檔MinHash值和SimHash值,組合形成局部敏感哈希;
(17)使用步驟(13)的短語結果,使用短語順序組來標識一個段落或者一個句子,按照出現順序為每個段落短語順序組和句子短語順序組賦予一個順序值;使用段落短語順序組和順序值來表示段間順序;使用句子短語順序組和順序值來表示句間順序;
(18)匯總文檔語義要素和順序關系形成文檔內容特征;文檔語義要素包括分詞、摘要、關鍵詞、短語、命名實體、依存句法和局部敏感哈希值;順序關系包括段間順序和句間順序;
(19)將獲取到的文檔載體特征、文檔屬性特征和文檔內容特征進行組合,形成文檔基因向量;
(20)流程結束。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京云量數盟科技有限公司,未經北京云量數盟科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610407743.X/1.html,轉載請聲明來源鉆瓜專利網。





