[發明專利]一種基于多模態校驗算法檔案歸檔相似度計算方法在審
| 申請號: | 202210732847.3 | 申請日: | 2022-06-27 |
| 公開(公告)號: | CN115203506A | 公開(公告)日: | 2022-10-18 |
| 發明(設計)人: | 李金訊;王庭軍;林樹鴻;顏清 | 申請(專利權)人: | 海南電網有限責任公司信息通信分公司 |
| 主分類號: | G06F16/93 | 分類號: | G06F16/93;G06F16/35;G06F40/194;G06F16/11;G06N3/04 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 顏希文 |
| 地址: | 570100 海南省海口市美蘭區海府路*** | 國省代碼: | 海南;46 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 多模態 校驗 算法 檔案 歸檔 相似 計算方法 | ||
1.一種基于多模態校驗算法檔案歸檔相似度計算方法,其特征在于,所述方法包括以下步驟:
S1、通過構建Skip-gram模型,并且使用Skip-gram模型對輸入文檔的后綴進行文檔類別判斷;
S2、在Skip-gram模型中對不同后綴文檔進行建檔歸類;
S3、在Skip-gram模型中設置文本獲取器,通過文本獲取器獲取不同類型文檔的文本內容,并且將不同類型文檔的文本內容進行詞向量表示;
S4、通過在Skip-gram模型中設置不同類型的文檔的文本范本詞向量與文本獲取器獲取到的不同類型的文本內容詞向量進行對比;
S5、通過文本內容詞向量與文本范本詞向量的對比結果,Skip-gram模型將不符合文本范本規范的文檔進行標注預警。
2.根據權利要求1所述的一種基于多模態校驗算法檔案歸檔相似度計算方法,其特征在于,在步驟S1中,輸入文檔的后綴包括doc、docx和txt。
3.根據權利要求2所述的一種基于多模態校驗算法檔案歸檔相似度計算方法,其特征在于,在步驟S2中,Skip-gram模型中對不同后綴文檔進行建檔歸類具體為:
通過Skip-gram模型將輸入文檔的后綴進行截取,并且分別建立起doc后綴類型文本獲取器、docx后綴類型文本獲取器和txt后綴類型文本獲取器。
4.根據權利要求1所述的一種基于多模態校驗算法檔案歸檔相似度計算方法,其特征在于,在步驟S3中,將文本內容進行詞向量表示具體為:
通過doc后綴類型文本獲取器、docx后綴類型文本獲取器和txt后綴類型文本獲取器將不同類型文檔的文本內容中所有的詞表示成一個N維向量,其中N為詞匯表單單詞的總數,在N維向量中,每個詞都將與之對應的維度置為1,其余維度的值均為0。
5.根據權利要求4所述的一種基于多模態校驗算法檔案歸檔相似度計算方法,其特征在于,在步驟S4中,通過在Skip-gram模型中設置不同類型的文檔的文本范本詞向量與文本獲取器獲取到的不同類型的文本內容詞向量進行對比具體為:
將設置不同類型的文檔的文本范本詞向量進行概率設定,N維向量中通過Softmax激活函數計算doc后綴類型文本獲取器、docx后綴類型文本獲取器和txt后綴類型文本獲取器獲取到文本內容文檔中每一個單詞的生成概率,并且通過doc后綴類型文本獲取器、docx后綴類型文本獲取器和txt后綴類型文本獲取器獲取到文本內容文檔中每一個單詞的生成概率與設置不同類型的文檔的文本范本詞向量概率進行對比。
6.根據權利要求5所述的一種基于多模態校驗算法檔案歸檔相似度計算方法,其特征在于,在步驟S5中、通過文本內容詞向量與文本范本詞向量的對比結果,Skip-gram模型將不符合文本范本規范的文檔進行標注預警具體為:
根據不同類型文本獲取器獲取到文本內容文檔中每一個單詞的生成概率與設置不同類型的文檔的文本范本詞向量概率的對比結果,如果對比結果不符合規范標準,則判定該類型的文檔不規范,并且進行不規范類型文檔的標注預警。
7.根據權利要求1所述的一種基于多模態校驗算法檔案歸檔相似度計算方法,其特征在于,對于不規范類型文檔的標注預警通過檢測報告的形式進行展示。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于海南電網有限責任公司信息通信分公司,未經海南電網有限責任公司信息通信分公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210732847.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種地基樁輔助設備及地基樁施工方法
- 下一篇:預制菜加熱箱及其控制方法





