[發(fā)明專利]一種基于TF-IDF思想及神經(jīng)網(wǎng)絡(luò)的相似性處理方法有效
| 申請?zhí)枺?/td> | 201811114655.6 | 申請日: | 2018-09-25 |
| 公開(公告)號: | CN109344405B | 公開(公告)日: | 2023-04-14 |
| 發(fā)明(設(shè)計)人: | 馬佳;支含緒;鄧森洋 | 申請(專利權(quán))人: | 艾凱克斯(嘉興)信息科技有限公司 |
| 主分類號: | G06F40/242 | 分類號: | G06F40/242;G06F40/216;G06F40/194;G06N3/0475 |
| 代理公司: | 浙江杭州金通專利事務(wù)所有限公司 33100 | 代理人: | 王麗丹 |
| 地址: | 314000 浙江省嘉興市南湖區(qū)城區(qū)*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 tf idf 思想 神經(jīng)網(wǎng)絡(luò) 相似性 處理 方法 | ||
1.一種基于TF-IDF思想及神經(jīng)網(wǎng)絡(luò)的相似性處理方法,其特征在于,包含以下步驟:
A、創(chuàng)建元素字典;
B、依據(jù)TF-IDF思想數(shù)值化樣本集中所有樣本;
C、矩陣化樣本集中所有樣本;
D、搭建神經(jīng)網(wǎng)絡(luò);
E、訓(xùn)練神經(jīng)網(wǎng)絡(luò);
F、計算某樣本與所有樣本間的相似性;
所述步驟A具體是:獲取當(dāng)前需計算相似性物體的所有樣本集,將樣本集中所有內(nèi)容中的元素子集進行聚合處理,以去除重復(fù)的元素,利用聚合后的元素,將其歸入元素字典庫;
所述步驟D具體是:通過步驟A中的元素字典中元素的個數(shù),確定神經(jīng)網(wǎng)絡(luò)的輸入層神經(jīng)元個數(shù)N;通過樣本集中樣本的個數(shù),確定神經(jīng)網(wǎng)絡(luò)中的輸出層神經(jīng)元的個數(shù)M;隱含層的層數(shù)與每個隱含層的神經(jīng)元個數(shù),根據(jù)樣本訓(xùn)練的擬合程度進行確定,并逐漸逼近最優(yōu)的隱含層層數(shù)與每個隱含層的神經(jīng)元個數(shù);
所述步驟E具體是:利用步驟D中的神經(jīng)網(wǎng)絡(luò)與步驟C中矩陣化后的樣本集,對神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練。
2.根據(jù)權(quán)利要求1所述的一種基于TF-IDF思想及神經(jīng)網(wǎng)絡(luò)的相似性處理方法,其特征在于,所述步驟B具體是:依據(jù)TF-IDF思想,對樣本集中的所有樣本進行數(shù)值化處理。
3.根據(jù)權(quán)利要求1所述的一種基于TF-IDF思想及神經(jīng)網(wǎng)絡(luò)的相似性處理方法,其特征在于,所述步驟C具體是:將步驟B中的樣本,轉(zhuǎn)化為一個具有N×M維輸入矩陣,以及一個M×M的稀疏輸出矩陣。
4.根據(jù)權(quán)利要求1-3任一所述的一種基于TF-IDF思想及神經(jīng)網(wǎng)絡(luò)的相似性處理方法,其特征在于,所述步驟F具體是:對于待計算的樣本,基于TF-IDF思想對其進行向量化處理,利用步驟E中訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)進行推理,通過一次計算,快速得到當(dāng)前樣本與所有已知樣本間的相似性。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于艾凱克斯(嘉興)信息科技有限公司,未經(jīng)艾凱克斯(嘉興)信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811114655.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





