[發明專利]一種基于TF-IDF思想及神經網絡的相似性處理方法有效
| 申請號: | 201811114655.6 | 申請日: | 2018-09-25 |
| 公開(公告)號: | CN109344405B | 公開(公告)日: | 2023-04-14 |
| 發明(設計)人: | 馬佳;支含緒;鄧森洋 | 申請(專利權)人: | 艾凱克斯(嘉興)信息科技有限公司 |
| 主分類號: | G06F40/242 | 分類號: | G06F40/242;G06F40/216;G06F40/194;G06N3/0475 |
| 代理公司: | 浙江杭州金通專利事務所有限公司 33100 | 代理人: | 王麗丹 |
| 地址: | 314000 浙江省嘉興市南湖區城區*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 tf idf 思想 神經網絡 相似性 處理 方法 | ||
1.一種基于TF-IDF思想及神經網絡的相似性處理方法,其特征在于,包含以下步驟:
A、創建元素字典;
B、依據TF-IDF思想數值化樣本集中所有樣本;
C、矩陣化樣本集中所有樣本;
D、搭建神經網絡;
E、訓練神經網絡;
F、計算某樣本與所有樣本間的相似性;
所述步驟A具體是:獲取當前需計算相似性物體的所有樣本集,將樣本集中所有內容中的元素子集進行聚合處理,以去除重復的元素,利用聚合后的元素,將其歸入元素字典庫;
所述步驟D具體是:通過步驟A中的元素字典中元素的個數,確定神經網絡的輸入層神經元個數N;通過樣本集中樣本的個數,確定神經網絡中的輸出層神經元的個數M;隱含層的層數與每個隱含層的神經元個數,根據樣本訓練的擬合程度進行確定,并逐漸逼近最優的隱含層層數與每個隱含層的神經元個數;
所述步驟E具體是:利用步驟D中的神經網絡與步驟C中矩陣化后的樣本集,對神經網絡進行訓練。
2.根據權利要求1所述的一種基于TF-IDF思想及神經網絡的相似性處理方法,其特征在于,所述步驟B具體是:依據TF-IDF思想,對樣本集中的所有樣本進行數值化處理。
3.根據權利要求1所述的一種基于TF-IDF思想及神經網絡的相似性處理方法,其特征在于,所述步驟C具體是:將步驟B中的樣本,轉化為一個具有N×M維輸入矩陣,以及一個M×M的稀疏輸出矩陣。
4.根據權利要求1-3任一所述的一種基于TF-IDF思想及神經網絡的相似性處理方法,其特征在于,所述步驟F具體是:對于待計算的樣本,基于TF-IDF思想對其進行向量化處理,利用步驟E中訓練后的神經網絡進行推理,通過一次計算,快速得到當前樣本與所有已知樣本間的相似性。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于艾凱克斯(嘉興)信息科技有限公司,未經艾凱克斯(嘉興)信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811114655.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:情境感知的雙重注意力自然語言推理方法
- 下一篇:詞性標注方法、裝置和電子設備





