[發明專利]一種基于TF-IDF思想及神經網絡的相似性處理方法有效
| 申請號: | 201811114655.6 | 申請日: | 2018-09-25 |
| 公開(公告)號: | CN109344405B | 公開(公告)日: | 2023-04-14 |
| 發明(設計)人: | 馬佳;支含緒;鄧森洋 | 申請(專利權)人: | 艾凱克斯(嘉興)信息科技有限公司 |
| 主分類號: | G06F40/242 | 分類號: | G06F40/242;G06F40/216;G06F40/194;G06N3/0475 |
| 代理公司: | 浙江杭州金通專利事務所有限公司 33100 | 代理人: | 王麗丹 |
| 地址: | 314000 浙江省嘉興市南湖區城區*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 tf idf 思想 神經網絡 相似性 處理 方法 | ||
本發明公開了一種基于TF?IDF思想及神經網絡的相似性處理方法,包含以下步驟:A、創建元素字典;B、依據TF?IDF思想數值化樣本集中所有樣本;C、矩陣化樣本集中所有樣本;D、搭建神經網絡;E、計算某樣本與所有樣本間的相似性。本發明基于TF?IDF思想及神經網絡的相似性處理方法可以在比較某事物與N個事物相似性時,只需通過極短的時間計算1次,即可得到該事物與N個事物的相似性,極大的提升了計算某事物與N個事物計算相似性的效率。
技術領域
本發明涉及人工智能領域,具體是一種基于TF-IDF思想及神經網絡的相似性處理方法。
背景技術
目前,采用在采用數學方式計算事物間相似性時,往往需要對相關事物進行數值化處理。
TF-IDF,意為Term?Frequency-Inverse?Document?Frequency,即詞頻-逆文本頻率,其理論依據是信息論中原理,目前主要是用于對文章(Document)中文字(Term)的內容進行數值化處理的一種方式,而基于TF-IDF思想,可以對很多事物(主要其為某事物由子元素組成的情況)進行類似的處理。
依據TF-IDF思想,可以派生出較多的類似想法如PF-IPF(Part-Frequncey-Inverse?Product?Frequency,零件頻率-逆產品頻率),FF-IPF(Feature?Frequency-Inverse?Part?Frequency,特征頻率-逆零件頻率)等等。
對相關事物進行數值化處理后,就可以通過基于特征向量的相關算法(比如歐式距離、余弦定理、皮爾遜相關性、斯皮爾曼等級相關系數等)對不同事物之間進行相似性計算。
然而通過這種方式,只能兩兩事物之間的相似性,如果需要計算某事物與N個事物之間的相似性,就需要計算其與每個事物之間的相似性,這樣在計算相似性時的計算量就會非常大,這樣就會造成大量的資源浪費,以及等待時間過長。
發明內容
本發明的目的在于提供一種基于TF-IDF思想及神經網絡的相似性處理方法,以解決上述背景技術中提出的問題。
為實現上述目的,本發明提供如下技術方案:
一種基于TF-IDF思想及神經網絡的相似性處理方法,包含以下步驟:
A、創建元素字典;
B、依據TF-IDF思想數值化樣本集中所有樣本;
C、矩陣化樣本集中所有樣本;
D、搭建神經網絡;
E、訓練神經網絡;
F、計算某樣本與所有樣本間的相似性。
作為本發明的進一步技術方案:所述步驟A具體是:獲取當前需計算相似性物體的所有樣本集,將樣本集中所有內容中的元素子集進行聚合處理,以去除重復的元素。利用聚合后的元素,將其歸入元素字典庫。
作為本發明的進一步技術方案:所述步驟B具體是:依據TF-IDF思想,對樣本集中的所有樣本進行數值化處理。
作為本發明的進一步技術方案:所述步驟C具體是:將步驟B中的樣本,轉化為一個具有N×M維輸入矩陣,以及一個M×M的稀疏輸出矩陣。
作為本發明的進一步技術方案:所述步驟D具體是:通過步驟A中的元素字典中元素的個數,確定神經網絡的輸入層神經元個數N;通過樣本集中樣本的個數,確定神經網絡中的輸出層神經元的個數M;隱含層的層數與每個隱含層的神經元個數,根據樣本訓練的擬合程度進行確定,并逐漸逼近最優的隱含層層數與每個隱含層的神經元個數。
作為本發明的進一步技術方案:所述步驟E具體是:利用步驟D中的神經網絡與步驟C中矩陣化后的樣本集,對神經網絡進行訓練。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于艾凱克斯(嘉興)信息科技有限公司,未經艾凱克斯(嘉興)信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811114655.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:情境感知的雙重注意力自然語言推理方法
- 下一篇:詞性標注方法、裝置和電子設備





