[發明專利]一種基于離散化布谷鳥搜索算法的偽標記數據生成方法有效
| 申請號: | 202110364412.3 | 申請日: | 2021-04-05 |
| 公開(公告)號: | CN113094390B | 公開(公告)日: | 2022-04-19 |
| 發明(設計)人: | 張新;程知 | 申請(專利權)人: | 合肥學院 |
| 主分類號: | G06F16/2453 | 分類號: | G06F16/2453;G06N3/00 |
| 代理公司: | 合肥中博知信知識產權代理有限公司 34142 | 代理人: | 徐俊杰 |
| 地址: | 230000 安徽*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 離散 布谷鳥 搜索 算法 標記 數據 生成 方法 | ||
1.一種基于離散化布谷鳥搜索算法的偽標記數據生成方法,其特征在于,包括以下步驟:
S101、對于每一個查詢采用池化技術獲取少量的標記數據;
S102、對每一個查詢-文檔對中,特征向量空間的每一維的特征進行歸一化;
S103、對查詢-文檔對的特征種類進行分類,同時計算每一類特征向量到原點的歐式距離,并將此距離作為鳥窩的特征維度變量;
S104、對步驟S103中得到的鳥窩的特征維度變量進行離散化,針對每一維特征變量所在的區間范圍,均等劃分為N個區間,在后續搜索過程中若鳥窩特征點落在某個區間范圍內,則認為該區間中所有的特征值均是該鳥窩匹配的特征值;
S105、針對每一個查詢,應用基本檢索模型BM25得到的初始結果列表的前100個文檔,作為每一個查詢的候選未標記數據集;
S106、在候選未標記數據集中隨機選擇M個特征向量作為初始鳥窩位置;
對每個鳥窩按照公式(1)進行相似度度量,保存初始最優解;
其中,αti,βti,γti是少量標記文檔特征向量空間的特征值,αsi,βsi,γsi是候選文檔特征向量空間的特征值;t為迭代次數,f(t)的值代表每個鳥窩和標記文檔的特征向量的相似度數值;
其中,Xi代表鳥窩在不同時刻的位置,v服從標準正態分布,u服從標準差為α的正態分布,Xopt代表當前的最佳鳥窩位置,t為迭代次數;α是步長控制量,β是萊維飛行參數;
設計自適應飛行步長調整算法,每個鳥窩根據公式(2)計算產生新的解,判斷新鳥窩是否超過飛行范圍,對于未超過飛行范圍的鳥窩,則找到候選文檔特征向量庫中該鳥窩位置范圍內的所有特征向量,并用公式(1)測試,找到當前最優的文檔特征向量,如果當前最優的文檔特征優于全局最優特征向量,則替換全局最優文檔特征向量;對于超過飛行范圍的鳥窩,則返回到步驟S106,即隨機選擇初始鳥窩;
其中,自適應飛行距離調整算法可以根據當前鳥窩位置和當前全局最優鳥窩位置的距離進行調整;如果當前鳥窩位置距離全局最優位置距離較遠時,則提高自適應調整系數,增加飛行步長;若當前鳥窩位置距離全局最優位置較近時,則降低自適應系數,減少飛行步長;
S107、產生一個隨機數a,如果a大于外來蛋被發現的概率P,則隨機改變生成新鳥窩,再利用公式(1)比較新產生的解與全局最優位置的相似度,選擇最優鳥窩值作為當前全局最優位置;
S108、如果在迭代過程中鳥窩位置收斂或者達到預設的最大迭代次數,則搜索停止;
最后將每次迭代的全局最優位置根據公式(1)得到的相似度,按照從小到大的排序作為最終檢索結果;反之,則按步驟S106進行下一輪搜索。
2.根據權利要求1所述的方法,其中,步驟S102中,所述歸一化的方法為最大-最小值歸一化方法,歸一化之后各維度的特征值在[0,1]范圍之內。
3.根據權利要求1所述的方法,其中,步驟S103中,特征劃分為9大類,分別為基于TF的、基于IDF的、基于TF*IDF的、基于DL的、基于BM25的、基于LMIR.ABS的、基于LMIR.DIR的、基于LMIR.JM的和基于PageRank的。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于合肥學院,未經合肥學院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110364412.3/1.html,轉載請聲明來源鉆瓜專利網。





