[發明專利]基于多特征因子的隱馬爾科夫模型的自適應股票預測方法在審
| 申請號: | 201711488697.1 | 申請日: | 2017-12-30 |
| 公開(公告)號: | CN108241872A | 公開(公告)日: | 2018-07-03 |
| 發明(設計)人: | 蔣強榮;張軍超 | 申請(專利權)人: | 北京工業大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06Q40/04 |
| 代理公司: | 北京思海天達知識產權代理有限公司 11203 | 代理人: | 沈波 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 股票預測 隱馬爾科夫模型 特征因子 預測能力 時間點 自適應 標注 動量 歷史數據 特征屬性 特征向量 樣本數據 分類 預測 殘差 初選 篩選 股票 | ||
1.基于多特征因子的隱馬爾科夫模型的自適應股票預測方法,其特征在于:該方法包括三個步驟,
第一,通過股票樣本數據訓練HMM模型,建立基于HMM模型,通過限定模型的適用條件,以達到最優的預測效果;限定模型的適用條件為訓練樣本的長度、觀測值的預測窗口、HMM的隱狀態數、避免適用未來數據的窗口,并對這些數據參數進行最優化處理;
第二,在訓練好的HMM模型,得到最優化的限定參數后,對共53個特征因子進行適用,并各自對待預測觀測值進行價格預測,按照預測的準確率的高低排列,選取高區分能力的因子,考慮特征因子間的相關性,提取不相關的特性因子,同時考慮PCA選取較好的二次特征因子作為模型的預測特征,作為最終穩定的基于HMM的股指預測模型特征;
第三,通過模型訓練得到收斂的HMM參數,利用已得到的模型計算待觀測值序列標記為各個隱狀態的可能,并標記為最可能的隱狀態序列及相應的似然值;然后利用HMM模型,計算待預測的觀測值序列最可能的隱狀態序列及似然值,并通過在時間和似然函數值作為最相近歷史點的尋找依據,基于時間的權值分配使用:wm=exp(1/(i-m+1)),wm為不同相近歷史點和后一日間升降幅度所占的權值,i為當前帶預測天的前一日序號,m為相近歷史天的序號;L函數使用歐氏距離公式配備權值,從而得到訓練樣本天后一日的價格漲跌幅度,通過此幅度計算得帶預測日和前一日的漲跌幅度,進一步得到待預測日的股價趨勢分類。
2.根據權利要求1所述的基于多特征因子的隱馬爾科夫模型的自適應股票預測方法,其特征在于:隱馬爾可夫模型是統計模型,是在探究一個馬爾可夫過程與背后隱藏狀態的關系過程中建立的模型,即它用來描述一個含有隱含未知參數的馬爾可夫過程;HMM根據使用背景不同分為離散型和連續型,典型的離散型是隱狀態和觀測值得概率是一一對應,而連續性HMM的隱狀態和觀測值的概率是通過隱狀態的概率分布得到的;一個隱馬爾科夫模型通過一個三元組表示:(π,A,B),完整表示為:(N,M,π,A,B),其中:
N:隱狀態數;
M:一個隱狀態對應的觀測值數;
Pi:隱狀態的初始概率分布π=P{q1=Sj},sum(π)=1;
A:隱狀態間的轉移概率分布;Aij=P{qt+1=Sj|qt=Si},1≤i,j≤N.sum(Ai)=1;
B:某隱狀態對應觀測值的概率分布;Bij=P{ot|qt=Si},1≤i≤M,1≤j≤N;
離散型觀測概率分布:bjk=bj(ot)=P(ot=k|st=j),1≤k≤U;
連續型觀測概率分布:bj(ot)=∑wjk·bjk(ot),j=1...N,1≤k≤M;
連續性一般觀測值的概率分布使用混合高斯函數近似擬合,∑wjk=1,j=1...N,k=1...M,如果觀測序列為多維的,則:bjk=bj(ot)=N(O,Ujk,∑jk);
其中:Ujk=E[O(t)|Q(t)=j,M(t)=k];∑jk=Cov[O(t)|Q(t)=j,M(t)=k]
在尋找歷史點時,涉及到要尋找的歷史區間,判別相似歷史點的方法,歷史點的標注時,需要解決類別數的計算方法,在選擇特征時,使用多維的股票指標;
通過訓練學習將數據集長度和預測窗口區間調整到最優值,同時保證相近歷史點的精準和特征多樣性,并采用狀態數的自學習,實現自動更新模型的方法;
在一定歷史點區間,判別相似歷史點的方法,歷史點的標注時,類別數的計算方法,在HMM的基礎上實現股指的預測;本發明也具有一定的實際應用價值:一是作為機器學習算法的實際應用平臺輔助教學;二是在當前機器學習的領域,實現股票預測,從而使用HMM來處理語音信號;三是由于使用硬件成本資源較少以及計算簡單快捷,易于實現。
3.根據權利要求1所述的基于多特征因子的隱馬爾科夫模型的自適應股票預測方法,其特征在于:
S1數據準備:
步驟1:通過財經網、Scapy、指標計算公式搜集數據;
步驟2:將這些搜集數據進行歸一化規整等預處理;
步驟3:對預處理的搜集股票數據劃分為訓練數據集和測試數據集;
S2構建模型參數:
步驟1:將S1中的步驟3的訓練數據集在因子情況下,運用python的hmmlearn.hmm,學習hmm算法的內部參數,此算法是本模型的核心算法:
(1)輸入特征向量X是由55為指標最終確定為12為S3特征選擇;
(2)輸出為每個樣本點的類別標記,范圍是在隱狀態數目N內S2的步驟4確定由解碼算法Viterbi標注得到;
(3)hmm的轉移概率矩陣A=[aij],1≤i,j≤N,定義了某交易日i和后相鄰交易日j之間的隱狀態轉移的概率,利用了1階馬爾可夫性原理;
(4)hmm觀察概率分布B=Bj(k),1≤j≤N,此矩陣定義了某個交易日的隱狀態被標記為j時,觀測到的特征向量是為k向量的概;
(5)在S2步驟1中涉及到的hmm算法中的參數,是通過學習算法baum-welch多次的迭代學習,收斂取得最優的時得到;
步驟2:首先確定在總數據集中,劃分的每批次訓練樣本集的長度,在各種值下取得最優;
步驟3:在歷史數據區間確定后,調整預測窗口的長度;
步驟4:本次運行的HMM的隱狀態的數目的確定是有程序自學習得到的,是通過OEHS準則,運行ncomponents.py獲取最穩定的隱狀態值,作為hmm的隱狀態數目N;
S3特征選擇:
步驟1:通過S2部分取得的模型適用最優參數后,同時利用過濾式的特征過程方法,得到各個因子預測能力的排序;
步驟2:同時使用PCA和pearson系數,過濾出預測結果較好的不相關的因子;
步驟3:由S3的步驟1,2得到55個屬性指標中的12維作為hmm算法的輸入特征,即特征向量;
S4模型適用:
步驟1:通過S2,S3部分,構建模型中涉及到的適用參數和hmm算法的參數的最優值:單批次訓練數據樣本長度、預測區間長度、尋找的相似歷史點數、隱狀態的數N、12維輸入特征向量;在模型構建完整的基礎后,將歷史時間點和待測日計算出似然值且標記分類;
步驟2:通過距待預測日的距離和似然函數的距離程序,篩選出最相近的歷史點,通過加權平均得到漲跌幅度,從而得到待測日的走勢分類;
步驟3:通過在測試集上運行,得出不同情況的模型的結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工業大學,未經北京工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711488697.1/1.html,轉載請聲明來源鉆瓜專利網。





