[發明專利]一種數據處理方法、裝置及電子設備在審
| 申請號: | 201710498713.9 | 申請日: | 2017-06-26 |
| 公開(公告)號: | CN107341548A | 公開(公告)日: | 2017-11-10 |
| 發明(設計)人: | 劉創 | 申請(專利權)人: | 北京深度奇點科技有限公司 |
| 主分類號: | G06N3/08 | 分類號: | G06N3/08 |
| 代理公司: | 北京市廣友專利事務所有限責任公司11237 | 代理人: | 祁獻民 |
| 地址: | 100086 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據處理 方法 裝置 電子設備 | ||
技術領域
本發明涉及人工智能領域,尤其涉及基于卷積神經網絡的機器學習技術。
背景技術
五子棋是規則簡單易懂的棋類游戲,對弈雙方輪流落子,先連成五個子的一方取得勝利。雖然規則簡單,但由于巨大的搜索空間,在有限的資源和時間內模擬所有的棋局是不現實的。因此,現有的五子棋AI還未達到完美落子的水平,并且與頂尖的五子棋職業選手存在差距。傳統的五子棋算法包括蒙特卡洛樹搜索、極大極小值算法,以及alpha-beta剪枝等。近幾年,卷積神經網絡廣泛應用圖像識別等領域。它能自動提取大量圖像中的共同特征,便于分類、定位。 AlphaGo成功得將卷積神經網絡應用于圍棋,訓練得出策略網絡和估值網絡,結合傳統的蒙特卡洛樹搜索達到了頂尖職業選手的水平。對于五子棋,也有一些類似AlphaGo的現有技術,通過嘗試大量參數來確定卷積神經網絡的結構,得到了初步的五子棋策略網絡。
發明人在實現本發明的過程中發現,AlphaGo的策略網絡結構比較龐大,如果簡單得將其從圍棋移植到五子棋上必然會浪費計算資源和時間,降低蒙特卡洛搜索時的搜索速度,導致棋力下降。因此,如何針對五子棋的規則特點對策略網絡結構進行簡化是設計的關鍵,這樣才能高效地將其整合到蒙特卡洛樹搜索中。此外,五子棋與圍棋在落子特點上有顯著區別,五子棋主要是在棋盤的局部對弈,而圍棋不僅進行局部對弈,還要考慮整個棋盤上的棋子,導致會有脫先的落子。所以,如何讓五子棋策略網絡能夠學習并應對脫先這種非常規情況也是有待解決的問題。
現有的五子棋策略網絡缺乏設計思路,沒有針對五子棋的規則特點設計卷積神經網絡結構。它們通過大量嘗試結構的參數,從訓練效果中權衡考慮前向傳播時間和預測準確率,初步確定最終的策略網絡。這樣會做很多無謂的嘗試,并且沒有理論的支持。其次,現有的五子棋策略網絡缺少關于脫先的訓練樣本,導致五子棋策略網絡不能很好地學習并應對這種非常規情況。如果事先在棋盤上擺上帶有非常規情況的殘局,缺少相應訓練數據的五子棋策略并不能給出高質量的落子。此外,缺少針對無禁手的五子棋策略網絡,現有的五子棋策略網絡存在將無禁手和有禁手數據混合起來訓練的情況,這樣得出的策略網絡是不能單獨按無禁手和有禁手規則合理落子的。
因此需要一種針對五子棋策略網絡的解決方案。
發明內容
有鑒于此,本發明實施例提供了一種數據處理方法、裝置及電子設備,至少部分地解決現有技術中存在的問題。
第一方面,本發明實施例提供了一種數據處理方法,包括:
設置目標對象的數據運行規則;
選取與所述目標對象的數據運行規則匹配的包含特征平面的訓練數據集;
基于所述目標對象規則和戰術對應的感受野范圍,確定所述目標對象的策略網絡結構,使所述策略網絡結構的卷積核大小與卷積層個數的組合滿足所述感受野范圍的要求;
利用所述訓練數據集訓練所述目標對象的策略網絡。
根據本發明實施例的一種具體實現方式,目標對象的數據運行規則為無禁手運行規則或有禁手運行規則。
根據本發明實施例的一種具體實現方式,所述選取與所述目標對象的數據運行規則匹配的包含特征平面的訓練數據集,包括:
判斷所述目標對象的數據運行規則為無禁手或有禁手;
若為無禁手則選取無禁手訓練數據集;
若為有禁手則選取有禁手訓練數據集;
判斷所述訓練數據集中是否包含非常規訓練數據;
若是,則進一步獲取所述非常規訓練數據在所述訓練數據集中的比例;
當所述非常規訓練數據在所述訓練數據集中的比例小于預設閾值時,認定所述訓練數據集為合法數據集。
根據本發明實施例的一種具體實現方式,所述方法還包括:
獲取所述特征平面的尺寸b;
構建二值化、大小為b×b的特征平面;
將所述訓練數據集中的訓練數據轉化成所述特征平面。
根據本發明實施例的一種具體實現方式,所述基于所述目標對象規則和戰術對應的感受野范圍,確定所述目標對象的策略網絡結構,包括:
采用較大的卷積核和較少的卷積層來構建所述策略網絡。
根據本發明實施例的一種具體實現方式,所述基于所述目標對象規則和戰術對應的感受野范圍,確定所述目標對象的策略網絡結構,包括:
采用較小的卷積核和較多的卷積層來構建所述策略網絡。
根據本發明實施例的一種具體實現方式,所述方法還包括:
當所述訓練數據集中是否存在脫先的數據時,擴大所述感受野的范圍。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京深度奇點科技有限公司,未經北京深度奇點科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710498713.9/2.html,轉載請聲明來源鉆瓜專利網。





