[發(fā)明專利]一種并行矩陣乘算法的加固方法有效
| 申請?zhí)枺?/td> | 201810502409.1 | 申請日: | 2018-05-23 |
| 公開(公告)號: | CN108733628B | 公開(公告)日: | 2020-01-03 |
| 發(fā)明(設(shè)計)人: | 王海濱;王楊圣;戴茜茜;惠志堅;葉靜;孫洪文 | 申請(專利權(quán))人: | 河海大學(xué)常州校區(qū) |
| 主分類號: | G06F17/16 | 分類號: | G06F17/16;G06T1/20 |
| 代理公司: | 32200 南京經(jīng)緯專利商標(biāo)代理有限公司 | 代理人: | 丁濤 |
| 地址: | 213022 江蘇*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 校正 并行矩陣 算法 預(yù)處理 矩陣 錯誤檢測 多次迭代 矩陣乘法 算法校正 提升系統(tǒng) 相對誤差 校驗計算 重新計算 誤判 更正 輸出 保存 更新 | ||
本發(fā)明公開了一種并行矩陣乘算法的加固方法,用于降低矩陣乘法的ABFT加固開銷,包括如下步驟:(1)、首先對矩陣乘的輸入輸出進行編碼,根據(jù)編碼值校驗計算結(jié)果并保存所有可能的錯誤列表;(2)、對錯誤列表進行預(yù)處理,排除一些誤判的錯誤,避免不必要的校正,其中排除錯誤的方法采用相對誤差法,在校正錯誤之前加入一個錯誤檢測,隨后對剩余的錯誤進行校正。如果更正了一個或多個錯誤,則更新錯誤列表,經(jīng)過多次迭代后可校正大部分的錯誤。(3)、剩下的無法用算法校正的錯誤,采用重新計算的策略。本發(fā)明的加固方法能夠在提升系統(tǒng)可靠性的同時提高執(zhí)行效率。
技術(shù)領(lǐng)域
本發(fā)明涉及一種并行矩陣乘算法的加固技術(shù),可以應(yīng)用于各種應(yīng)用到矩陣乘算法的技術(shù)領(lǐng)域例如圖像處理、數(shù)據(jù)統(tǒng)計等。
背景技術(shù)
目前,圖形處理單元(GPU)的并行計算架構(gòu)大幅提升了計算機大規(guī)模運算的速度,在高性能計算應(yīng)用中顯示出巨大的潛力。GPU被應(yīng)用于各個領(lǐng)域,如圖像處理、數(shù)據(jù)統(tǒng)計和其他高性能計算應(yīng)用等,它在現(xiàn)代工業(yè)中也越來越受歡迎。近年來,NVIDIA等GPU制造商一直在開發(fā)用于汽車駕駛應(yīng)用的GPU計算平臺。
高能粒子可能會引起存儲器元件的位翻轉(zhuǎn),或?qū)е缕渌壿嬰娐啡缬嬎銌卧械乃矐B(tài)電壓脈沖。隨著CMOS制備工藝尺寸的不斷縮減,邏輯電路對高能粒子導(dǎo)致的軟錯誤更加敏感。眾多的實驗結(jié)果表明,在高能粒子打擊下,GPU比其他集成電路器件具有更高的錯誤率。需要說明的是,可靠性要求是取決于應(yīng)用的。在部分應(yīng)用中GPU的可靠性是至關(guān)重要的,比如在航天器、人造衛(wèi)星或自動駕駛等應(yīng)用中,軟錯誤可能會導(dǎo)致極其嚴重的后果。而在諸如音頻或視頻的個人娛樂應(yīng)用中,一定數(shù)量的軟錯誤則是可以容忍的。
糾錯碼(ECC)機制是存儲器中最常見的加固技術(shù)之一,也可應(yīng)用于GPU中以降低軟錯誤率。然而,采用此方案會導(dǎo)致時間、空間和功耗方面的高昂代價,而且只有特定系列的高端GPU才配備ECC。其他一些常見的加固方法,如冗余和檢查點技術(shù),主要是在檢測到錯誤后使用重新計算的方法。基于冗余的加固技術(shù)之一是TMR(三模冗余法),在實驗中可以證明該技術(shù)能提高系統(tǒng)的可靠性。但是盡管TMR能夠有效地解決軟錯誤的問題,它會導(dǎo)致三倍的資源消耗,而在某些應(yīng)用程序中,資源是有限的。
因此,我們提出了一種矩陣乘法的基于算法的加固技術(shù),該方法能夠在提升系統(tǒng)可靠性的同時提高執(zhí)行效率。
發(fā)明內(nèi)容
本發(fā)明的目的在于設(shè)計基于ABFT算法的矩陣乘加固方法,能夠消耗較少的資源實現(xiàn)算法加固,注錯仿真結(jié)果證明本技術(shù)比現(xiàn)有的技術(shù)執(zhí)行效率更高。本發(fā)明的主要內(nèi)容是對多個錯誤隨機分布的情況進行錯誤校正。在多個錯誤隨機分布的情況中,傳統(tǒng)編碼校驗算法會檢測到比實際誤差更多的誤差位置,在錯誤校正時會導(dǎo)致不必要的耗時。然而,在多數(shù)情況中只有少數(shù)的錯誤是真實錯誤。為了解決這個問題,本發(fā)明提供了一種新的基于ABFT算法的加固技術(shù),以進一步降低開銷。
本發(fā)明的技術(shù)方案如下:
一種并行矩陣乘算法的加固方法,用于降低矩陣乘法和FFT的ABFT開銷,包括如下步驟:
(1)、首先對矩陣乘的輸入輸出進行編碼,根據(jù)編碼值校驗計算結(jié)果并保存所有可能的錯誤列表。
(2)對錯誤列表進行預(yù)處理,排除一些誤判的錯誤,避免不必要的校正,其中排除錯誤的方法采用相對誤差法,在校正錯誤之前加入一個錯誤檢測。隨后對剩余的錯誤進行校正。如果更正了一個或多個錯誤,則更新錯誤信息,經(jīng)過多次迭代后可校正大部分的錯誤。
(3)、剩下的無法用算法校正的錯誤,采用重新計算的策略。
本發(fā)明的有益效果如下:
本發(fā)明的加固方法能夠在提升系統(tǒng)可靠性的同時提高執(zhí)行效率。
附圖說明
圖1是具體的編碼過程的示意圖;
圖2是典型的錯誤分布圖示意圖;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于河海大學(xué)常州校區(qū),未經(jīng)河海大學(xué)常州校區(qū)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810502409.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





