[發明專利]用于混合GPU/CPU數據處理的方法有效
| 申請號: | 201380046737.0 | 申請日: | 2013-09-09 |
| 公開(公告)號: | CN104903849B | 公開(公告)日: | 2017-11-28 |
| 發明(設計)人: | 伊恩·萊恩;杰克·沖;金貞碩 | 申請(專利權)人: | 卡內基·梅隆大學 |
| 主分類號: | G06F9/38 | 分類號: | G06F9/38;G06F9/46 |
| 代理公司: | 北京金岳知識產權代理事務所(特殊普通合伙)11585 | 代理人: | 王文生,王中 |
| 地址: | 美國賓夕*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 混合 gpu cpu 數據處理 方法 | ||
相關申請的交叉引用
本申請是一個PCT國際申請,其要求序列號為61/743,607、題目為Methods for Hybrid GPU/CPU Data Processing的于2012年9月7日提交的美國臨時申請的權益,該美國臨時申請的全部內容通過引用合并于本申請中。
技術領域
此發明涉及數據處理的領域。更具體地,此發明涉及用來在并行處理器平臺上執行大規模圖形遍歷的方法。
背景技術
近年來,對于計算機而言具有多核進程和許多核進程已經變得更加普遍,通過以并行方式橫跨不同處理核執行復雜的計算任務顯著地增加了可以執行這樣的任務的速度。然而對于一些復雜的計算任務而言,這樣的處理器受到它們存儲器容量的限制。例如,許多核圖形處理單元(GPU)具有2-8千兆字節(GB)的存儲器的限制。對于包括許多數百萬計的弧和模型的圖形結構的這樣的大規模圖形遍歷的計算可能在規模上處于GB的100s的量級或者更大量級的任務而言,此存儲器呈現出極限。
因而,存在對通過有效地支持異類并行計算核有效地在并行處理器平臺上執行大規模圖形遍歷的方法的需要。
需要這樣的改進的方法的一個領域是大詞匯連續語音識別(large vocabulary continuous speech recognition,LVCSR)領域。作為這樣的需要的一個示例,話音用戶接口作為用于下一代智能設備的核心技術正在不斷發展。為了確保吸引用戶體驗,關鍵的是用在這些系統內的語音識別引擎是魯棒的、快速的、具有低延遲并且在系統可能遇到的極其大的詞匯上提供充足的覆蓋性。為了獲得高的識別準確性,用于諸如廣播新聞手稿[1,2]或者話音搜索[3,4]之類的任務的現有技術水平的語音識別系統可以在大詞匯(>1百萬個詞)、大聲學模型(數百萬的模型參數)以及極其大的語言模型(數十億的n-gram個條目)的情況下執行識別。在可以把這些模型應用在離線語音識別任務中時,對于實時語音識別而言由于在解碼期間需要大的計算成本的原因它們是不可實施的。
使用靜態編制的加權有限狀態轉換機(Weighted Finite State Transducer,WFST)網絡,其中,WFST表示隱馬爾可夫模型(Hidden Markov Model,HMM),聲學模型H、上下文模型C、發音詞典L、和語言模型G被組成為一個單個網絡,通常稱為H級WFST,這使得它可以非常有效地執行語音識別[5]。然而,當使用大模型時這樣的搜索網絡的構成和優化變得不可行。
聯機構成是用來在單個完全構成的WFST的情況下執行語音識別的一個實踐選擇。聯機構成涉及順序地應用兩個或更多個子WFST的組,在解碼期間按需要對它們進行構成。一個通常方案是在解碼之前對HoCoL進行預構成,然后利用語法網絡G對此進行聯機構成。在存儲器方面聯機構成已經顯示出是經濟的,但是解碼顯著慢于靜態編制WFST[6]。
用于有效WFST解碼的一個可選方案是執行假設再評分[3]而不是在搜索期間進行構成。在此方案中,Viterbi搜索使用HoCoGuni來執行,而另一WFST網絡Guni/tri僅僅用于對以聯機方式從Viterbi搜索過程生成的假設進行再評分。由于此算法從搜索開始允許所有的知識源都是可用的,所以對于選擇正確的路徑和修剪假設這二者而言這是有效的。
現在在許多核的圖形處理單元(GPU)的情況下,對于許多計算任務而言商品資源、混合GPU/CPU計算架構是一個實際的解決方案。對于每個計算子任務而言,通過支持最適合的架構比通過單獨使用任一平臺能夠取得顯著更高的吞吐量。現有工作[7,8]已經例證了對于語音識別而言使用GPU處理器的有效性,并且對于有限的詞匯任務而言在吞吐量方面獲得了顯著的改進[7]。然而,當在識別期間以及還對于其它大規模圖形遍歷計算而言應用大聲學和語言模型時,關于這些架構的有限的存儲器成為一個顯著瓶頸。對于這樣的計算的最顯著的挑戰是處理在現代寬域語音識別系統中使用的極其大的語言模型[1,2,4]。這些模型可能包含數百萬的唯一詞匯條目,數十億的n-gram上下文,并且可能輕易地要求20GB或者更多以便存儲在存儲器中。即使當被顯著地修剪時,這些模型也不能適于在GPU平臺上可用的有限的存儲器內。為了在大聲學模型和語言模型的情況下高效地執行語音識別,我們已經開發了混合GPU/CPU架構,該架構在GPU架構的計算吞吐量的情況下支持大的存儲器和CPU的局部高速緩沖。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于卡內基·梅隆大學,未經卡內基·梅隆大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201380046737.0/2.html,轉載請聲明來源鉆瓜專利網。





