deep learning 新架構 (3): Intel的回應

TPU就某種角度來說, 跨入了Intel的晶片事業,
Intel面臨Nvidia和Google在deep learning上的夾擊,
挑戰其在運算單元的獨霸地位, 他們會如何回應呢?

首先, 他們併購了Altera, 取得FPGA (Field Programmable Gate Arrays) 的技術,
並且嘗試把FPGA和原本的計算架構整合, 提供一套整合的編譯介面,
根據在2016年4月的DEMO, FPGA加上CPU的能源效率可以改善70%,
且相關產品已經出貨, 然而, 我卻找不到其銷售資訊...

相較於TPU的ASIC架構, FPGA提供可動態編譯的硬體環境,
可以根據特殊指令集, 編譯FPGA硬體, 形成對應特殊功能的硬體計算模組,
提供比起ASIC的架構, FPGA的執行速度較慢, 但是能提供更為彈性的應用,
對於異質的deep learning架構而言, FPGA可能提供彈性而快速的服務框架,


另一種可行的作法, 則是直接分開對兩者進行編譯,
並透過QPI (Quick Path Interconnect) 介面互相溝通,
此類作法已有相對應的產品問世(E5-2600 v2, 目前最新版是v4),
然而就需要更多手動的設定,

說實話, 整合FPGA的版本號應該是E5-2600 v4, 時間為2016 Q2,
然而就算在2016Q4的產品中, 亦只看到對於QPI的支援, 而找不到整合的產品,
http://ark.intel.com/zh-TW/products/96901/Intel-Xeon-Processor-E5-2699R-v4-55M-Cache-2_20-GHz

這一部分的資訊有些混亂,
且都未見於Intel官網說明詳細時程,
不太確定目前整合的進度, 以及產品推出的進度,
或許, 這原本就不是一個面向消費者的CPU產品吧...

另一方面, 面對GPU的挑戰,
Intel也提出了Xeon Phi的架構, 簡單來說, 就是一叢 (64-72) 低速CPU核心,
這些CPU核心, 可以進行GPU一樣的計算,
並且提供每一個核心較強的運算能力,

(from Intel)

"因為GPU擅長Stream風格的平行計算方式,接近是SIMD(Single Instruction, Multiple Data,單一指令多重資料)的運算模式,這是指所有運算核心都執行同一個指令,只是作用在不同的資料上。而Xeon Phi則是MIMD架構(Multiple Instruction, Multiple Data,多重指令多重資料)的運算模式,Xeon Phi中的60個核心,每個核心都可以處理不同的指令和不同的資料。正因為如此,每個處理核心彼此需要許多同步和通訊的機制,所以,Xeon Phi處理核心的電路遠比GPU的核心更複雜。" ~洪士灝 教授
http://www.ithome.com.tw/node/77741

為了提供如同Google TensorFlow的資源配置與最佳化模式,
Intel選擇和Linux合作, 建立OpenHPC的框架,
結合Intel最大的資源: x86平台, 提供幾乎不需重新編譯的環境,
(當然, 對平行化的最佳化, 還是要手動進行...)

Xeon Phi的未來發展也讓人困惑,
首先, Intel收購了一家deep learning的公司 (Nervana),
宣稱要把該公司的技術整合進下一代的Xeon Phi中,
而該公司的技術, 基本上相似於Google TPU的架構, 是一種對deep learning特殊應用的設計,
http://www.eettaiwan.com/news/article/20160812NT02-Intel-Acquire-Deep-Learning-Nervana

然而, 在此同時, Xeon Phi卻開始更改架構,
從原本的運算加速卡的形式, 改變成為可以獨立運作的分散式核心,
http://www.ithome.com.tw/news/106628

這些新聞的加總, 讓人懷疑Intel的整體規劃,
宛如多頭馬車一般, 產品部門間缺乏整合,
公司對於deep learning缺乏完整的想法, 而是被動回應這些挑戰,
不過, 對使用者來說, 一個友善的編譯環境,
以及高效率的運算資源最佳化, 應該才是最重要的關鍵.

留言

熱門文章

LTE筆記: RSRP, RSSI and RSRQ

[WiFi] WiFi 網路的識別: BSS, ESS, SSID, ESSID, BSSID

LTE筆記: 波束成型 (beamforming) 和天線陣列