干貨資訊

如何從零開始搭建深度學習工作站

標簽：新零售作者：廣州大麥 2018-06-26

文章導讀：

隨著AlphaGo橫空出世擊敗韓國頂尖圍棋高手李世石，人工智能第一次真正進行大眾視野，并在近幾年出現(xiàn)星火燎原之勢，而深度學習作為人工智能一個最重要的分支，也開始在各行各業(yè)應用起來。深度學習的興起離不開對海量數(shù)據(jù)的依賴，而處理海量數(shù)據(jù)，對機算機的性能有很高要求。工欲善其事必先利其器，本文就來詳細談談如何搭建一臺滿足日常需要的工作站。

正文：

最近由于工作的需要，組建了一臺適用于深度學習的工作站。工作臺的搭建涉及到硬件及軟件兩部份，每一部份都對整體性能有影響，而且還需要綜合考慮實際研發(fā)需要和后期的擴展性。下面就來詳細說說每一點，希望對大家有幫助。

硬件選購考慮因素：

一、顯卡GPU

顯卡作為整體最優(yōu)先考慮的硬件，直接決定了整體的預算及性能。如果要擴展4卡，對主板和CPU的選購會有特殊的要求，整體的價格也會貴至少2倍以上。對于一般使用場景，建議單卡入門，最多支持擴展到2卡就行了。

從上圖可以明顯看出，GPU上的投資回報比基本呈線性變化，因此可以按照自己的需要量力而行。不過除非是在過去型號的GPU上已有投資，否則強烈建議直接上GTX 1080Ti。

二、中央處理器CPU

深度學習主要占用GPU資源，對CPU要求不是很高，再加上只考慮最多擴展雙顯卡，所以消費級的CPU完全能滿足需要，不用考慮企業(yè)級或雙CPU方案。上一代或最新一代的I7 超頻版CPU是個不錯的選擇，核心多，頻率高。

三、主板

主板作為整個系統(tǒng)的地基，需要有個全局性的考慮，雖然不像CPU和顯卡一般有明顯的性能差異，但決定了整個主機的硬件層次及后期的升級。建議直接購買一線品牌，質(zhì)量、做工及穩(wěn)定性方面都有保障。再加上只考慮支持雙顯卡交火，目前市面上大多數(shù)的系列都兼容。

四、存儲

內(nèi)存方面首選金士頓，占了市場60%以上的份額，口碑和質(zhì)量都有保持。建議組多通道及選DDR4 2400以上的頻率。

由于深度學習只需要在運行處理大量數(shù)據(jù)，平時存儲時對速度要求并不高?？梢圆扇∑胀ǖ臋C械硬盤（HDD）和固態(tài)硬盤（SSD）相結(jié)合的方式，兼顧速度和存儲要求。機械硬盤從西數(shù)和希捷中挑一個就行，建議2T以上容量，容量越大，性價比越高，相比其它硬件，完全是白菜價了。固態(tài)硬盤速度比機械硬盤快了幾倍，對系統(tǒng)整體性能有很大提升，缺點就是一個字：貴。所以容量方面建議至少要256G，有經(jīng)濟實力的就直接512G吧，一步到位。固態(tài)硬盤還有個要考慮的因素是接口規(guī)格了，目前主流的有SATA3和M.2兩種。M.2速度快，但有些主板識別不到，導致在安裝操作系統(tǒng)(Ubuntu)時無法安裝在固態(tài)硬盤上。

五、電源及機箱

電源作為整機的動力輸出，首要考慮的因素是能夠提供穩(wěn)定并且夠用的功率輸出，用料及做工也是必須要考慮的因素。電源行業(yè)品牌多如牛毛，而且代工貼牌占據(jù)絕大多數(shù)比例，在這種情況下優(yōu)化選擇一線品牌：海盜船，長城，安鈦克、臺達。其次要考慮的購買多大的瓦數(shù)，保險起見，我建議購買850W以上的(之后如果擴展多一張顯卡也完全夠用)。

機箱就沒什么硬性要求了，只要內(nèi)部空間足夠就行了。優(yōu)先考慮全塔式，可以根據(jù)自已的喜好進行選購。

工作站組裝及系統(tǒng)安裝：

計算機組裝應該是整個搭建過程中最簡單的部分了，只要注意安裝的順序及主板連線，大都能順利安裝成果，并且現(xiàn)在大多硬件都做了防呆設計，不可能會出現(xiàn)插反的情況。

第一步將CPU（注意方向）、內(nèi)存安裝到主板上，將主板附送的主機后置面板安裝到機箱上。

第二步將散熱安裝到CPU上，放到機箱中，確定散熱器風道方向與散熱器的位置，以免放不下。

第三步涂硅脂，重新將確定好位置的風扇安裝到CPU上。

第四部將主板固定到機箱上，注意機箱上的銅柱不多也不少，避免主板下面有空余的銅柱而導致主板短路。

第五步將GPU和其他pcie接口設備安裝到主板與機箱上。

第六步安裝SSD和機械硬盤。

第七步安裝電源模塊。

第八步連接主板及各硬件的線，整理好背線。

第九步開機測試能否進入BIOS界面。

第十步安裝操作系統(tǒng)Ubuntu LTS 16.04(相對簡單，不展開)。

環(huán)境搭建及開源框架選擇：

硬件組裝完畢，安裝好操作系統(tǒng)后，接起來就是深度學習軟件環(huán)境搭建部份了。其中就涉及到顯卡驅(qū)動和CUDA、CUDNN的安裝，這三塊是基礎，建議直接登陸Nvidia官網(wǎng)跟著官方文檔一步步安裝。

一、顯卡驅(qū)動安裝

活進入系統(tǒng)桌面后，會發(fā)現(xiàn)默認的分辨率只有1024x768，因為系統(tǒng)默認使用了開源顯卡驅(qū)動，需要手動更新成N卡最新驅(qū)動。

第一步：打開設置，進入軟件更新設置(Software&Updates)。

第二步：選擇附加驅(qū)動，等待刷新。

第三步：選擇所列出來的可以析的選項，選擇應用改變即可

第四步：在終端中輸入nvvidia-smi,可以查詢顯卡驅(qū)動狀態(tài)。

二、CUDA與CUDNN安裝

登陸官網(wǎng)下載CUDA安裝包，在下載時找相應的官方安裝文檔仔細閱讀，盡可能按照它的步驟一步步走。同時再找?guī)灼玫牟┛臀恼伦鳛閰⒖迹瑢ΤＲ姷膯栴}要知道如何解決，做到胸有成竹。

第一步：檢查自己的電腦環(huán)境是否具備安裝CUDA的條件。

第二步：驗證自己的Linux版本是否支持CUDA。

第三步：驗證系統(tǒng)是否安裝了GCC。

第四步：通過package manager安裝。

第五步：重啟電腦，檢查是否安裝成功。

第六步：嘗試編譯CUDA提供的samples。

第七步：根據(jù)官網(wǎng)教程安裝CUDNN。

三、Docker安裝

深度學習涉及到各個領域的研究，相關的框架不斷更新和迭代。如果在同一部主機上安裝全部的框架，有可能會出現(xiàn)管理問題及各種包沖突問題，也不利于工作站資源的充分利用。而Docker是一個開源的應用容器引擎，可以方便地打包應用以及依賴包到一個輕量級、可移植的容器中。使用Docker，可以按自己研究的需要，配置不同的Docker鏡像。Docker的安裝相對簡單，這里就不展開詳細說明，網(wǎng)上也有許多現(xiàn)成的文章可供參考，建議大家登陸官網(wǎng)查找相應的安裝文檔即可成功安裝。

四、深度學習鏡像選擇、

在實際的研究和開發(fā)中，可以根據(jù)需求下載不同的鏡像。下面列出常用的鏡像名稱和用途