如何從零開始搭建深度學習工作站
文章導讀:
隨著AlphaGo橫空出世擊敗韓國頂尖圍棋高手李世石,人工智能第一次真正進行大眾視野,并在近幾年出現(xiàn)星火燎原之勢,而深度學習作為人工智能一個最重要的分支,也開始在各行各業(yè)應用起來。深度學習的興起離不開對海量數(shù)據(jù)的依賴,而處理海量數(shù)據(jù),對機算機的性能有很高要求。工欲善其事必先利其器,本文就來詳細談談如何搭建一臺滿足日常需要的工作站。
正文:
最近由于工作的需要,組建了一臺適用于深度學習的工作站。工作臺的搭建涉及到硬件及軟件兩部份,每一部份都對整體性能有影響,而且還需要綜合考慮實際研發(fā)需要和后期的擴展性。下面就來詳細說說每一點,希望對大家有幫助。
硬件選購考慮因素:
一、顯卡GPU
顯卡作為整體最優(yōu)先考慮的硬件,直接決定了整體的預算及性能。如果要擴展4卡,對主板和CPU的選購會有特殊的要求,整體的價格也會貴至少2倍以上。對于一般使用場景,建議單卡入門,最多支持擴展到2卡就行了。
從上圖可以明顯看出,GPU上的投資回報比基本呈線性變化,因此可以按照自己的需要量力而行。不過除非是在過去型號的GPU上已有投資,否則強烈建議直接上GTX 1080Ti。
二、中央處理器CPU
深度學習主要占用GPU資源,對CPU要求不是很高,再加上只考慮最多擴展雙顯卡,所以消費級的CPU完全能滿足需要,不用考慮企業(yè)級或雙CPU方案。上一代或最新一代的I7 超頻版CPU是個不錯的選擇,核心多,頻率高。
三、主板
主板作為整個系統(tǒng)的地基,需要有個全局性的考慮,雖然不像CPU和顯卡一般有明顯的性能差異,但決定了整個主機的硬件層次及后期的升級。建議直接購買一線品牌,質(zhì)量、做工及穩(wěn)定性方面都有保障。再加上只考慮支持雙顯卡交火,目前市面上大多數(shù)的系列都兼容。
四、存儲
內(nèi)存方面首選金士頓,占了市場60%以上的份額,口碑和質(zhì)量都有保持。建議組多通道及選DDR4 2400以上的頻率。
由于深度學習只需要在運行處理大量數(shù)據(jù),平時存儲時對速度要求并不高??梢圆扇∑胀ǖ臋C械硬盤(HDD)和固態(tài)硬盤(SSD)相結(jié)合的方式,兼顧速度和存儲要求。機械硬盤從西數(shù)和希捷中挑一個就行,建議2T以上容量,容量越大,性價比越高,相比其它硬件,完全是白菜價了。固態(tài)硬盤速度比機械硬盤快了幾倍,對系統(tǒng)整體性能有很大提升,缺點就是一個字:貴。所以容量方面建議至少要256G,有經(jīng)濟實力的就直接512G吧,一步到位。固態(tài)硬盤還有個要考慮的因素是接口規(guī)格了,目前主流的有SATA3和M.2兩種。M.2速度快,但有些主板識別不到,導致在安裝操作系統(tǒng)(Ubuntu)時無法安裝在固態(tài)硬盤上。
五、電源及機箱
電源作為整機的動力輸出,首要考慮的因素是能夠提供穩(wěn)定并且夠用的功率輸出,用料及做工也是必須要考慮的因素。電源行業(yè)品牌多如牛毛,而且代工貼牌占據(jù)絕大多數(shù)比例,在這種情況下優(yōu)化選擇一線品牌:海盜船,長城,安鈦克、臺達。其次要考慮的購買多大的瓦數(shù),保險起見,我建議購買850W以上的(之后如果擴展多一張顯卡也完全夠用)。
機箱就沒什么硬性要求了,只要內(nèi)部空間足夠就行了。優(yōu)先考慮全塔式,可以根據(jù)自已的喜好進行選購。
工作站組裝及系統(tǒng)安裝:
計算機組裝應該是整個搭建過程中最簡單的部分了,只要注意安裝的順序及主板連線,大都能順利安裝成果,并且現(xiàn)在大多硬件都做了防呆設計,不可能會出現(xiàn)插反的情況。
第一步將CPU(注意方向)、內(nèi)存安裝到主板上,將主板附送的主機后置面板安裝到機箱上。
第二步將散熱安裝到CPU上,放到機箱中,確定散熱器風道方向與散熱器的位置,以免放不下。
第三步涂硅脂,重新將確定好位置的風扇安裝到CPU上。
第四部將主板固定到機箱上,注意機箱上的銅柱不多也不少,避免主板下面有空余的銅柱而導致主板短路。
第五步將GPU和其他pcie接口設備安裝到主板與機箱上。
第六步安裝SSD和機械硬盤。
第七步安裝電源模塊。
第八步連接主板及各硬件的線,整理好背線。
第九步開機測試能否進入BIOS界面。
第十步安裝操作系統(tǒng)Ubuntu LTS 16.04(相對簡單,不展開)。
環(huán)境搭建及開源框架選擇:
硬件組裝完畢,安裝好操作系統(tǒng)后,接起來就是深度學習軟件環(huán)境搭建部份了。其中就涉及到顯卡驅(qū)動和CUDA、CUDNN的安裝,這三塊是基礎,建議直接登陸Nvidia官網(wǎng)跟著官方文檔一步步安裝。
一、顯卡驅(qū)動安裝
活進入系統(tǒng)桌面后,會發(fā)現(xiàn)默認的分辨率只有1024x768,因為系統(tǒng)默認使用了開源顯卡驅(qū)動,需要手動更新成N卡最新驅(qū)動。
第一步:打開設置,進入軟件更新設置(Software&Updates)。
第二步:選擇附加驅(qū)動,等待刷新。
第三步:選擇所列出來的可以析的選項,選擇應用改變即可
第四步:在終端中輸入nvvidia-smi,可以查詢顯卡驅(qū)動狀態(tài)。

二、CUDA與CUDNN安裝
登陸官網(wǎng)下載CUDA安裝包,在下載時找相應的官方安裝文檔仔細閱讀,盡可能按照它的步驟一步步走。同時再找?guī)灼玫牟┛臀恼伦鳛閰⒖迹瑢ΤR姷膯栴}要知道如何解決,做到胸有成竹。
第一步:檢查自己的電腦環(huán)境是否具備安裝CUDA的條件。
第二步:驗證自己的Linux版本是否支持CUDA。
第三步:驗證系統(tǒng)是否安裝了GCC。
第四步:通過package manager安裝。
第五步:重啟電腦,檢查是否安裝成功。
第六步:嘗試編譯CUDA提供的samples。
第七步:根據(jù)官網(wǎng)教程安裝CUDNN。
三、Docker安裝
深度學習涉及到各個領域的研究,相關的框架不斷更新和迭代。如果在同一部主機上安裝全部的框架,有可能會出現(xiàn)管理問題及各種包沖突問題,也不利于工作站資源的充分利用。而Docker是一個開源的應用容器引擎,可以方便地打包應用以及依賴包到一個輕量級、可移植的容器中。使用Docker,可以按自己研究的需要,配置不同的Docker鏡像。Docker的安裝相對簡單,這里就不展開詳細說明,網(wǎng)上也有許多現(xiàn)成的文章可供參考,建議大家登陸官網(wǎng)查找相應的安裝文檔即可成功安裝。
四、深度學習鏡像選擇、
在實際的研究和開發(fā)中,可以根據(jù)需求下載不同的鏡像。下面列出常用的鏡像名稱和用途
五、成果演示
最后,讓我們來看看經(jīng)過以上各個環(huán)節(jié)后,如何為深度學習研究提供簡單易用的開發(fā)環(huán)境:
打開終端,連到服務器,運行以下命令啟動容器(根據(jù)實際情況,參數(shù)不同):
打開瀏覽器,訪問以下地址,能夠正常顯示,一切正常。
總結(jié):
經(jīng)過今天的簡單梳理,大家應該對如何搭建深度學習工作站有了初步的了解,重要的是多實踐,思考自己實際工作中的需求,搭建出滿足研究的工作站。擁有一臺性能強勁的工作站,才能讓你在深度學習的海洋里如魚得水,遇到任何的波濤駭浪都能泰然面對。
輸入店鋪信息,獲取專業(yè)全方面分析
* 您的信息將被嚴格保密,請放心填寫