服務與支持
關于數(shù)據中心運維工作(zuò)的提升技(jì)巧
日期:2019-02-14 浏覽次數(shù):

關于數(shù)據中心運維工作(zuò)的提升技(jì)巧

 數(shù)據中心的穩定運行(xíng)離不開(kāi)數(shù)據中心的運維人(rén)員,而數(shù)據中心運維的工作(zuò)涉及到方方面面,它不同于其它的運維,處理(lǐ)的問題都是比較專業的問題。在很(hěn)多(duō)的公司都是将服務器(qì)和(hé)設備托管到專門(mén)的數(shù)據中心機房(fáng)讓專業的人(rén)士進行(xíng)維護,隻有(yǒu)一些(xiē)技(jì)術(shù)實力比較強的大(dà)公司才建設有(yǒu)自己的數(shù)據中心。如今的信息技(jì)術(shù)更新得(de)很(hěn)快,什麽大(dà)數(shù)據、雲計(jì)算(suàn)、虛拟化、綠色數(shù)據 中心等等新技(jì)術(shù)層出不窮,各種設備的CPU、內(nèi)存、轉發芯片等也都在不斷地發展。

 

  從單核CPU到多(duō)核、四核、八核、十六核、三十二核,網絡單端口帶寬從 10M、100M、1G、10G、100G,這些(xiē)技(jì)術(shù)的進步給數(shù)據中心帶來(lái)了高(gāo)速的信息處理(lǐ)能力,但(dàn)是也讓這個(gè)數(shù)據中心的系統變得(de)異常複雜,傳統的數(shù)據中心運維技(jì)能已經難以适應信息高(gāo)速發展的需要了,需要我們去不斷學習,提升自己,才能在未來(lái)的數(shù)據中心裏,将運維的工作(zuò)開(kāi)展好。下面将結合一些(xiē)實際工作(zuò)經驗 講述提升運維技(jì)能的一些(xiē)方法。

 

       數(shù)據中心是一個(gè)複雜的信息處理(lǐ)系統,包括系統、網絡、存儲、協議、需求、開(kāi)發、測試、安全、空(kōng)調、供電(diàn)、監控等多(duō)個(gè)環節,運維的工作(zuò)就 是要包含到所有(yǒu)這些(xiē)方面,可(kě)見 運維的工作(zuò)是一個(gè)集多(duō)IT工種技(jì)能于一身的崗位。然而這裏說的每一個(gè)部分都需要多(duō)種技(jì)術(shù)學科的支撐,比如系統可(kě)能有(yǒu)Linux、Windows的,應用有(yǒu) LVS、HA、WebServer、DB、中間(jiān)件,網絡就更複雜了,各種二三層協議,虛拟化,環路協議,路由協議等等
這麽多(duō)的技(jì)術(shù)不可(kě)能每個(gè)人(rén)都精通(tōng),不可(kě)否認可(kě)能有(yǒu)這種全面精通(tōng)的人(rén)存在,但(dàn)人(rén)的精力畢竟是有(yǒu)限的,要有(yǒu)所得(de)也要有(yǒu)所失。

首先、是溝通(tōng)能力、團隊協作(zuò)

運維的工作(zuò)涉及跨部門(mén)、跨工種特别多(duō),這樣運維的人(rén)員需要善于溝通(tōng),團隊協議能力要強,這樣在處理(lǐ)問題時(shí),可(kě)以充分調用各種資源和(hé)技(jì)術(shù)力量,迅速解決問題。

       對于數(shù)據中心時(shí)間(jiān)就是利潤,流量就是金錢(qián),一年365天要保持數(shù)據中心的穩定運行(xíng),不出故障或者少(shǎo)出故障才行(xíng)。當業務部門(mén)反饋有(yǒu)故障時(shí),根據反饋的故障現象迅速鎖定故障點,然後集中資源解決,這其中需要大(dà)量的溝通(tōng),有(yǒu)效的溝通(tōng)将為(wèi)排除故障節省下來(lái)大(dà)量時(shí)間(jiān)。其次是運維工作(zuò)要膽大(dà)心細。

然後、膽大(dà)才能創新,不走尋常路

       即使數(shù)據中心再小(xiǎo),它也有(yǒu)自己的特點,充分利用它的優勢,才能發揮出數(shù)據中心最大(dà)的效能。數(shù)據中心本來(lái)就是一個(gè)技(jì)術(shù)更新很(hěn)快的領域,願意接受新事物,大(dà)膽引入先進運維的 技(jì)術(shù)将可(kě)以大(dà)大(dà)提升數(shù)據中心的工作(zuò)效率。

其次、做(zuò)好日常監控工作(zuò)

       一個(gè)健壯的身體(tǐ)離不開(kāi)每天的觀察,我們需要時(shí)時(shí)刻刻觀察我們的數(shù)據中心,看看數(shù)據中心發生(shēng)的細小(xiǎo)問題。每天都要對數(shù)據中心的所有(yǒu)方面運行(xíng)參數(shù)進行(xíng)全面檢查和(hé)記錄,慢慢地就會(huì)對數(shù)據中心運行(xíng)狀态有(yǒu)了掌握,當某些(xiē)參數(shù)變化時(shí)及時(shí)做(zuò)應對之策。比如設備運行(xíng)的CPU占用率,平時(shí)監控所有(yǒu)設備CPU占用率都在30%左右,突然有(yǒu)一天幾台設備的CPU占用率無緣無故升到了60%,這就需要進一步檢查升高(gāo)的原因,直到消除掉為(wèi)止。如果沒有(yǒu)這些(xiē)平日裏的統計(jì)記錄,這樣的參數(shù)變化就不會(huì)引起人(rén)們的注意,故障遲早會(huì)到來(lái)。

再次、做(zuò)好統計(jì)工作(zuò)

       一般的數(shù)據中心都擁有(yǒu)上(shàng)千台的服務器(qì)設備,還(hái)有(yǒu)其它不少(shǎo)的電(diàn)子設備,要做(zuò)好統計(jì)工作(zuò)。比如服務器(qì)多(duō)少(shǎo)台,都處于什麽位置,都和(hé)網絡設備如何互連的,每台設備的配置,應用的特性等等,這些(xiē)統計(jì)工作(zuò)馬虎不得(de),都關系着數(shù)十萬設備的物理(lǐ)安全。在平日接觸到的運維人(rén)員讓我們感受到不同的人(rén)員對自己數(shù)據中心的了解差異是非常大(dà)的,有(yǒu)的人(rén)可(kě)以對詢問的某個(gè)網段IP給什麽應用使用脫口而出,而有(yǒu)的人(rén)卻對詢問的服務器(qì)放在哪個(gè)機架上(shàng)都一無所知,當遇到問題或者進行(xíng)數(shù)據中心變更時(shí),後者的表現是顯而易見會(huì)出問題的。

下一條
最後一頁
Copyright © 2018,成都橙網科技有限公司 版權所有(yǒu) 備案号: