運維百家講壇第3期:快貓來煒 - 如何端好運維的飯碗

語言: CN / TW / HK

運維百家講壇,通過採訪和約稿的方式,請運維領域老炮輸出深刻洞見,共同碰撞,以期形成一些先進的共識,推動行業更好得前進。

講壇第1期《井源 - 運維幾何》和前段時間馬馳的《是時候讓運維集體下崗了》在業界引起廣泛討論,運維崗位真的沒有前途了嗎?如何把飯碗端穩?這一期,我們採訪了快貓星雲的來煒,來煒是運維破圈創業人士,既然能創業,一定是在行業內有很深的積累的,他會怎麼看待這個問題?讓我們一起來聽一種新的聲音!

這裡是接地氣、有高度的《運維百家講壇》第 3 期,開講!

介紹一下您自己以及現在的公司?

大家好,我是快貓星雲的來煒。快貓星雲是一家雲原生智慧運維科技公司,由開源監控工具“夜鶯監控”的核心開發團隊組成。快貓星雲打造的雲原生監控分析平臺——“Flashcat平臺”,旨在解決雲原生架構、混合雲架構下統一監控難、故障定位慢的問題。 如果想更多瞭解快貓星雲創立背後的故事,大家可以進一步閱讀 ITPub 對我的一個專訪《十年死磕,從一線工程師到CEO》,歡迎大家指正。

有些運維老炮反映公司對運維的價值所知甚少,您是怎麼給公司講清楚運維的價值的?

把工作的價值,如何通俗易懂的給公司管理層講清楚,並取得理解和支援,是所有中後臺技術團隊普遍面臨的難題,否則失業分分鐘的事情,運維工作的價值講清楚更是難上加難。

從我的朋友圈來看,時不時就會看到勸運維下崗/轉行的帖子:

  • 比如瑞典馬工的《是時候讓運維集體下崗了》,振聾發聵,開篇就提到:明人不說暗話:在雲原生和DevOps成熟的今天,運維作為一個崗位和團隊已經完成了歷史任務,應該退出舞臺了。
  • 再比如帶我入行的井老闆,在 SRETalk 第一期中,用心良苦的勸導:隨著科技的發展,時代的變化,一個崗位的消亡是很正常的事情,及時做好調整和規劃才是思考的重心。

但是,運維這個崗位以及背後的運維人,從來都是一次次站在要被淘汰的邊緣徘徊,又一次次倔強的起死回生,柳暗花明。他們往往樂於自嘲、主動擁抱危機、敢於求變。回想下,近十年來,雲端計算也好、雲原生也罷、DevOps 也算,SRE 也行,所有這些 IT 的大變革,都是嘗試在不斷優化和改進“大運維”這個領域。運維這個行業沒有消亡,反而是不斷進化,生髮出了新的內涵。

這說明了什麼?說明運維很重要,說明運維也很難!但是如何把這個價值說清楚,我們從站位、目標設定、投入產出比上來分別著手分析。

您覺得運維工作最重要的幾個目標是什麼?您是怎麼落地這些目標的?運維的價值如何更好的得到體現?

聚焦經典的運維領域,最主要的幾個工作職責:

  1. 程式碼釋出和交付(delivery),做好最後一公里的價值交付;
  2. 提升架構的可伸縮性(scalability)並付諸實施;
  3. 保障系統的穩定性(reliability)並不斷改善;
  4. 在滿足前三專案標的同時,不斷優化並降低系統的執行成本(finops);

如果你發現自己的工作,並不是圍繞著以上範疇展開,那麼有兩種可能,你不是運維或者你的工作超綱了!

明確了工作範疇,說大點就是明確了運維的使命之後,設定目標就相對容易些了,比如:

  1. 針對程式碼釋出和交付,可以簡單的用釋出次數來度量;
  2. 針對系統的伸縮性,可以用擴容的時效性來度量;
  3. 針對穩定性,我們可以通過觀察核心功能的不可用時長來度量;
  4. 針對系統執行成本,我們可以計算到每完成一筆核心交易所花費的資源成本和人力成本來表示和追蹤;

關於如何體現運維的價值:

首先我們運維人要轉變的是態度和立場:堅定和業務站在一起,爭取共背業務目標。

我舉個例子,HR部門,也是屬於公司內部後臺的不能再後臺的部門了,但是我所接觸過的優秀的hr中,不管是recruiter、還是hrbp,從來都是把自己當作業務部門的一份子,把業務部門的目標當作自己的目標。當立場一致,大家都是自己人的時候,價值就好說了。

其次,價值這個事情,永遠都是和“成本投入”相對應的。你如果組建了一個很大的運維團隊,人力成本在公司很顯眼,那麼你就很容易成為老闆眼中的“重點關注物件”,也會受到業務方更苛刻的挑戰,正所謂,楚人無罪懷璧其罪:) 客觀上來講,運維團隊的資源投入,一定是要和業務收入相匹配的,過高過低都是不健康的,不利於團隊發展的。所以,“運維的價值創造”最後會落到運維效率的競爭上來。

最後,關於價值,定量和定性的描述都得有。譬如和行業水平的定量對比,來自公司內業務部門滿意度調查的定量資料。也要有比如對公司戰略專案支撐中的“存在感”這些定性資料。

ChatGPT這樣的AI能力您覺得未來是否有可能解決運維行業的問題?

首先我們看看,ChatGPT的核心優勢是什麼?ChatGPT,在知識的豐富度、自然語言理解能力(以及上下文理解)、內容生成能力方面,有著代際的革新。

然後,我們再分析下運維行業的核心問題是什麼?

  • 是缺少領域知識嗎?
  • 是互動效率低嗎?
  • 是內容輸出難嗎?

以上都不是,運維行業所處理的問題,本質上還是一個系統性的工程問題,是為了解決IT系統價值快速交付的問題、解決伸縮性的問題、解決穩定性的問題、是不斷提高系統執行維護價效比的問題。

目前來看,雲端計算、微服務對於運維行業的改變來的要更實質性一些。ChatGPT能有效改善運維行業知識沉澱的問題,或許會很快代替一些初級的運維架構師崗位。

工具選型這塊,到底是自研,還是使用開源,還是使用商業產品,是如何抉擇的?

這個問題沒有絕對的答案,從我個人的從業經驗來看,大概有以下幾種情況:

自研的好處:

  • 心理上的自主可控感會更強一些;
  • 短中期維度來看,對於團隊的發展空間會更有利;
  • 能根據自己的實際情況進行有針對性的、靈活的設計;

自研的弊端:

  • 時間成本很高,會造成較長一段時間拖後腿的情況,給業務的發展帶來一定的影響;
  • 人力成本高,以北京為例,要招聘一位相對資深的工程師,每年的薪資大概在50萬,如果要自研相關運維工具到成熟,投入兩位工程師還是需要的;
  • 受限於研發人員的認知,自研容易和行業最佳實踐脫鉤,長期會造成內部工具落後於時代。

開源和開源二次開發:

好處是能很快見效,投入生產。壞處有三:

  • 開源工具一般注重靈活性,功能上也比較聚焦,在產品化和使用者體驗上通常比較欠缺,拿來快速使用存在體驗方面的問題;
  • 寫程式碼的朋友大家都有個體會,完全讀懂和理解別人的程式碼和自己開發一套,難度其實是相當的,所以開源專案投入到生產環境,也是要投入足夠的人力和時間去掌握的;
  • 大多數針對開源專案的二次開發,會導致和社群主幹脫鉤,導致無法順利升級到後續的最新版本,享受不到開源專案真正的紅利。

使用商業產品和解決方案:

優勢:

  • 時間成本優勢明顯,藉助商業產品能夠快速敏捷的支援業務的發展需要,首先做到不拖後腿!
  • 原則上來講,商業化產品的成本相比自研會有數倍的降低。這個成本差距是由商業模式決定的。商業產品能盈利的根本原因就是產品研發成本(加上銷售成本)隨著客戶數量的增加而攤薄,否則這個公司沒有存在的意義和可能;
  • 商業產品的核心競爭力包括領域know-how、極致的產品體驗、良好的技術支援和服務共同構成的,這通常意味著採用商業產品的技術團隊會在公司業務方取得更好的口碑。

不足:

  • 國內tob領域起步較晚,目前阻礙客戶採用商業化產品最大的問題是缺少極致好用的產品,以及價格優勢還不明顯;
  • 很多甲方客戶技術歷史包袱較重,個性化方案多,商業化產品往往很難做到完全匹配,導致客戶不得不硬著頭皮選擇自研;

業內有觀點認為雲端計算和Kubernetes這樣的基礎設施的崛起會讓運維崗位逐漸消亡,您是怎麼看待這樣的觀點呢?

誠然,雲端計算、K8s的出現,核心是為了改進“運維”這個行業,對運維行業的工作方式發生了重大影響。比如:

  • 以前的 clickops 逐步過渡到 IaC
  • 傳統監控升級為更全面的可觀測性體系
  • release 也從大版本定期釋出變成了更敏捷的持續整合
  • 老中醫式的開源軟體維護模式,變成了對應的雲服務的正確選型和使用
  • 扛機器上架的體力活變成了簡單的控制檯分分鐘開通
  • 手敲命令配置網路路由的專家工作轉變成雲服務的各個網路產品的組合搭配
  • 從物理機混部提升利用率轉變為採用微服務、雲原生架構成本天然下降

我們看到,運維工作的內涵並沒有變,工作的價值也並沒有變弱,只是運維要掌握的技能樹在升級。運維人繼續保持危機感、保持主動求變精神、立足服務好業務,就能永立潮頭,處處柳暗花明。

可選的監控工具有很多,使用者選擇貴司的 Flashcat 平臺,理由是什麼?

的確,開源的、商業化的監控平臺有很多,我之前也寫過一篇部落格:《二十年裡12個開源監控工具大對比》,大家可以參考。

回到為什麼選擇Flashcat平臺,需要從監控系統的發展趨勢以及Flashcat平臺的特點說起。監控系統的發展趨勢,可以參考我之前的部落格文章 《雲原生監控的十大特點和趨勢》。而Flashcat平臺,正是面向這些趨勢而生的針對性的解決方案:

  • Flashcat面向更廣泛多元的使用者群:從面向運維工程師群體到面向全體研發、運營、CTO/CIO,Flashcat 讓監控分析、資訊拉齊如此簡單;
  • Flashcat與業務指標密切聯動:當業務受損時,Flashcat 總能第一時間發現,並和 IT 系統深入聯動,輔助技術團隊快速展開調查;
  • 雲原生、混合雲統一監控:無論採用什麼樣的 IT 架構,您只需要一套 Flashcat 平臺;