企業如何完成云計算最佳成本優化?
云的可擴展性對企業的運營和發展而言具有兩面性,可謂福禍相依。
過度配置和云蔓延是真實存在的。其造成的成本浪費甚至會使科技巨頭財務管理者都感到驚訝。
以 Pinterest 為例,在一個假期期間,由于使用量增加,該公司的云賬單遠遠超出了最初的估計,Pinterest 不得不在價值 1.7 億美元的預留資源之外向 AWS 支付 2000 萬美元。
處理云的長期成本影響的唯一方法是實施云成本優化。而且,如果企業不希望成本優化成為工程團隊的拖累,那么實現自動化是唯一能讓企業實現目標的舉措。
1、了解優化云成本的優勢

優化云成本值得企業花時間嗎?通信、娛樂、SaaS和電子商務領域的公司報告的優化收益就是最好的例證:
1)在 2021 年第一季度,Zoom報告稱其毛利率從上一季度的 69.4% 擴大至 73.9%,這主要是由于優化公共云資源的工作產生了良好效果。
2)Spotify構建了一個名為 Cost Insights 的定制工具來跟蹤云費用并鼓勵工程師掌握云支出的所有權,從而將其每年的云支出減少數百萬美元。
3)通過對基礎設施決策進行一些明智的增量優化,盡管流量增加了 25%,但在三個月內 , Segment 的毛利率增加了 20% ,基礎設施成本降低了 30%。
4)電子商務初創公司La Fourche了解到其云計算費用急劇上升,便運行了 CAST AI 節省報告以尋找優化機會。通過啟用自動優化,該公司在不增加工程師工作量的情況下將每月的云賬單減少了 69.9%。
通過以上例證可知云優化工作是值得的,那么企業團隊選擇了哪些方法來防止其云成本失控?
2、詳細了解自己的云賬單
大部分企業對于自己的云賬單并不十分了解。

賬單冗長、復雜且難以分解,因為每項服務都有一個已定義的計費指標。因此企業難以詳細了解自身的使用情況并做出決斷。
成本分配可以揭示誰在使用哪些資源,但是在 Kubernetes 上運行的動態基礎架構中,成本分配尤其具有挑戰性。
根據自己的云賬單檢查和分配成本而得到的數據,可以幫助企業更好地預測自身的需求并確保適當數量的資源(并避免過度配置)。
但估計企業未來的資源需求并非易事。

這是可以遵循的示例序列:
1)獲得可見性并分析自己的使用報告,以確定所有的支出模式。
2)借助定期分析和處理歷史使用數據來檢測峰值資源使用場景。
3)將季節性客戶需求模式考慮在內,并檢查它們是否與自身的資源使用高峰相關。如果能了解到這一點,提前識別它們可能會更容易。
4)確保定期監控資源使用報告,并設置警報以控制云成本。
5)通過衡量特定于應用程序或工作負載的成本來創建應用程序級成本計劃。這也將為計算云基礎設施的總擁有成本提供有力支持。
6)接下來,查看企業的云提供商的定價模型,并隨著時間的推移規劃容量需求。將所有數據放在一個地方可以更輕松地了解成本。
上面列出的任務并非一次性完成的工作。企業需要定期執行此操作以獲得良好效果。
3、為應用程序選擇最佳計算資源
如果企業的應用程序依賴于計算,那么選擇正確的虛擬機可能會改善成本問題。但 AWS 有近 400 個不同的實例。類似的實例類型在云提供商之間提供不同的性能——即使在同一個云中,更昂貴的實例并不等于更高的性能。

1)定義最低要求
確保在所有計算維度上執行此操作,包括 CPU(架構、數量、處理器選擇)、內存、SSD 和網絡連接。
2)選擇正確的實例類型
企業可以從各種CPU、內存、存儲和網絡容量組合中進行選擇,將其封裝在實例類型中,并為這樣的功能進行優化。
3)設置實例的大小
實例應該有足夠的容量來滿足企業自身的工作負載要求,并在必要時包括諸如突發之類的選項。
4)檢查不同的定價模型
三大云提供商提供不同的費率:按需(按需付費)、預留容量、Spot實例和專用主機。這些選項中都有其優點和缺點。
4、使用 Spot 實例節省更多成本
從 AWS 和其他大型云提供商處購買閑置容量是明智之舉,因為Spot實例比按需實例便宜 90%。但是,有一個問題:供應商保留隨時收回這些資源的權利。企業需要確保其應用程序已為此做好準備。
以下是使用 Spot 實例的方法:
1)檢查工作負載,了解其是否已準備好用于Spot 實例
能否承受中斷?完成這項工作需要多長時間?這是任務關鍵型工作負載嗎?這些問題有助于確定 Spot 實例的工作負載。

2)檢查云提供商的服務
查看不太流行的實例是個不錯的選擇,因為它們不太可能被中斷并且可以運行更長的時間。在確定實例之前檢查實例的中斷頻率。
3)出價時機
設置準備為所選 Spot 實例支付的最高金額。請注意,它只會在市場價格滿足您的報價(或更低)時運行。在按需定價水平上設置最高價格是我們的經驗。
4)分組管理spot實例
這樣,企業將能夠一次請求多種實例類型,從而增加獲得 Spot 實例的機會。
為了使上述所有工作順利進行,需要準備好在配置、設置和維護任務上花費大量時間(除非決定將其自動化)。
5、不要被儲蓄計劃的承諾所吸引
以更便宜的價格提前一到三年預留容量似乎是一個合理的選擇。當企業必然會使用該服務時,為什么不提前購買容量呢?
我們已經了解到預測云成本很困難。即使是擁有整個團隊致力于云成本優化的公司也難以做到這一點。
當企業不了解其團隊在一到三年內需要多少容量時,企業如何提前計劃容量?這是預留實例和儲蓄計劃等產品的主要問題。
關于預留容量,企業應該了解以下幾點:
6、為工作選擇合適的工具
為了控制云成本,企業采用了多種成本管理、優化策略和解決方案:
1)成本可見性和分配——使用各種成本分配、監控和報告工具,企業可以找出費用的來源。實時成本監控用處很大,因為它會在超過設定的閾值時做出提醒。例如在 Azure 上運行的計算操作導致Adobe 的一個團隊意外收取超過50萬美元的云費用。然而一個警報就可以防止這種情況發生。
2)成本預算和預測——如果企業處理了足夠的歷史數據并對未來的需求有一個清晰的認識,那么就可以估計其團隊需要多少資源并計劃預算。
3)遺留成本優化解決方案——企業可以在此處結合前兩點中獲得的所有信息,以創建云支出的完整圖景并發現潛在的改進對象。市場上的許多解決方案都可以提供幫助,例如 Cloudability 或 VMware 的 CloudHeath。但大多數時候,他們給出的只是工程師手動實施的靜態建議。
4)自動化的云原生成本優化——這是降低企業云成本的最強大的解決方案。這種類型的優化不需要團隊進行任何額外的工作,并且可以全天候節省 50% 甚至更多,即使企業已經在手動優化方面做得很好。一個完全自主和自動化的解決方案,可以快速地對資源需求或定價的變化作出反應,這是最佳方法。
7、云自動化為最大程度的節省提供幫助
從以上幾點可以看出,人工成本優化是一個復雜且耗時的過程。
而且無論工程師的技能水平如何,許多成本優化任務都不適合人工完成。
分配、理解、分析和預測云費用是十分困難的。企業需要進行基礎架構調整、調查定價計劃、啟動更多實例并執行各種其他任務以創建具有成本效益的基礎架構。
自動化可以使企業免去以下許多工作:

除了擺脫上述所有工作之外,自動化解決方案還增加了更多價值,因為它:
最重要的是,自動化平臺實時實施所有這些修改,掌握云成本優化的時間點特性。
我們結合使用 AWS On-Demand 和 Spot 實例來運行在 8 個 CPU 和 16 GB RAM 上運行的應用程序。
然后我們決定通過 CAST AI 運行它來檢查我們的配置是否優化。該平臺建議移動到 Spot 實例 INF1。但是,這不是一個昂貴的、ML 專用的 GPU 實例嗎?
事實證明,當時那個實例實際上比我們使用的通用計算實例便宜。如果沒有自動化,我們就會失去這個隱藏的寶藏。

通過本文的Zoom、Spotify或La Fourche等示例可以了解到,降低云成本會對企業的利潤產生重大影響。
云成本優化是企業唾手可得的成果。但是諸如費用監控和報告之類的標準策略只會讓企業以巨大的工程師時間成本實現一半的效果。

