AI已成為現(xiàn)代企業(yè)的"圣杯"。無論是客戶服務(wù)還是管道維護等細(xì)分領(lǐng)域,各行各業(yè)的組織都在部署AI技術(shù)——從基礎(chǔ)模型到視覺語言模型——以提高效率。目標(biāo)很明確:通過自動化任務(wù)來更高效地交付成果,同時節(jié)省資金和資源。
然而,當(dāng)這些項目從試點階段過渡到生產(chǎn)階段時,團隊遇到了意想不到的障礙:云成本正在侵蝕他們的利潤。成本沖擊如此嚴(yán)重,以至于曾經(jīng)被視為創(chuàng)新和競爭優(yōu)勢最快路徑的云服務(wù),瞬間變成了不可持續(xù)的預(yù)算黑洞。
這促使CIO們重新思考一切——從模型架構(gòu)到部署模式——以重新控制財務(wù)和運營方面。有時,他們甚至完全關(guān)閉項目,從頭開始。
但事實是:雖然云服務(wù)可能將成本推高到難以承受的水平,但它并非罪魁禍?zhǔn)住D阒恍枰私膺x擇什么樣的載體(AI基礎(chǔ)設(shè)施)來走哪條路(工作負(fù)載)。
**云服務(wù)的故事——及其適用場景**
云服務(wù)很像公共交通(地鐵和公交車)。你通過簡單的租賃模式搭乘,立即獲得所有資源——從GPU實例到跨地域的快速擴展——將你送達(dá)目的地,而且工作和設(shè)置量極少。
通過服務(wù)模式的快速便捷訪問確保了無縫啟動,為項目落地和快速實驗鋪平道路,而無需購買專用GPU的巨額前期資本支出。
大多數(shù)早期初創(chuàng)公司發(fā)現(xiàn)這種模式很有吸引力,因為他們最需要的是快速周轉(zhuǎn),特別是在他們?nèi)栽隍炞C模型和確定產(chǎn)品市場契合度時。
語音AI公司Speechmatics的產(chǎn)品負(fù)責(zé)人Rohan Sarin告訴VentureBeat:"你創(chuàng)建賬戶,點擊幾個按鈕,就能訪問服務(wù)器。如果需要不同的GPU規(guī)格,你關(guān)閉并重啟新規(guī)格的實例,只需幾分鐘。如果想同時運行兩個實驗,你初始化兩個獨立實例。在早期階段,重點是快速驗證想法。使用大多數(shù)云平臺提供的內(nèi)置擴展和實驗框架有助于縮短里程碑之間的時間。"
**"便利"的代價**
雖然云服務(wù)對早期使用完全合理,但當(dāng)項目從測試驗證轉(zhuǎn)向?qū)嶋H應(yīng)用量時,基礎(chǔ)設(shè)施成本變得嚴(yán)峻。工作負(fù)載規(guī)模使賬單變得殘酷——成本可能一夜之間飆升超過1000%。
這在推理方面尤其明顯,不僅需要24/7運行以確保服務(wù)正常運行,還要隨客戶需求擴展。
Sarin解釋說,在大多數(shù)情況下,推理需求高峰期正好是其他客戶也在請求GPU訪問時,增加了資源競爭。在這種情況下,團隊要么保持預(yù)留容量以確保獲得所需資源——導(dǎo)致非高峰時段GPU空閑——要么遭受延遲,影響下游體驗。
AI合規(guī)平臺EasyAudit AI的CEO Christian Khoury將推理描述為新的"云稅",他告訴VentureBeat,他見過公司僅因推理流量就從每月5,000美元一夜之間增長到50,000美元。
值得注意的是,涉及大語言模型的推理工作負(fù)載采用基于令牌的定價,可能引發(fā)最陡峭的成本增長。這是因為這些模型是非確定性的,在處理長期運行任務(wù)(涉及大型上下文窗口)時可能產(chǎn)生不同輸出。隨著持續(xù)更新,預(yù)測或控制LLM推理成本變得非常困難。
訓(xùn)練這些模型往往是"突發(fā)性的"(集群式發(fā)生),這確實為容量規(guī)劃留下了一些空間。然而,即使在這些情況下,特別是隨著日益激烈的競爭迫使頻繁重訓(xùn)練,企業(yè)可能因過度配置導(dǎo)致的GPU空閑時間而產(chǎn)生巨額賬單。
Sarin解釋說:"云平臺上的訓(xùn)練額度很昂貴,快速迭代周期中的頻繁重訓(xùn)練可能迅速推高成本。長期訓(xùn)練運行需要訪問大型機器,大多數(shù)云提供商只有在你預(yù)留一年或更長時間容量時才保證訪問。如果你的訓(xùn)練運行只持續(xù)幾周,你仍需為一年的剩余時間付費。"
不僅如此,云鎖定是真實存在的。假設(shè)你做了長期預(yù)留并從提供商購買了額度,你就被鎖定在他們的生態(tài)系統(tǒng)中,必須使用他們提供的任何服務(wù),即使其他提供商已轉(zhuǎn)向更新更好的基礎(chǔ)設(shè)施。最后,當(dāng)你能夠遷移時,可能需要承擔(dān)巨額出口費用。
Sarin強調(diào):"這不僅僅是計算成本。你還會遇到...不可預(yù)測的自動擴展,以及在區(qū)域或供應(yīng)商之間移動數(shù)據(jù)時的瘋狂出口費用。有一個團隊移動數(shù)據(jù)的費用比訓(xùn)練模型還高。"
**解決方案是什么?**
鑒于擴展AI推理的持續(xù)基礎(chǔ)設(shè)施需求和訓(xùn)練的突發(fā)性質(zhì),企業(yè)正在轉(zhuǎn)向拆分工作負(fù)載——將推理轉(zhuǎn)移到托管或本地堆棧,同時將訓(xùn)練留在云端使用現(xiàn)貨實例。
這不僅僅是理論——這是工程領(lǐng)導(dǎo)者試圖將AI投入生產(chǎn)而不燒錢的日益增長的運動。
Khoury補充說:"我們幫助團隊使用他們控制的專用GPU服務(wù)器轉(zhuǎn)向托管進(jìn)行推理。雖然不性感,但它將月度基礎(chǔ)設(shè)施支出削減了60-80%。混合不僅更便宜——更聰明。"
他說,在一個案例中,一家SaaS公司通過將推理工作負(fù)載從云端遷移出來,將月度AI基礎(chǔ)設(shè)施賬單從約42,000美元減少到僅9,000美元。轉(zhuǎn)換在不到兩周內(nèi)就收回了成本。
另一個需要AI客戶支持工具一致的50毫秒以下響應(yīng)的團隊發(fā)現(xiàn),基于云的推理延遲不夠。通過托管將推理轉(zhuǎn)移到更接近用戶的位置,不僅解決了性能瓶頸——還將成本減半。
設(shè)置通常是這樣工作的:始終在線且對延遲敏感的推理在專用GPU上運行,要么在本地要么在附近數(shù)據(jù)中心(托管設(shè)施)。同時,計算密集但間歇性的訓(xùn)練留在云端,你可以按需啟動強大集群,運行幾小時或幾天,然后關(guān)閉。
廣泛估計,從超大規(guī)模云提供商租賃每GPU小時的成本可能比與較小提供商合作高出三到四倍,與本地基礎(chǔ)設(shè)施相比差異更加顯著。
另一個重大好處?可預(yù)測性。
通過本地或托管堆棧,團隊還完全控制他們想要為預(yù)期推理工作負(fù)載基線配置或添加的資源數(shù)量。這為基礎(chǔ)設(shè)施成本帶來了可預(yù)測性——并消除了意外賬單。它還減少了調(diào)優(yōu)擴展和保持云基礎(chǔ)設(shè)施成本合理的積極工程努力。
混合設(shè)置還有助于減少時間敏感AI應(yīng)用的延遲,并實現(xiàn)更好的合規(guī)性,特別是對于在金融、醫(yī)療保健和教育等高度監(jiān)管行業(yè)運營的團隊——在這些行業(yè)中,數(shù)據(jù)駐留和治理是不可協(xié)商的。
**混合復(fù)雜性是真實的——但很少成為交易破壞者**
一如既往,轉(zhuǎn)向混合設(shè)置帶來了自己的運營稅。建立自己的硬件或租用托管設(shè)施需要時間,在云外管理GPU需要不同類型的工程能力。
然而,領(lǐng)導(dǎo)者認(rèn)為,復(fù)雜性通常被夸大,通??梢酝ㄟ^內(nèi)部或外部支持管理,除非在極端規(guī)模下運營。
Sarin解釋說:"我們的計算顯示,本地GPU服務(wù)器的成本大約相當(dāng)于從AWS、Azure或Google Cloud租用等效實例六到九個月的費用,即使是一年預(yù)留費率。由于硬件通常至少持續(xù)三年,通常超過五年,這在前九個月內(nèi)就變得成本積極。一些硬件供應(yīng)商還為資本基礎(chǔ)設(shè)施提供運營定價模式,因此如果現(xiàn)金流是問題,你可以避免預(yù)付款項。"
**按需求優(yōu)先排序**
對于任何公司,無論是初創(chuàng)公司還是企業(yè),在架構(gòu)——或重新架構(gòu)——AI基礎(chǔ)設(shè)施時成功的關(guān)鍵在于根據(jù)手頭的具體工作負(fù)載工作。
如果你不確定不同AI工作負(fù)載的負(fù)荷,從云開始,通過為每個資源標(biāo)記負(fù)責(zé)團隊來密切關(guān)注相關(guān)成本。你可以與所有經(jīng)理分享這些成本報告,深入了解他們使用什么及其對資源的影響。這些數(shù)據(jù)將提供清晰度,并幫助為推動效率鋪平道路。
話雖如此,記住這不是完全拋棄云;而是優(yōu)化其使用以最大化效率。
Khoury補充說:"云仍然非常適合實驗和突發(fā)訓(xùn)練。但如果推理是你的核心工作負(fù)載,擺脫租賃跑步機?;旌喜粌H更便宜...更聰明。將云視為原型,而非永久家園。計算數(shù)學(xué)。與你的工程師交談。云永遠(yuǎn)不會告訴你什么時候它是錯誤的工具。但你的AWS賬單會。"