訪談:GridGain軟件通過(guò)集群服務(wù)器實(shí)現(xiàn)內(nèi)存共享,使內(nèi)存密集型應(yīng)用能夠在單臺(tái)服務(wù)器內(nèi)存不足的情況下正常運(yùn)行。隨著AI推理所需的令牌(編碼數(shù)據(jù)項(xiàng))數(shù)量持續(xù)增長(zhǎng),這一能力變得愈發(fā)重要。
該軟件在x86服務(wù)器集群中提供分布式內(nèi)存空間,采用大規(guī)模并行架構(gòu)。GridGain已捐贈(zèng)給Apache基金會(huì),成為開(kāi)源的Apache Ignite分布式數(shù)據(jù)管理系統(tǒng),將服務(wù)器內(nèi)存用作組合存儲(chǔ)和處理的內(nèi)存層,并由SSD/HDD層提供備份支持。數(shù)據(jù)以鍵值對(duì)形式存儲(chǔ)并分布在整個(gè)集群中。該軟件可在本地部署或在AWS、Azure和GCP公有云中運(yùn)行。
GridGain聲稱其引擎可用于任何數(shù)據(jù)驅(qū)動(dòng)的分析或事件處理項(xiàng)目,不僅限于AI應(yīng)用。該公司表示,其軟件提供超低延遲的分布式多模型數(shù)據(jù)存儲(chǔ)和計(jì)算引擎,兩者結(jié)合或共同部署,使企業(yè)數(shù)據(jù)能夠?qū)崟r(shí)供AI推理引擎使用。同時(shí)消除了數(shù)據(jù)平面和計(jì)算平面之間的數(shù)據(jù)移動(dòng),從而提高端到端數(shù)據(jù)處理效率。GridGain完全支持ANSI 2016 SQL標(biāo)準(zhǔn),并提供鍵值、行、列、文檔、非結(jié)構(gòu)化等多種數(shù)據(jù)處理能力。
我們采訪了首席技術(shù)官Lalit Ahuja,深入了解GridGain的AI能力。
問(wèn):數(shù)據(jù)以鍵值對(duì)形式存儲(chǔ)并分布在集群中。GridGain如何幫助AI大語(yǔ)言模型訓(xùn)練?
Lalit Ahuja:GridGain是一個(gè)超低延遲數(shù)據(jù)處理平臺(tái),結(jié)合歷史/上下文數(shù)據(jù)的可用性與復(fù)雜分析和AI工作負(fù)載的執(zhí)行,實(shí)現(xiàn)實(shí)時(shí)推理。
GridGain尚未用于訓(xùn)練大語(yǔ)言模型(至少我們知曉的范圍內(nèi)沒(méi)有),但該平臺(tái)經(jīng)常用于加速AI模型訓(xùn)練,包括生成訓(xùn)練測(cè)試數(shù)據(jù)或持續(xù)訓(xùn)練,可以從傳入的交易和事件中實(shí)時(shí)提取特征或生成向量嵌入,并在GridGain內(nèi)為模型訓(xùn)練提供支持。
問(wèn):在過(guò)去12個(gè)月中,GridGain在AI大語(yǔ)言模型訓(xùn)練和推理方面取得了哪些成就?
Lalit Ahuja:GridGain在大語(yǔ)言模型領(lǐng)域的最大價(jià)值主張是能夠?yàn)長(zhǎng)LM提示和RAG應(yīng)用引入實(shí)時(shí)性。通過(guò)動(dòng)態(tài)生成向量嵌入,將其寫(xiě)入內(nèi)存向量存儲(chǔ)并供RAG應(yīng)用使用,GridGain為應(yīng)用程序?qū)崿F(xiàn)了更準(zhǔn)確、及時(shí)、相關(guān)的生成式AI交互。
例如,在交互式語(yǔ)音應(yīng)答系統(tǒng)中,客戶的評(píng)論被實(shí)時(shí)處理以生成相關(guān)響應(yīng)和有意義的交互,從而減少客戶要求與人工客服通話的時(shí)間。同樣,在企業(yè)事件管理通信中,基于處理事件或事故最新?tīng)顟B(tài)作為L(zhǎng)LM企業(yè)生成式AI應(yīng)用的提示,實(shí)時(shí)起草可接受的消息。
問(wèn):GridGain專注于x86服務(wù)器內(nèi)存還是GPU(HBM)內(nèi)存?這兩種用例有何不同?
Lalit Ahuja:GridGain并不專門針對(duì)某種底層硬件/內(nèi)存架構(gòu)。該平臺(tái)可以與這兩種選項(xiàng)配合使用,由最終用戶決定哪種對(duì)他們更有價(jià)值。許多GridGain客戶沒(méi)有基于GPU的基礎(chǔ)設(shè)施,也不認(rèn)為需要在此類基礎(chǔ)設(shè)施上投資,而其他客戶(特別是銀行業(yè),更具體地說(shuō)是資本市場(chǎng)子領(lǐng)域)在GPU上運(yùn)行GridGain,以提高實(shí)時(shí)風(fēng)險(xiǎn)分析、投資組合管理和自動(dòng)交易執(zhí)行決策的執(zhí)行性能。
問(wèn):GridGain是否與下游AI管道或存儲(chǔ)供應(yīng)商集成,為其提供數(shù)據(jù)加載到內(nèi)存中?
Lalit Ahuja:GridGain確實(shí)與許多上游和下游AI技術(shù)(包括管道或存儲(chǔ)供應(yīng)商)集成,但它還為用戶提供獨(dú)特能力,可以實(shí)際處理事件和交易,用歷史上下文數(shù)據(jù)豐富它們,提取特征,生成向量,并在這些策劃數(shù)據(jù)上執(zhí)行任何AI工作負(fù)載,所有這些都在交易或事件驅(qū)動(dòng)決策的上下文中進(jìn)行。GridGain將低延遲分布式內(nèi)存數(shù)據(jù)存儲(chǔ)與計(jì)算引擎結(jié)合在同一資源池中的底層能力,最小化了跨網(wǎng)絡(luò)移動(dòng)數(shù)據(jù)或任何形式的磁盤I/O(與讀寫(xiě)基于磁盤的存儲(chǔ)相關(guān))引入的延遲,使此類處理更高效且真正實(shí)時(shí)。
問(wèn):GridGain內(nèi)存是否是具有數(shù)據(jù)攝取和驅(qū)逐以及攝取和驅(qū)逐緩存規(guī)則的緩存?它是如何工作的?
Lalit Ahuja:是的,但功能遠(yuǎn)不止于此。GridGain是(或可以是)資源集群(服務(wù)器、虛擬機(jī)、節(jié)點(diǎn)、容器等,同時(shí)部署在本地、任何云或兩者結(jié)合),數(shù)據(jù)分布在集群的內(nèi)存中。該集群可以在數(shù)據(jù)中心內(nèi)或跨數(shù)據(jù)中心水平擴(kuò)展。
集群可以配置為維護(hù)完整數(shù)據(jù)完整性,具有ACID合規(guī)性和零數(shù)據(jù)丟失,可選的持久磁盤存儲(chǔ)用于備份、快照和時(shí)間點(diǎn)恢復(fù)功能。在數(shù)據(jù)管理方面,是的,可以配置驅(qū)逐策略來(lái)自動(dòng)管理內(nèi)存中熱數(shù)據(jù)的生命周期,通過(guò)基于策略的驅(qū)逐到GridGain自己的管理磁盤存儲(chǔ)或任何第三方持久存儲(chǔ)。
在數(shù)據(jù)攝取方面,GridGain公開(kāi)了許多基于標(biāo)準(zhǔn)的API(Java、C++、C#、SQL、REST、Python等),并與多種商業(yè)和開(kāi)源流媒體和CDC(變更數(shù)據(jù)捕獲)技術(shù)集成,用于從各種來(lái)源(包括RDBMS、NoSQL數(shù)據(jù)庫(kù)、大型機(jī)、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)湖)攝取數(shù)據(jù),無(wú)論是本地還是基于云的。
問(wèn):集群服務(wù)器內(nèi)存內(nèi)容如何保持同步和組織?服務(wù)器內(nèi)存之間是否有通信?
Lalit Ahuja:數(shù)據(jù)在集群內(nèi)的各個(gè)內(nèi)存資源之間分區(qū),可選擇在集群中復(fù)制數(shù)據(jù)(RF2、RF3等)以實(shí)現(xiàn)冗余、高可用性和可配置的即時(shí)/嚴(yán)格或最終一致性。集群中的資源不斷相互通信;數(shù)據(jù)一致性和集群組織由GridGain內(nèi)實(shí)現(xiàn)的強(qiáng)大行業(yè)標(biāo)準(zhǔn)共識(shí)協(xié)議管理。
問(wèn):GridGain與WEKA的增強(qiáng)內(nèi)存網(wǎng)格有何關(guān)系?
Lalit Ahuja:GridGain的AI數(shù)據(jù)存儲(chǔ)與WEKA的增強(qiáng)內(nèi)存網(wǎng)格之間存在一些重疊。話雖如此,WEKA類數(shù)據(jù)網(wǎng)格支持的用例與GridGain擅長(zhǎng)的用例略有不同。WEKA的價(jià)值可能在于圍繞可重復(fù)使用AI令牌的規(guī)模經(jīng)濟(jì),而GridGain的差異化在于其從原始數(shù)據(jù)動(dòng)態(tài)生成此類令牌并使其可用于實(shí)時(shí)AI/分析驅(qū)動(dòng)用例的能力。
基于與任何后端數(shù)據(jù)存儲(chǔ)配合工作的核心設(shè)計(jì)/功能原則,我們已開(kāi)始探索與WEKA網(wǎng)格集成,將其作為更多歷史分析用例的數(shù)據(jù)源,圍繞趨勢(shì)、模式、預(yù)測(cè)等。
問(wèn):GridGain是否適用于邊緣AI推理用例?
Lalit Ahuja:是的,因?yàn)镚ridGain可以在邊緣基礎(chǔ)設(shè)施上運(yùn)行——我們?cè)陔娦藕臀锫?lián)網(wǎng)相關(guān)邊緣計(jì)算應(yīng)用中看到了用途。它可以對(duì)從本地傳感器、設(shè)備或事件流,或其他連接的GridGain集群傳遞或饋送到邊緣集群的相關(guān)數(shù)據(jù)運(yùn)行本地化計(jì)算/分析——全球部署的GridGain集群可以有選擇地在彼此之間復(fù)制數(shù)據(jù),并具有防止網(wǎng)絡(luò)分段的額外能力(如果這是一個(gè)問(wèn)題的話)。
問(wèn):GridGain技術(shù)與MemVerge的技術(shù)有何關(guān)系?
Lalit Ahuja:GridGain與MemVerge的技術(shù)沒(méi)有直接關(guān)系,但我們不斷評(píng)估更好地優(yōu)化處理能力的方法,并為客戶在底層資源管理方面提供經(jīng)濟(jì)選擇。
問(wèn):CXL將如何影響GridGain?
Lalit Ahuja:CXL也是我們正在考慮的技術(shù)之一,以幫助優(yōu)化底層資源的利用。在這種情況下,更多的是為了改善我們的數(shù)據(jù)復(fù)制和可用性能力。
注釋:RF-2是恢復(fù)力或冗余因子-2,意味著數(shù)據(jù)在系統(tǒng)中有一個(gè)冗余副本。RF-3意味著有兩個(gè)額外副本,以增強(qiáng)對(duì)數(shù)據(jù)丟失的安全性。