生成式AI的飛速發(fā)展使得企業(yè)難以有效地實(shí)施和衡量這項(xiàng)技術(shù),同時(shí)防范偏見和風(fēng)險(xiǎn)。
企業(yè)要么已經(jīng)部署了生成式AI、要么正在積極探索生成式AI的速度,正在加快達(dá)到一個(gè)幾乎沒有什么企業(yè)會(huì)拒絕的轉(zhuǎn)折點(diǎn)上。
2022年11月,還幾乎沒有什么企業(yè)使用生成式AI,唯一可用的工具就是AI圖像或者早期的文本生成器。但是根據(jù)IDC的調(diào)查顯示,到2023年5月,有65%的企業(yè)正在使用生成式AI,而到了9月這個(gè)數(shù)字上升至71%,另有22%的企業(yè)計(jì)劃在未來(lái)12個(gè)月內(nèi)實(shí)施生成式AI。
根據(jù)IBM在今年1月發(fā)布的一份報(bào)告顯示,即使在起步階段,生成式AI也已經(jīng)成為一種公認(rèn)的行動(dòng)和應(yīng)用方案,最常見的用例包括IT流程自動(dòng)化、安全和威脅檢測(cè)、供應(yīng)鏈智能、客戶服務(wù)和網(wǎng)絡(luò)流程自動(dòng)化。另外,當(dāng)你添加了ChatGPT等基于云的生成式AI工具時(shí),以某種形式使用生成式AI的用例幾乎隨處可見。
這還不包括現(xiàn)在嵌入了Office 365、Google Docs和Salesforce等平臺(tái)的生成式AI。
然而,再深入到難度更大一些的實(shí)施環(huán)境中,就可能會(huì)出現(xiàn)各種問題,例如微調(diào)模型、向AI系統(tǒng)提供上下文和最新信息的矢量數(shù)據(jù)庫(kù),以及將AI集成到工作流程中的API。構(gòu)建企業(yè)級(jí)生成式AI平臺(tái)就像要射中一個(gè)移動(dòng)的目標(biāo),AI的進(jìn)步速度遠(yuǎn)遠(yuǎn)快于他們能夠適應(yīng)的速度。
卡內(nèi)基梅隆大學(xué)人工智能教授Anand Rao表示:“這使得組織實(shí)施生成式AI變得充滿挑戰(zhàn)。不同的工具、模型和向量數(shù)據(jù)庫(kù)不斷發(fā)展,新的論文不斷涌現(xiàn),這對(duì)企業(yè)來(lái)說非常具有挑戰(zhàn)性。他們需要穩(wěn)定。告訴我接下來(lái)三個(gè)月要做什么;不要每?jī)芍芤磺芯投甲兞?。?
根據(jù)英特爾cnvrg.io在去年12月發(fā)布的調(diào)查結(jié)果顯示,由于這一挑戰(zhàn)的復(fù)雜性,加上所涉及的成本和所需的專業(yè)知識(shí),去年只有10%的組織實(shí)際上能夠?qū)⑸墒紸I模型投入生產(chǎn)。
但這并不意味著企業(yè)應(yīng)該坐等事情平息下來(lái)。為了幫助重新獲得主動(dòng)權(quán),現(xiàn)在可以應(yīng)用一些最佳實(shí)踐來(lái)開始構(gòu)建生成式AI平臺(tái)——這些實(shí)踐將使其能夠隨著技術(shù)的變化而快速適應(yīng),包括構(gòu)建強(qiáng)大的現(xiàn)代數(shù)據(jù)和API基礎(chǔ)設(shè)施、在企業(yè)應(yīng)用和他們使用的AI模型之間構(gòu)建一個(gè)AI抽象層、設(shè)置安全和成本策略、使用護(hù)欄和道德框架來(lái)指導(dǎo)他們部署生成式AI的方式。
數(shù)據(jù)和API基礎(chǔ)設(shè)施
“數(shù)據(jù)仍然很重要,”倫敦獨(dú)立分析師和咨詢公司Omdia的AI平臺(tái)、分析和數(shù)據(jù)管理首席分析師Bradley Shimmin這樣表示。然而,根據(jù)IBM的調(diào)查,數(shù)據(jù)復(fù)雜性是繼缺乏專業(yè)知識(shí)之后采用的第二大障礙,對(duì)于那些希望將大型語(yǔ)言模型投入生產(chǎn)環(huán)境的企業(yè)來(lái)說,基礎(chǔ)設(shè)施是最大的挑戰(zhàn)。
另一個(gè)挑戰(zhàn)是企業(yè)由于數(shù)據(jù)管理能力不足而無(wú)法滿足業(yè)務(wù)的需求。麥肯錫公司合伙人Nayur Khan表示,最重要的一個(gè)問題就是大多數(shù)組織都沒有計(jì)劃?!八麄儑L試做一些事情,看看什么能堅(jiān)持下去?!钡S著生成式AI模型以服務(wù)的形式(例如OpenAI API)提供,在某些用例中,企業(yè)可以跳過去直接把AI部署為服務(wù)。
Khan說:“現(xiàn)在生成式AI成為我可以調(diào)用的服務(wù),我不必?fù)?dān)心訓(xùn)練的問題,這很好,但是語(yǔ)言模型對(duì)于語(yǔ)言來(lái)說非常有用,模型不擅長(zhǎng)知識(shí),”知識(shí)是存在于組織內(nèi)部的。
例如,一家零售企業(yè)可能擁有360度的客戶視圖,這些視圖全部輸入到分析引擎、機(jī)器學(xué)習(xí)和其他傳統(tǒng)AI中,以計(jì)算下一個(gè)最佳行動(dòng)策略,然后生成式AI可以用其向客戶發(fā)送個(gè)性化的消息。因此,通用語(yǔ)言模型通過使用企業(yè)數(shù)據(jù)成為一種有用的業(yè)務(wù)工具,每個(gè)人都在嘗試構(gòu)建這種類型的應(yīng)用。
Khan說:“我在所有行業(yè)都看到了這種情況的發(fā)生,從高科技和銀行業(yè)一直到農(nóng)業(yè)和保險(xiǎn)業(yè)?!彼f,這迫使企業(yè)加快了數(shù)字化的步伐,解決所有他們說過要做但從未抽出時(shí)間去做的事情。
企業(yè)不僅必須具備基本的構(gòu)建能力用于分析和MLOps,而且還需要專門為生成式AI構(gòu)建新的數(shù)據(jù)結(jié)構(gòu)和管道。
當(dāng)一家企業(yè)想要在特定領(lǐng)域微調(diào)模型或創(chuàng)建新模型的時(shí)候,就需要做出關(guān)于采用什么數(shù)據(jù)架構(gòu)、采用哪種模型或者模型類型等等。全球數(shù)字咨詢公司Publicis Sapient的高級(jí)副總裁Sheldon Monteiro表示:“這讓復(fù)雜性陡然增加?!?
即使是一個(gè)較為簡(jiǎn)單的項(xiàng)目,比如向現(xiàn)有的AI模型添加外部數(shù)據(jù)源,也需要矢量數(shù)據(jù)庫(kù)、恰當(dāng)?shù)哪P瓦x擇和工業(yè)級(jí)管道。
但這一切都始于數(shù)據(jù),而這是許多企業(yè)落后的方面。如果沒有單一的整體戰(zhàn)略,每個(gè)部門都會(huì)制定他們自己的解決方案。
Monteiro表示:“如果你這樣做了,最終就會(huì)犯更多的錯(cuò)誤,一遍又一遍地重新學(xué)習(xí)同樣的事情,作為CIO,你必須采取架構(gòu)上的方法并且投資一個(gè)通用的平臺(tái)。”
然后是收集和準(zhǔn)備數(shù)據(jù)這項(xiàng)艱苦的工作。他說,質(zhì)量檢查和驗(yàn)證,對(duì)于建立堅(jiān)實(shí)基礎(chǔ)來(lái)說是至關(guān)重要的,這樣就不會(huì)引入偏見,從而損害客戶和業(yè)務(wù)。
因此,如果特定數(shù)據(jù)集排除了最高價(jià)值的交易處理,因?yàn)檫@些交易都是手動(dòng)處理的,那么生成的模型可能會(huì)偏向規(guī)模較小的、利潤(rùn)較低的業(yè)務(wù)線。垃圾進(jìn)、垃圾出,這適用于生成式AI的新時(shí)代,就像以前各種技術(shù)發(fā)展時(shí)代一樣。
Monteiro表示,對(duì)于已經(jīng)投資了數(shù)據(jù)基礎(chǔ)設(shè)施的企業(yè)來(lái)說,這些投資將在未來(lái)繼續(xù)獲得回報(bào)。他表示:“投資了數(shù)據(jù)基礎(chǔ)的企業(yè)在生成式AI方面擁有巨大的領(lǐng)先優(yōu)勢(shì)。”
盡管如此,這些最初為高級(jí)分析和機(jī)器學(xué)習(xí)用例設(shè)計(jì)的傳統(tǒng)數(shù)據(jù)基礎(chǔ)也只能走到這一步了。
Omdia公司的Shimmin說:“如果你想超越基礎(chǔ)知識(shí)這個(gè)層面,你就需要了解生成式AI的一些更深層次的微妙之處。不同的嵌入模型之間有什么區(qū)別,什么是分塊,什么是重疊?你可以使用哪些不同的方法以最有效的方式對(duì)數(shù)據(jù)進(jìn)行標(biāo)記?你想要高維的還是低維的方法來(lái)節(jié)省矢量數(shù)據(jù)庫(kù)的空間?我們的MLOps工具并不是為了做到這一點(diǎn)而構(gòu)建的。這一切都非常復(fù)雜,如果你不知道自己在做什么,就可能會(huì)浪費(fèi)掉大量的時(shí)間和金錢?!?
但他表示,MLOps平臺(tái)廠商正在加緊努力?!癉ataku、DataRobot和Databricks等公司都提供了對(duì)LLMOps或者GenAIOps的支持,所有的小細(xì)節(jié)都開始就位了?!?
分析抽象層
去年11月,OpenAI出人意料地解雇了首席執(zhí)行官Sam Altman,引發(fā)了一場(chǎng)馬戲團(tuán)般的尋找新CEO的爭(zhēng)奪戰(zhàn),員工威脅要罷工,而微軟則提出要接納所有人。在那段動(dòng)蕩的日子里,許多使用OpenAI模型的企業(yè)突然意識(shí)到,他們把所有的雞蛋都放在了一個(gè)不穩(wěn)定的籃子里。
Constellation Research副總裁兼首席分析師Dion Hinchcliffe表示:“我們看到了很多和OpenAI的集成,但是OpenAI發(fā)生的整個(gè)管理問題讓人們質(zhì)疑他們是否做出了過度承諾。”
即使一家企業(yè)沒有倒閉,也可能很快就會(huì)被淘汰。去年夏初,ChatGPT幾乎是市場(chǎng)中的唯一,然后Facebook發(fā)布了Llama 2,對(duì)大多數(shù)企業(yè)客戶免費(fèi),隨后是Anthropic推出的Claude 2,提供了200000個(gè)token的上下文窗口——這足以讓用戶將相當(dāng)于一本600頁(yè)的書剪切并粘貼到提示中,也把GPT-4的32000個(gè)token甩在了身后。然而,谷歌也不甘示弱,2月宣布新的Gemini 1.5可以處理多達(dá)1000萬(wàn)個(gè)token,有了這個(gè),再加上提高了對(duì)視頻、音頻和書面副本處理的速度、效率和準(zhǔn)確性,幾乎就沒有限制了。
免費(fèi)開源模型的數(shù)量以及特定行業(yè)模型的數(shù)量持續(xù)激增,這些模型經(jīng)過金融、醫(yī)學(xué)或材料科學(xué)等方面的預(yù)先訓(xùn)練。
“似乎每周都會(huì)有新公告發(fā)布,”Publicis Sapient的Monteiro說道。
他說,這就是“模型花園”的用武之地。如果企業(yè)嚴(yán)格選擇和管理模型,并構(gòu)建系統(tǒng)以便可以輕松地?fù)Q入和換出模型,那么就能夠應(yīng)對(duì)這一領(lǐng)域的波動(dòng)。
但這個(gè)抽象層需要做的不僅僅是允許企業(yè)升級(jí)模型或?yàn)槊總€(gè)特定用例選擇最好的模型。
技術(shù)和咨詢公司W(wǎng)ipro Technologies的首席技術(shù)官Subha Tatavarti表示,這個(gè)抽象層還可以用于可觀察性、計(jì)量和基于角色的訪問控制。
她說,Wipro公司有245000名員工,別無(wú)選擇,只能采用生成式AI,因?yàn)榭蛻魧?duì)此是抱有期望的。
“我們本質(zhì)上是一家科技公司,我們必須這么做?!?
拓寬視野
可觀察性使企業(yè)能夠了解數(shù)據(jù)的去向、使用的模型、提示以及響應(yīng)需要多長(zhǎng)時(shí)間才能返回,還可以包括編輯或混淆敏感數(shù)據(jù)的機(jī)制。
一旦企業(yè)知道模型發(fā)生了什么,就可以實(shí)施計(jì)量控制——例如限制特定模型的使用量——以避免成本出現(xiàn)意外的飆升。
Tatavarti說:“目前,計(jì)量的工作方式是token消費(fèi)模式,這種方式可能會(huì)變得成本非常高?!?
此外,針對(duì)常見問題解答這個(gè)場(chǎng)景,企業(yè)可以緩存響應(yīng)以節(jié)省時(shí)間和金錢。對(duì)于某些用例,可能不需要昂貴的高端商用大型語(yǔ)言模型,因?yàn)楸镜赝泄艿拈_源模型可能就足夠了。
“所有這些都讓我們著迷,我的團(tuán)隊(duì)正在努力解決這個(gè)問題,這對(duì)我們來(lái)說是當(dāng)務(wù)之急?!?
當(dāng)涉及訪問控制時(shí),基本原則應(yīng)該是永遠(yuǎn)不要向組織公開原生API,而是有一個(gè)中間層來(lái)檢查權(quán)限并處理其他安全和管理任務(wù)。
IT企業(yè)Xebia的首席數(shù)字官Rajat Gupta表示,例如,如果人力資源平臺(tái)使用生成式AI來(lái)回答基于政策和其他信息向量數(shù)據(jù)庫(kù)的問題,那么員工應(yīng)該能夠詢問有關(guān)自己工資的問題,但不能詢問關(guān)于其他員工的問題——除非他們自己是經(jīng)理或在人力資源部門工作。
考慮到生成式AI在企業(yè)中跨不同業(yè)務(wù)部門和職能部門迅速普及,要從頭開始針對(duì)每個(gè)場(chǎng)景構(gòu)建這些控件,將是一場(chǎng)噩夢(mèng)。
他說:“工作量將是巨大的,而且會(huì)引發(fā)混亂?!?
Gupta也認(rèn)同需要構(gòu)建此類功能的企業(yè)應(yīng)該構(gòu)建一次然后再?gòu)?fù)用。他說:“把他們所需一切的共同點(diǎn)提取處理啊,例如安全、監(jiān)控、訪問控制,將其構(gòu)建為企業(yè)級(jí)平臺(tái)的一個(gè)組成部分?!?
他將這稱為AI網(wǎng)關(guān),開源MLflow AI Gateway就是一個(gè)例子。MLflow AI Gateway是在去年5月發(fā)布的,現(xiàn)已經(jīng)被棄用,取而代之的是MLflow Deployments Server。他的公司使用的另一個(gè)工具是Arthur AI的Arthur Shield,一個(gè)針對(duì)大型語(yǔ)言模型的防火墻,會(huì)過濾提示注入攻擊、臟話和其他惡意或危險(xiǎn)提示。
然后是Ragas,它可以幫助根據(jù)矢量數(shù)據(jù)庫(kù)中的實(shí)際信息檢查生成式AI的反應(yīng),以提高準(zhǔn)確性并減少幻覺。
“開源和商業(yè)領(lǐng)域有很多這樣的項(xiàng)目,”他說。
第三方AI平臺(tái)、初創(chuàng)公司和顧問也紛紛涌入,以填補(bǔ)各項(xiàng)空白。
Gupta說:“AI生態(tài)系統(tǒng)的發(fā)展方式令人驚訝,我們?cè)詾椴椒?huì)放慢,但事實(shí)并非如此,速度迅速加快?!?
因此,為了更快地進(jìn)入市場(chǎng),Xebia正在將這些不同的項(xiàng)目編織在一起,他說,但這并不能幫助AI公司不斷推出新的東西,例如由AI驅(qū)動(dòng)的自主代理。
“如果你正在使用自主代理,如何實(shí)際衡量整個(gè)代理項(xiàng)目的效率?實(shí)際監(jiān)控和控制是一個(gè)挑戰(zhàn)?!?
如今,Xebia限制了代理的自主權(quán),只允許他們執(zhí)行非常有限和精確的任務(wù)?!斑@是目前唯一的方法,限制他們可以使用的技能,并設(shè)置一個(gè)中央控制器,這樣他們就不會(huì)互相交談。我們對(duì)其進(jìn)行控制,直到我們有更進(jìn)化的理解和反饋循環(huán)。這是一個(gè)非常新的領(lǐng)域,所以要看看未來(lái)會(huì)如何發(fā)展?!?
構(gòu)建護(hù)欄
根據(jù)cnvrg.io的調(diào)查,對(duì)于那些實(shí)施生成式AI的企業(yè)來(lái)說,合規(guī)性和隱私是他們最關(guān)心的問題,其次是可靠性、成本和技術(shù)技能匱乏。
同樣地,根據(jù)IBM的調(diào)查,對(duì)于那些尚未實(shí)施生成式AI的企業(yè)來(lái)說,其中有57%的受訪者將數(shù)據(jù)隱私視為一大障礙,43%的受訪者將透明度視為障礙。此外,有85%的受訪者表示,消費(fèi)者更有可能選擇那些具有透明性且道德AI實(shí)踐的公司,但只有不到一半的受訪者致力于減少偏見、跟蹤數(shù)據(jù)來(lái)源、致力于使AI可解釋或制定道德的AI政策。
技術(shù)人員很容易專注于技術(shù)解決方案。道德AI超越了技術(shù)的范疇,還涉及法律和合規(guī)性,以及企業(yè)價(jià)值觀和身份問題。因此,這是首席信息官或者首席人工智能官可以挺身而出、為大型組織提供指導(dǎo)的一個(gè)方面。
甚至比這更進(jìn)一步。建立生成式AI友好型數(shù)據(jù)基礎(chǔ)設(shè)施、安全和管理控制以及道德準(zhǔn)則可能是全面實(shí)施大型語(yǔ)言模型的第一步。
安永美洲新興技術(shù)負(fù)責(zé)人Matt Barrington表示,生成式AI將要求CIO們重新思考技術(shù)。他說,在AI出現(xiàn)之前,軟件是具有確定性的。
他說:“你需要設(shè)計(jì)、構(gòu)建、測(cè)試和迭代,直到軟件按預(yù)期運(yùn)行。如果沒有按預(yù)期運(yùn)行,那就是一個(gè)錯(cuò)誤,你會(huì)回去修復(fù)它。如果按預(yù)期運(yùn)行,你就可以將它部署到生產(chǎn)中?!睙o(wú)論軟件模式如何,所有大型計(jì)算堆棧都是具有確定性的。他說,現(xiàn)在,除了量子計(jì)算之外,生成式AI是第一個(gè)廣為人知的、具有非確定性的軟件模式?!板e(cuò)誤實(shí)際上就是功能。它可以自行生成東西,這是它的主要賣點(diǎn)?!?
但這并不意味著舊的東西應(yīng)該全部扔掉。他說,MLOps和Pytorch仍然很重要,以及你要知道什么時(shí)候要做RAG嵌入模型、DAG或者采用多模態(tài)以及為生成式AI準(zhǔn)備數(shù)據(jù)一樣。
“所有這些事情都將保留下來(lái)并且很重要,但是,將會(huì)出現(xiàn)一個(gè)新的非確定性平臺(tái)堆棧,與傳統(tǒng)堆棧并存,具有全新的基礎(chǔ)設(shè)施工程和運(yùn)營(yíng)領(lǐng)域,以支持這些功能?!?
他表示,這將改變企業(yè)在核心層面的運(yùn)營(yíng)方式,朝著這個(gè)方向成為真正的AI驅(qū)動(dòng)型企業(yè),將成為一個(gè)快節(jié)奏的轉(zhuǎn)變。他說:“看到這些變化的發(fā)生,將會(huì)是一件非??岬氖虑??!?