找和獲取構建企業(yè)數(shù)據(jù)集所需的數(shù)據(jù),這對于那些希望構建自己的AI模型的組織來說是可能是最關鍵的一項任務。
咨詢公司Rockborne首席執(zhí)行官Waseem Ali表示,即使有實踐經(jīng)驗,事情也很容易出錯。“一切總是從數(shù)據(jù)開始的,如果你的數(shù)據(jù)不好,模型就不會好?!?
相反他建議,很多時候,企業(yè)面臨的挑戰(zhàn)不應該是想要用他們的第一個項目征服世界,而是先進行試點,讓他們能夠走得更遠。
檢查數(shù)據(jù)或數(shù)字項目的具體業(yè)務需求和要求,詢問需要解決什么問題,需要查詢什么“預感”,但首先要避免深入研究“全局影響”。
正如工業(yè)物聯(lián)網(wǎng)專業(yè)公司Hexagon的AI負責人Johannes Maunz所解釋的,從第一原則開始著手獲取特定用例的數(shù)據(jù)。
Maunz說:“沒有一個深度學習模型可以解決所有用例。將現(xiàn)狀與需要改進的地方進行比較,需要捕獲哪些可用數(shù)據(jù)?以小規(guī)?;蛴邢薜姆绞竭M行,僅針對那一個用例?!?
Hexagon的方法通常側(cè)重于自己的傳感器,其中包含墻壁、窗戶、門等建筑的數(shù)據(jù)。通過在瀏覽器中呈現(xiàn)的內(nèi)容,Hexagon可以了解數(shù)據(jù)及其標準、格式、一致性等。
首先考慮企業(yè)已經(jīng)擁有的、或者可以使用的、符合要求的數(shù)據(jù)和數(shù)據(jù)集。這通常需要與法律和隱私團隊密切合作,即使在工業(yè)內(nèi)部環(huán)境中也是如此。Maunz建議,要確保指定使用的數(shù)據(jù)不包含任何私人個人信息。然后,企業(yè)就可以構建他們想要使用的模型并對其進行訓練——假設成本和可行性都已經(jīng)到位。
接下來,你需要決策點透明度,以及信號值來評估可用性、可行性和業(yè)務效果等因素,或者潛在表現(xiàn)與競爭對手相比的數(shù)據(jù)等。
對于企業(yè)目前沒有的數(shù)據(jù),可能需要一些合作伙伴或客戶協(xié)商來獲取。
Maunz表示:“坦率地說,人們是非常開放——但總要有一份合同。只有這樣,我們才能開始我們通常所說的數(shù)據(jù)活動。有時候超過所需量的數(shù)據(jù)也是有意義的,這樣企業(yè)就可以進行向下采樣?!?
數(shù)據(jù)質(zhì)量和簡單性至關重要
供應鏈咨詢公司BearingPoint的合伙人Emile Naus強調(diào)了對AI/ML數(shù)據(jù)質(zhì)量的關注。要盡可能保持簡單,復雜性使正確的決策變得困難并且會損害結果——然后還有偏見和知識產(chǎn)權需要考慮。Naus補充說:“內(nèi)部數(shù)據(jù)并不完美,但至少你可以了解它有多好。”
他警告說,與易于使用的2D線擬合甚至3D線擬合相比,由AI/ML驅(qū)動的復雜多維線擬合可以帶來更好的結果——優(yōu)化生產(chǎn)、解決方案“配方”、最大限度地減少浪費等等——如果企業(yè)能夠“自由”地獲取所需的數(shù)據(jù)。
“和所有的模型一樣,因為AI模型被用于構建另一個模型,而模型總是出錯,因此數(shù)據(jù)治理是關鍵。你沒有的部分實際上可能更重要,你必須弄清楚數(shù)據(jù)的完整性和準確性?!?
鄧白氏(D&B)數(shù)據(jù)和分析高級副總裁Andy Crisp建議使用客戶洞察和關鍵數(shù)據(jù)元素來建立數(shù)據(jù)質(zhì)量標準和公差、測量和監(jiān)控。
Crisp表示:“例如,[客戶想要的、或從我們這里獲得的]數(shù)據(jù)也可能會為他們的模型提供信息,我們正在進行大約460億次數(shù)據(jù)質(zhì)量計算,獲取我們的數(shù)據(jù),然后可能根據(jù)這些標準再次進行計算,然后每月發(fā)布數(shù)據(jù)質(zhì)量觀察結果?!?
例如,通過特定標準,特定屬性必須表現(xiàn)得足夠好,才能傳遞給下一個團隊,團隊采用這些標準和公差、這些測量和觀察點的結果,與數(shù)據(jù)管理部門合作獲取、整理和維護數(shù)據(jù)。
“花時間做事并加深理解,別無他法。這就像,從切割一塊木頭開始,然后檢查長度,防止接下來你完全錯誤地切割了50塊木板?!?
企業(yè)需要“知道什么是好的”,以提高數(shù)據(jù)性能和洞察力,然后將它們整合在一起。保持問題陳述的嚴謹性,縮小所需數(shù)據(jù)集的數(shù)據(jù)識別范圍。細致的注釋和元數(shù)據(jù)可以實現(xiàn)控制數(shù)據(jù)集的管理,實現(xiàn)真正科學的方法,識別偏差并幫助最大限度地減少偏差。
謹防將多個因素混為一談的大膽陳述,確保要“測試到破壞”,這是IT企業(yè)不想“快速行動并打破常規(guī)”的一個領域。所有使用的數(shù)據(jù)都必須符合標準,而且必須不斷檢查和補救。
“測量和監(jiān)控,補救和改進,”Crisp指出,鄧白氏的質(zhì)量工程團隊是由全球約70名團隊成員組成的,“高質(zhì)量的工程能力將有助于減少幻覺等。”
Informatica北歐、中東和非洲地區(qū)副總裁Greg Hanson也認為,制定目標至關重要,可以幫助企業(yè)確定如何最好地利用時間進行信息編目、信息整合、訓練AI以支持結果所需的數(shù)據(jù)。
即使是企業(yè)自己的數(shù)據(jù)通常也會分散并隱藏在不同位置、云或本地環(huán)境中。
Hanson說:“對所有數(shù)據(jù)資產(chǎn)進行編目,了解這些數(shù)據(jù)所在的位置,也可以考慮使用AI來加快數(shù)據(jù)管理的速度?!?
確保在采集數(shù)據(jù)之前進行治理
在AI引擎采集數(shù)據(jù)之前要實施所有的數(shù)據(jù)質(zhì)量規(guī)則,并假設已經(jīng)采取了適當?shù)闹卫砗秃弦?guī)性。如果企業(yè)沒有進行衡量、量化和修復,那么只會更快地做出錯誤決策,Hanson補充說:“記住:垃圾進,垃圾出。”
數(shù)據(jù)套件廠商Precisely的首席技術官Tendü Yogurt?u表示,根據(jù)規(guī)模和行業(yè)類型,企業(yè)可以考慮成立指導委員會或跨職能委員會,幫助定義所有相關AI計劃的最佳實踐和流程。也可以通過識別團隊之間的常見用例或模式來幫助加速進程,隨著組織從試點和生產(chǎn)中學習,這些用例或模式本身也會持續(xù)發(fā)生變化。
數(shù)據(jù)治理框架可能需要擴展以涵蓋各種AI模型。話雖如此,潛在的AI用例比比皆是。
“以保險行業(yè)為例。為了模擬風險和定價準確性,保險公司需要有關野火和洪水風險、地塊地形、地塊內(nèi)建筑物的確切位置、與消防栓的距離以及與加油站等潛在危險點的距離等詳細信息,”Yogurt?u解釋說。
然而,咨詢公司Slalom的高級數(shù)據(jù)和分析負責人Richard Fayers警告稱,構建AI模型(尤其是生成式AI)可能會花費不菲。
“也許,在某些領域企業(yè)可以合作——比如法律或醫(yī)學,我們開始看到價值的地方,就是當你用你的數(shù)據(jù)增強生成式AI的時候——你可以用各種方法來實現(xiàn)它?!?
例如,在建筑領域,用戶可以使用自己的數(shù)據(jù)集和文檔來補充大型語言模型,以供查詢。類似做法還有票務搜索平臺,平臺可以智能地考慮一組基于自然語言的標準,這些標準并非與元數(shù)據(jù)和標簽一一相關。
“例如,你可以使用一個票務平臺來發(fā)現(xiàn)‘適合兒童觀看的周末演出’,目前這種搜索類型是相當困難的,”Fayers說。
他說,即使是ChatGPT之類的數(shù)據(jù)集構建和提示工程,為了實現(xiàn)更有“對話性”的方法,仍然需要關注數(shù)據(jù)質(zhì)量和治理,提示工程將成為一項需求旺盛的基本技能。