在人工智能的宏偉藍圖中,AI系統的設計目標是構建一個強大、靈活且高效的框架,以支撐深度學習的復雜需求和挑戰。這不僅是技術的進步,更是對未來智能世界的一次大膽設想。讓我們揭開AI系統設計目標的神秘面紗,探索它們如何塑造我們的數字未來。
深度學習系統的設計目標可以總結為以下幾個部分。
設計更具表達能力和簡潔的神經網絡計算原語以及高級編程語言。讓用戶能夠提升 AI 應用程序的開發效率,屏蔽底層硬件計算的細節,更靈活的原語支持。當前神經網絡模型除了特定領域模型的算子和流程可以復用(如大語言模型 Transformer 架構在自然語言處理 NLP 領域被廣泛作為基礎結構),其新結構新算子的設計與開發仍遵循試錯(Trial And Error)的方式進行。那么如何靈活表達新的計算算子,算子間的組合以及融合形式,屏蔽經典熟知的算子與基礎模型,是算法工程師所需要語言、庫與 AI 開發框架層所提供的功能支持。
更直觀的編輯、調試和實驗工具。讓用戶可以完整的進行神經網絡模型的開發、測試、調整診斷與修復和優化程序,提升所開發 AI 應用程序的性能與魯棒性。訓練過程不是一蹴而就,其中伴隨著損失函數 LOSS 曲線不收斂、Loss 值出現 NaN 無效值、內存溢出等算法問題與算法設計缺陷(Bug)。AI 工具鏈與 AI 系統本身如何在設計之初就考慮到這點,提供良好的可觀測性、可調試性、允許用戶注冊自定義擴展等支持,是需要工具鏈與 AI 系統的設計者,所需要在 AI 系統的設計之初就需要提上日程的,否則之后更多是縫縫補補造成不好的開發體驗與不能滿足的需求,對用戶來說就像使用一個黑盒且單片的工具。
支持 AI 生命周期中的各個環節:數據處理、模型開發與訓練、模型壓縮與推理、安全和隱私保護等。不僅能構建 AI 模型,能夠支持全生命周期的 AI 程序開發,并在 AI 系統內對全生命周期進行分析與優化。當前的 AI 工程化場景,已經不是靈感一現和單一的優化就能迅速取得領先優勢,更多的是能否有完善的 AI 基礎設施,快速復現開源社區工作,批量驗證新的想法進行試錯,所以一套好的完善的全流程的生命周期管理能夠大幅度提升 AI 算法層面的生產力。
除了對深度學習訓練與推理的支持,還能支持強化學習、自動化機器學習等新的訓練范式。例如,需要不斷和環境或模擬器交互以獲取新數據的強化學習方式,批量大規模提交搜索空間的自動化機器學習方式等,這些新的范式造成對之前單一支持單模型之外,在多模型層面,訓練與推理任務層面產生了新的系統抽象與資源,作業管理需求。
提供更強大和可擴展的計算能力
讓用戶的 AI 程序可擴展并部署于可以并行計算的節點或者集群,應對大數據和大模型的挑戰。因為當前 AI 模型不斷通過大模型,多模態大模型以產生更好的算法效果,促使 AI 系統需要支持更大的模型、更多模態的輸入。同時由于企業 IT 基礎設施不斷完善,能夠不斷沉淀新的數據,也會伴隨著大數據而衍生的問題。大模型與大數據促使存儲與計算層面的系統,在摩爾定律失效的大背景下,迫切需要通過并行與分布式計算的方式,擴展算力與存儲的支持。
自動編譯優化算法
1)對計算圖自動推導:盡可能的通過符號執行或即時編譯 JIT 技術,獲取更多的計算圖信息,讓 AI 開發框架或者 AI 編譯器自動執行定制化的計算優化。
2)根據不同體系結構自動并行化:面對部署場景的多樣化體系結構,訓練階段異構硬件的趨勢,AI 開發框架讓用戶透明的進行任務配置和并行化,以期以最為優化的方式在 AI 集群配置下,并行化、減少 I/O、充分利用通信帶寬,逼近硬件提供的極限性能上限。
云原生自動分布式化
自動分布式并行擴展到多個計算節點,面對云與集群場景,自動將 AI 任務擴展與部署,進而支撐分布式計算、彈性計算,讓用戶按需使用資源,也是云原生背景下,AI 系統所需要考慮和支持的。
在 AI 系統中會隨著 AI 算法的發展,出現了對動態圖、動態 Shape 的支持需求,利用網絡模型結構的稀疏性進行壓縮加速優化,為了提升訓練指標 TTA 實現混合精度訓練與部署,還有混合訓練范式(如強化學習)、多任務(如自動化機器學習)等特性支持。
提供在更大規模的企業級環境的部署需求。如云環境多租環境的訓練部署需求:面對多組織,多研究員和工程師共享集群資源,以及大家迫切使用 GPU 資源的日益增長的需求,如何提供公平、穩定、高效的多租環境也是平臺系統需要首先考慮的。
跨平臺的推理部署需求。面對割裂的邊緣側硬件與軟件棧,如何讓模型訓練一次,跨平臺部署到不同軟硬件平臺,也是推理場景需要解決的重要問題。
最后是安全與隱私的需求。由于網絡模型類似傳統程序的功能,接受輸入,處理后產生輸出,但是相比傳統程序,其解釋性差,造成更容易產生安全問題,容易被攻擊。同時模型本身的重要信息為權重,我們也要注意模型本身的隱私保護。同時如果是企業級環境或公有云環境,會有更高的安全和隱私保護要求。
了解完 AI 系統設計的宏觀目標,可以進一步了解,當前在人工智能的大生態環境中 AI 系統的技術棧是如何構成的,整個技術棧中 AI 系統的各=處于哪個抽象層次,互相之間的關系是什么。
AI系統的設計目標不僅是技術規格的集合,它們是通往智能時代的關鍵路徑。隨著這些目標的實現,我們將能夠解鎖新的創新潛力,提高生產效率,并保護我們的數據安全。這是一個充滿挑戰的旅程,但也是一次充滿希望的探險。讓我們期待AI系統如何繼續推動技術的邊界,為我們的世界帶來更加智能和互聯的未來。
本文由 @章魚AI小丸子 原創發布于人人都是產品經理。未經作者許可,禁止轉載
題圖來自Unsplash,基于CC0協議
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務