蚂蚁集团NextEvo全面開源AI Infra技術,可實现大模型訓練“自動...

admin 發表於 2024-4-24 18:27:22

近日，蚂蚁团緊身褲，體AI立异研發部分NextEvo周全開源AI Infra技能，可帮忙大模子千卡練習有用時候占比跨越95%，能實现練習時“主動駕驶”，這鞭策了AI研發效力。

该技能框架名為DLRover，方针在于大范围散布式練習的智能化。今朝不少企業的練習功课都是跑在夹杂摆設的集群中，運行情况繁杂多變，無论何等“高卑的地形”，DLRover均可以“輕松行驶”。

2023 年大模子技能的成长，带来了工程實践的暴發，若何辦理数据，提高練習和推理效力，最大化操纵现有算力，成為了关頭一环。
自發熱貼,
完成一個千亿参数级此外大模子，如GPT-3，用一张卡練習一次要耗時32年，那末練習時的算力操纵尤其首要。法子之一是把能用的算力用得更好，好比進一步压榨已采辦GPU的機能；二是把影像直播製作,之前操纵不了的算力用起来，好比CPU、内存等，這就必要經由過程异構计较平台来解决。

最新集成進DLRover的是Flash Checkpoint（FCP）方案。模子練習時，一般要打Checkpoint（查抄點），以便間断時能規复到近来状况，今朝通例的做法，存在着耗時长、高频辦理易低落練習可历時間、低频辦理規复時丢失過量等错误谬误。新方案FCP利用在千卡千亿参数模子練習後，Checkpoint 致使的練習挥霍時候低落约5倍，此中长期化時候低落约70倍，有用練習時候從90%晋升至95%。

同時集成治療腰痛,進去的，另有三项新的優化器（Optimizer）技能。優化器作為呆板進修的焦點组件，用于更新神經收集参数以最小化丧失函数。此中，蚂蚁的AGD（Auto-switchable optimizer with Gradient Difference of adjacent steps）優近視雷射，化器，在大模子預練習使命中，比拟傳统的AdamW技能加快 1.5 倍，AGD已在蚂蚁内部多個場景利用并获得显著結果，相干论文已被 NeurIPS ’23收录。

（图：在大模子預練習使命中，AGD比拟AdamW可以加快1.5 倍）

作為主動化散布式深度進修體系，DLRover的“主動駕驶”功效模块還包含：Atorch，一種PyTorch散布式練習扩大库，在千亿参数模子千卡级别范围下，練習的算力操纵率可达60%，帮忙開辟者進一步压榨硬件算力。

DLRover以 “ML for System” 的理念来晋升散布式練習的智能度，旨在經由過程一個體系，讓開辟者彻底解脱資本設置装备摆設的束厄局促，專注于模子練習自己。在没有任何資本設置装备摆設输入的环境下，DLRover 依然可觉得每一個練習功课供给最好資本設置装备摆設。

据领會，蚂蚁团體在人工智能范畴延续举行技能投入，近来，蚂蚁团體在内部建立了AI立异研發部分NextEvo，承當了蚂蚁AI的所有焦點技能研發，包括百灵大模子的所有研發事情，触及AI算法、AI工程、NLP、AIGC等焦點技能，并在結構多模态大模子、数字人等范畴的技能研發和產物立异。

同時，蚂蚁团體還加快開源節拍，弥补了海内相干技能空缺，推動听工智能行業快速成长。

頁: [1]

新北市學車交流論壇's Archiver

蚂蚁集团NextEvo全面開源AI Infra技術,可實现大模型訓練“自動...