阿里达摩院发布全球最大 AI 预训练模型 M6：参数跃迁至 10 万亿

来源：IT之家时间：2021-11-09 08:05:10

11 月 8 日消息，今天，阿里巴巴达摩院公布多模态大模型 M6 最新进展，其参数已从万亿跃迁至 10 万亿，成为全球最大的 AI 预训练模型。

M6 是达摩院研发的通用性人工智能大模型，拥有多模态、多任务能力，尤其擅长设计、写作、问答，在电商、制造业、文学艺术、科学研究等领域有广泛应用前景。

与传统 AI 相比，大模型拥有成百上千倍“神经元”数量，认知和创造能力也更胜一筹，被普遍认为是未来的“基础模型”。但大模型的算力成本相当高昂，训练 1750 亿参数语言大模型 GPT-3 所需能耗，相当于汽车行驶地月往返距离。

今年 5 月，通过专家并行策略及优化技术，达摩院 M6 团队将万亿模型能耗降低超八成、效率提升近 11 倍。

10 月，M6 再次突破业界极限，使用 512 GPU 在 10 天内即训练出具有可用水平的 10 万亿模型。相比去年发布的大模型 GPT-3，M6 实现同等参数规模，能耗仅为其 1%。

阿里达摩院发布全球最大 AI 预训练模型 M6：参数跃迁至 10 万亿

▲将 10 万亿参数放进 512 张 GPU

模型扩展到千亿及以上参数的超大规模时，将很难放在一台机器上。

为了帮助多模态预训练模型进行快速迭代训练，达摩院在阿里云 PAI 自研 Whale 框架上搭建 MoE 模型，并通过更细粒度的 CPU offload 技术，最终实现将 10 万亿参数放进 512 张 GPU：

自研 Whale 框架：自研 Whale 分布式深度学习训练框架，针对数据并行、模型并行、流水并行、混合并行等多种并行模型进行了统一架构设计，让用户在仅仅添加几行 API 调用的情况下就可以实现丰富的分布式并行策略。

MoE 专家并行策略：在 Whale 架构中实现 Mixture-of-Experts（MoE）专家并行策略，在扩展模型容量、提升模型效果的基础上，不显著增加运算 FLOPs（每秒所执行的浮点运算次数），从而实现高效训练大规模模型的目的。

CPU offload 创新技术：在自研的分布式框架 Whale 中通过更细粒度的 CPU offload，解决了有限资源放下极限规模的难题，并通过灵活地选择 offload 的模型层，进一步地提高 GPU 利用率。

此外，针对训练效率问题，M6 团队设计了 Pseudo-to-Real（共享解除）机制，即利用训练好的共享参数模型初始化大模型，让收敛效率进一步提升 7 倍，解决大模型训练速度慢的问题。

对比不使用该机制，预训练达到同样 loss 用时仅需 6%；和此前万亿模型相比，训练样本量仅需 40%。

阿里达摩院发布全球最大 AI 预训练模型 M6：参数跃迁至 10 万亿

作为国内首个商业化落地的多模态大模型，M6 已在超 40 个场景中应用，日调用量上亿。

今年，大模型首次支持双 11，应用包括但不限于：

M6 在犀牛智造为品牌设计的服饰已在淘宝上线；

凭借流畅的写作能力，M6 正为天猫虚拟主播创作剧本；

依靠多模态理解能力，M6 正在增进淘宝、支付宝等平台的搜索及内容认知精度。

阿里达摩院发布全球最大 AI 预训练模型 M6：参数跃迁至 10 万亿

▲M6 设计的飞行汽车

未来，M6 将积极探索与科学应用的结合，通过 AI for science 让大模型的潜力充分发挥，并加强 M6 与国产芯片的软硬一体化研究。

目前，达摩院联合阿里云已推出 M6 服务化平台（https://m6.aliyun.com），为大模型训练及应用提供完备工具，首次让大模型实现“开箱即用”，算法人员及普通用户均可方便地使用平台。

返回物联之家 - 物联观察新视角,国内领先科技门户首页 >>

　　版权及免责声明：凡本网所属版权作品，转载时须获得授权并注明来源“物联之家 - 物联观察新视角,国内领先科技门户”，违者本网将保留追究其相关法律责任的权力。凡转载文章，不代表本网观点和立场。

延伸阅读

阿里达摩院发布全球最大 AI 预训练模型 M6：参数跃迁至 10 万亿

11 月 8 日消息，今天，阿里巴巴达摩院公布多模态大模型 M6 最新进展，其参数已从万亿跃迁至 10 万亿，成为全球最大的 AI 预训练
2021-11-09
Amkor 宣布初步投资 2 亿-2.5 亿美元在越南北宁建封装厂

11 月 8 日消息，半导体封装和测试服务提供商 Amkor 今天宣布，计划在越南北宁建造一座智能工厂。新工厂的第一阶段将重点为世界领先的
2021-11-08
Swiftkey表示，它正在努力解决泄露用户电子邮件地址的预测相关的故障

Smart键盘和预测技术公司Swiftkey表示，它迅速工作解决问题，以解决“不熟悉的术语”以及其他用户的电子邮件地址，
2021-11-08
三星现在拥有自己的云，注意事项7用户免费获得15GB

三星的新的Galaxy Note7可能有助于主要的硬件创新，至少是Spects-Sheet-Wise，但软件是整个其他故
2021-11-08
MI笔记本空气是一种MacBook竞争对手，不会让你留下来

在Xiaomi Redmi Pro之后，中国OEM扔了另一种装置我们的方式 - MI笔记本空气。要完全诚实，笔记本电脑
2021-11-08
中国自动驾驶公司轻舟智航发布第三代 L4 自动驾驶硬件方案：360 度无盲区感知

11 月 8 日消息，国内自动驾驶企业轻舟智航发布了 Driven-by-QCraft 第三代 L4 自动驾驶硬件方案，官方称该方案结合了多
2021-11-08
边缘计算将如何改变医疗保健行业

加利福尼亚州的奥兰治县儿童健康中心正在与其他医疗机构合作收集临床图像——核磁共振成像、超声心动图等。其目标是创建图像存储库以分...
2021-11-08
《英雄联盟：双城之战》中文主题曲《孤勇者》发布：陈奕迅演唱，在 QQ 音乐、酷狗、酷我平台上线

11 月 8 日消息，昨日，英雄联盟首部动画剧集《英雄联盟：双城之战》开启全球首映，在腾讯视频、掌上英雄联盟、《双城之战》官方网站全网独播
2021-11-08

最新文章

网易云音乐宣布英皇娱乐版权回归：获全量音乐版权授权，包括谢霆锋、容祖儿、古巨基等众多艺人作品

精彩推荐

产业新闻

苹果：整个假日期间继续接受 App Store 提交的内容，不过应用审查需要更长时间

热门推荐