微软和英伟达推出迄今为止训练最大最强的语言模型 MT-NLG

来源：IT之家时间：2021-10-12 11:05:04

10 月 12 日消息语言模型（Language Model）简单来说就是一串词序列的概率分布，主要作用是为一个长度为 m 的文本确定一个概率分布 P，表示这段文本存在的可能性。

大家之前可能或多或少听说过 GPT-3，OpenAI 最新的语言模型，堪称地表最强语言模型，也被认为是革命性的人工智能模型。除此之外还有 BERT、Switch Transformer 等重量级产品，而且业内其他企业也在努力推出自家的模型。

微软和英伟达今天宣布了由 DeepSpeed 和 Megatron 驱动的 Megatron-Turing 自然语言生成模型（MT-NLG），这是迄今为止训练的最大和最强大的解码语言模型。

了解到，作为 Turing NLG 17B 和 Megatron-LM 的继任者，这个模型包括 5300 亿个参数，而且 MT-NLG 的参数数量是同类现有最大模型 GPT-3 的 3 倍，并在一系列广泛的自然语言任务中展示了无与伦比的准确性，例如：

完成预测

阅读理解

常识推理

自然语言推理

词义消歧

105 层、基于转换器的 MT-NLG 在零、单和少样本设置中改进了先前最先进的模型，并为两个模型规模的大规模语言模型设定了新标准和质量。

据悉，模型训练是在基于 NVIDIA DGX SuperPOD 的 Selene 超级计算机上以混合精度完成的，该超级计算机由 560 个 DGX A100 服务器提供支持，这些服务器以完整的胖树（FatTree）配置与 HDR InfiniBand 联网。每个 DGX A100 有 8 个 NVIDIA A100 80GB Tensor Core GPU，通过 NVLink 和 NVSwitch 相互完全连接。微软 Azure NDv4 云超级计算机使用了类似的参考架构。

微软和英伟达推出迄今为止训练最大最强的语言模型 MT-NLG

更多内容可查看微软和英伟达官方说明：

微软

英伟达

返回物联之家 - 物联观察新视角,国内领先科技门户首页 >>

　　版权及免责声明：凡本网所属版权作品，转载时须获得授权并注明来源“物联之家 - 物联观察新视角,国内领先科技门户”，违者本网将保留追究其相关法律责任的权力。凡转载文章，不代表本网观点和立场。

延伸阅读

微软和英伟达推出迄今为止训练最大最强的语言模型 MT-NLG

10 月 12 日消息语言模型（Language Model）简单来说就是一串词序列的概率分布，主要作用是为一个长度为 m 的文本确定一
2021-10-12
自由苹果iPhone SE销售在美国

苹果可能已经低估了iPhone SE将在美国生成的兴趣。手机的自由型版本现已在Apple的网站上销售，最早的运费估计指向
2021-10-12
产业发展主旋律前瞻，新日电动车邀你来看浙江展

第42届（2021）中国浙江国际自行车新能源电动车展览会（简称浙江展）即将在义乌开幕，2 4万平方米的展会场地将会有超800家的企业参展，在新
2021-10-12
新的OnePlus画廊应用程序就像它获得一样直接

如果您是operplus 2手机的骄傲老板，并且在新的画廊经验疼痛，那么您可以像公司刚刚宣布新的OnePlus图库应用程
2021-10-12
Letv Le2与Helio x25基准 - a 5.5“phablet

Mediatek Helio X25应该是魅族的独家，但在GFXBench中发现的结果显示了Letv Leeco Le
2021-10-12
亚马逊调整居家办公政策：将让团队主管决定居家办公频率

北京时间 10 月 12 日早间消息，亚马逊将允许员工更加灵活地选择居家办公，哪怕是在其办公室明年开始重新开放以后也是一样。亚马逊 CEO
2021-10-12
英特尔确认 Arc 显卡不会有虚拟加密货币挖矿哈希锁限制，无法确保现货供应

10 月 12 日消息英特尔在今年 8 月推出了 Arc 系列 GPU，并确认基于 Xe-HPG GPU 的第一代迭代代号为 Alchem
2021-10-12
谷歌母公司权益价值 3.2 万亿美元，股价被低估 42%

北京时间 10 月 12 日消息，Simply Wall St 利用两阶段增长模型对 Alphabet 估值进行分析发现，它被低估 42%。
2021-10-12

最新文章

微软和英伟达推出迄今为止训练最大最强的语言模型 MT-NLG

精彩推荐

产业新闻

Google照片现在显示在活动或旅行后自动创建相册

热门推荐