科技云报道:黑马Groq单挑英伟达,AI芯片要变天?

news/发布时间2024/5/18 16:32:18

科技云报道原创。

近一周来,大模型领域重磅产品接连推出:OpenAI发布“文字生视频”大模型Sora;Meta发布视频预测大模型 V-JEPA;谷歌发布大模型 Gemini 1.5 Pro,更毫无预兆地发布了开源模型Gemma…

难怪网友们感叹:“一开年AI发展的节奏已经如此炸裂了么!”

但更令人意想不到的是,AI芯片领域处于绝对霸主地位的英伟达,竟然也遇到了挑战,而且挑战者还是一家初创公司。

在这家名叫Groq的初创芯片及模型公司官网上,它号称是世界最快大模型,比GPT-4快18倍,测试中最快达到破纪录的每秒吞吐500 tokens。

这闪电般的速度,来源于Groq自研的LPU(语言处理单元),是一种名为张量流处理器(TSP)的新型处理单元,自然语言处理速度是英伟达GPU 10倍,做到了推理的最低延迟。

“快”字当头,Groq可谓赚足眼球。Groq还喊话各大公司,扬言在三年内超越英伟达。

事实上,在这一波AI热潮中,“天下苦英伟达久矣”。英伟达GPU芯片价格一再被炒高,而Groq的LPU架构能“弯道超车”,显然是众望所归。

因此,不少舆论惊呼Groq要颠覆英伟达,也有业内人士认为Groq想要“平替”英伟达还有很长的路要走。

但无论持哪种观点,Groq的出现不仅是对现有芯片架构和市场格局的挑战,也预示着AI芯片及其支撑的大模型发展方向正在发生变化——聚焦AI推理。
在这里插入图片描述
Groq LPU:快字当头

据介绍,Groq的芯片采用14nm制程,搭载了230MB大静态随机存储器(SRAM)以保证内存带宽,片上内存带宽达80TB/s。在算力方面,该芯片的整型(8位)运算速度为750TOPs,浮点(16位)运算速度为188TFLOPs。

Anyscale的LLMPerf排行显示,在Groq LPU推理引擎上运行的Llama 2 70B,输出tokens吞吐量快了18倍,优于其他所有云推理供应商。

据网友测试,面对300多个单词的“巨型”prompt(AI模型提示词),Groq在不到一秒钟的时间里,就为一篇期刊论文创建了初步大纲和写作计划。此外,Groq还完全实现了远程实时的AI对话。

电子邮件初创企业Otherside AI的首席执行官兼联合创始人马特·舒默(Matt Shumer)在体验Groq后称赞其快如闪电,能够在不到一秒钟的时间内生成数百个单词的事实性、引用性答案。

更令人惊讶的是,其超过3/4的时间用于搜索信息,而生成答案的时间却短到只有几分之一秒。

Groq之所以“快如闪电”,其创新的核心在于LPU。

据官方信息显示,LPU推理引擎是一种新型的端到端处理单元系统,它为计算密集型应用提供最快的推理能力,这些应用具有序列组件,例如AI语言应用程序(LLM)。

LPU旨在克服LLM的两个瓶颈:计算密度和内存带宽。

就LLM而言,LPU比GPU和CPU具有更大的计算能力。这减少了每个单词的计算时间,从而可以更快地生成文本序列。

同时,与利用高带宽内存(HBM)的GPU不同,Groq的LPU利用SRAM进行数据处理,比HBM快约20倍,从而显著降低能耗并提高效率。

GroqChip的独特架构与其时间指令集相结合,可实现自然语言和其他顺序数据的理想顺序处理。

消除外部内存瓶颈,不仅使LPU推理引擎能够在LLM上提供比GPU高几个数量级的性能。

而且由于LPU只进行推理计算,需要的数据量远小于模型训练,从外部内存读取的数据更少,消耗的电量也低于GPU。

此外,LPU芯片设计实现了多个TSP的无缝连接,避免了GPU集群中的瓶颈问题,显著地提高了可扩展性。

因此,Groq公司宣称,其LPU所带来的AI推理计算是革命性的。

在AI推理领域挑战GPU

尽管Groq高调喊话,但想要“平替”英伟达GPU并不容易。从各方观点来看,Groq的芯片还无法与之分庭抗礼。

原Facebook人工智能科学家、原阿里技术副总裁贾扬清算了一笔账,因为Groq小得可怜的内存容量,在运行Llama 2 70B模型时,需要305张Groq卡才足够,而用英伟达的H100则只需要8张卡。

从目前的价格来看,这意味着在同等吞吐量下,Groq的硬件成本是H100的40倍,能耗成本是10倍。

但跳出单纯的价格对比,Groq LPU的解决方案依然展现出了不小的应用潜力。

根据机器学习算法步骤,AI芯片可以划分为训练AI芯片和推理AI芯片。

训练芯片是用于构建神经网络模型,需要高算力和通用性,追求的是高计算性能(高吞吐率)、低功耗。

推理芯片是对训练好的神经网络模型进行运算,利用输入的新数据来一次性获得正确结论。

因此完成推理过程的时间要尽可能短、低功耗,更关注用户体验方面的优化。

虽然现阶段GPU利用并行计算的优势在AI领域大获全胜,但由于英伟达GPU的独有架构,英伟达H100等芯片在推理领域算力要求远不及训练端,这也就给Groq等竞争对手留下了机会。

因此,专注于AI推理的Groq LPU,得以在推理这个特定领域挑战英伟达GPU的地位。从测试结果上看,Groq能够达到令人满意的“秒回”效果。

这也在一定程度上显示了通用芯片与专用芯片的路径分歧。

随着AI和深度学习的不断发展,对专用芯片的需求也在增长。

各种专用加速器如FPGA、ASIC以及其他初创公司的AI芯片已经不断涌现,它们在各自擅长的领域内展现出了挑战GPU的可能性。

相比于英伟达通用型AI芯片,自研AI芯片也被称作ASIC,往往更适合科技公司本身的AI工作负载需求且成本较低。

比如,云巨头AWS就推出了为生成式AI和机器学习训练而设计全新自研AI芯片AWS Trainium2,性能比上一代芯片提高到4倍,可提供65ExaFlops超算性能。

微软也推出第一款定制的自研CPU系列Azure Cobalt和AI加速芯片Azure Maia,后者是微软首款AI芯片,主要针对大语言模型训练,预计将于明年初开始在微软Azure数据中心推出。

谷歌云也推出了新版本的TPU芯片TPU v5p,旨在大幅缩减训练大语言模型时间投入。

无论是大厂自研的AI芯片,还是像Groq LPU这样的专用芯片,都是为了优化特定AI计算任务的性能和成本效率,同时减少对英伟达等外部供应商的依赖。

作为GPU的一个重要补充,专用芯片让面对紧缺昂贵的GPU芯片的企业有了一个新的选择。

AI芯片聚焦推理

随着AI大模型的快速发展,尤其是Sora以及即将推出的GPT-5,都需要更强大高效的算力。但GPU在推理方面的不够高效,已经影响到了大模型业务的发展。

从产业发展趋势来看,AI算力负载大概率将逐步从训练全面向推理端迁移。

华尔街大行摩根士丹利在2024年十大投资策略主题中指出,随着消费类边缘设备在数据处理、存储端和电池续航方面的大幅改进,2024年将有更多催化剂促使边缘AI这一细分领域迎头赶上,AI行业的发展重点也将从“训练”全面转向“推理”。

高通CEO Amon也指出,芯片制造商们的主要战场不久后将由“训练”转向“推理”。

Amon在采访时表示:“随着AI大模型变得更精简、能够在设备上运行并专注于推理任务,芯片制造商的主要市场将转向‘推理’,即模型应用。预计数据中心也将对专门用于已训练模型推理任务的处理器产生兴趣,一切都将助力推理市场规模超越训练市场。”

在最新的财报电话会上,英伟达CFO Colette Kress表示,大模型的推理场景已经占据英伟达数据中心40%的营收比例。这也是判断大模型行业落地前景的重要信号。

事实上,巨头们的一举一动也在印证这一趋势的到来。

据路透社报道,Meta将推新款自研AI推理芯片Artemis。预计Meta可于年内完成该芯片在自有数据中心的部署,与英伟达GPU协同提供算力。

而英伟达也通过强化推理能力,巩固自身通用GPU市占率。

在下一代芯片H200中,英伟达在H100的基础上将存储器HBM进行了一次升级,为的也是提升芯片在推理环节中的效率。

不仅如此,随着各大科技巨头、芯片设计独角兽企业都在研发更具效率、部分替代GPU的芯片,英伟达也意识到这一点,建立起了定制芯片的业务部门。

总的来说,以现在AI芯片供不应求的现状,GPU的增长暂时还不会放缓。但随着AI发展趋势的快速变化,英伟达不可能是永远的王者,而Groq也绝对不是唯一的挑战者。

【关于科技云报道】

专注于原创的企业级内容行家——科技云报道。成立于2015年,是前沿企业级IT领域Top10媒体。获工信部权威认可,可信云、全球云计算大会官方指定传播媒体之一。深入原创报道云计算、大数据、人工智能、区块链等领域。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.bcls.cn/xjhe/7994.shtml

如若内容造成侵权/违法违规/事实不符,请联系编程老四网进行投诉反馈email:xxxxxxxx@qq.com,一经查实,立即删除!

相关文章

springboot+java考研资料共享交流平台 rm8u3

课题主要采用java开发语言、springboot框架和MySQL数据库开发技术以及基于Vscode的编辑器。系统主要包括用户、院校简介、考研资料、考研视频、考研题库、试题、考研论坛等功能,从而实现智能化的管理方式,提高工作效率。   通过高校考研信息共享系统的…

【基于React实现共享单车管理系统】—项目简介(一)

【基于React实现共享单车管理系统】—项目简介(一) 一、项目整体架构

渗透工具——kali中wpscan简介

一、什么是wpscan 1、常用于做用户名枚举爆破 2、WPScan是一个扫描 WordPress 漏洞的黑盒子扫描器,它可以为所有 Web 开发人员扫描 WordPress 漏洞并在他们开发前找到并解决问题。我们还使用了 Nikto ,它是一款非常棒的Web 服务器评估工具,…

B站项目-基于Pytorch的ResNet垃圾图片分类

基于Pytorch的ResNet垃圾图片分类 项目链接 数据集下载链接 1. 数据集预处理 1.1 画图片的宽高分布散点图 import osimport matplotlib.pyplot as plt import PIL.Image as Imagedef plot_resolution(dataset_root_path):image_size_list []#存放图片尺寸for root, dirs, fi…

【教程】 iOS混淆加固原理篇

目录 摘要 引言 正文 1. 加固的缘由 2. 编译过程 3. 加固类型 1) 字符串混淆 2) 类名、方法名混淆 3) 程序结构混淆加密 4) 反调试、反注入等一些主动保护策略 4. 逆向工具 5. OLLVM 6. IPA guard 7. 代码虚拟化 总结 摘要 本文介绍了iOS应用程序混淆加固的缘由…

单机取证-信息安全管理与评估-2022年国赛真题-环境+wp

🍬 博主介绍 博主介绍:大家好,我是 Mikey ,很高兴认识大家~ 主攻:【应急响应】 【python】 【数字取证】【单机取证】【流量分析】【MISC】 🎉点赞➕评论➕收藏 == 养成习惯(一键三连)😋 🎉欢迎关注💗一起学习👍一起讨论⭐️一起进步 作者水平有限,欢迎各…

网络安全之安全事件监测

随着人们对技术和智能互联网设备依赖程度的提高,网络安全的重要性也在不断提升。因此,我们需要不断加强网络安全意识和措施,确保网络环境的安全和稳定。 网络安全的重要性包含以下几点: 1、保护数据安全:数据是组织和…

【Pytorch深度学习开发实践学习】B站刘二大人课程笔记整理lecture11 Advanced_CNN 实现GoogleNet和ResNet

【Pytorch深度学习开发实践学习】B站刘二大人课程笔记整理lecture11 Advanced_CNN 代码: Pytorch实现GoogleNet import torch from torchvision import datasets, transforms from torch.utils.data import DataLoader import torch.nn as nn import torch.nn.fun…

linux服务器tomcat日志中文出现问号乱码

目录 一、场景二、排查三、原因四、解决 一、场景 tomcat日志的中文出现问号乱码 乱码示例 ??[377995738417729536]????????? ac??????????????message:二、排查 1、使用locale命令查看服务器当前使用的语言包 发现只用的语言包为utf-8&#xff0…

【小沐学C++】C/C++包管理工具Conan使用(C++、Python、CMake、Conan)

文章目录 1、简介2、Conan下载安装3、Conan命令3.1 查看conan版本3.2 更新conan库3.3 搜索软件包3.4 显示conan所有源3.5 查看软件包3.6 通过conanfile.txt安装依赖包 结语 1、简介 Conan是C和C语言的依赖项和包管理器。它是免费和开源的,适用于所有平台&#xff0…

MYSQL安装及卸载

目录 一、下载 二、解压 三、配置 1. 添加环境变量 2. 初始化MySQL 3. 注册MySQL服务 4. 启动MySQL服务 5. 修改默认账户密码 四、登录MySQL 五、卸载MySQL 一、下载 点开下面的链接:MySQL :: Download MySQL Community Server 点击Download 就可以下载对…

12. Springboot集成Dubbo3(三)Dubbo-Admin

目录 1、前言 2、安装 2.1、下载Dubbo-admin 2.2、修改配置 2.3、编译前端 2.4、访问 2.5、加载自己的服务 2.6、服务测试 2.7、其他 3、小结 1、前言 Dubbo Admin是用于管理Dubbo服务的基于Web的管理工具。Dubbo Admin提供了一个用户友好的界面,用于在分…

Jest和Mocha对比:两者之间有哪些区别?

什么是单元测试? 所谓单元测试,是对软件中单个功能组件进行测试的一种软件测试方式,其目的是确保代码中的每一个基本单元都能正常运行。因此,开发人员在应用程序开发的整个过程(即代码编写过程)中都需要进行…

十一、计算机视觉-膨胀操作

文章目录 前言一、什么是膨胀二、膨胀操作的实现1.引入库 三、膨胀的原理 前言 上节我们学习了腐蚀操作,本节我们讲一下膨胀操作,膨胀和腐蚀实际上是相反的操作。上节我们把云峰这2个字周围没用的像素去掉了,但是云峰这2个字也变细了&#x…

蓝桥杯《数字三角形》

题目描述 上图给出了一个数字三角形。从三角形的顶部到底部有很多条不同的路径。对于每条路径,把路径上面的数加起来可以得到一个和,你的任务就是找到最大的和。 路径上的每一步只能从一个数走到下一层和它最近的左边的那个数或者右边的那个数。此外&…

Spring Boot+Tess4j实现OCR接口

OCR部分 OCR,即光学字符识别,是一种将纸质文档上的文字转化为计算机可编辑文本的技术。它利用图像处理技术和模式识别算法,对扫描或拍摄的文档图片进行分析,提取出其中的文字信息。OCR技术广泛应用于文档数字化、自动化数据录入等…

概率基础——几何分布

概率基础——几何分布 介绍 在统计学中,几何分布是描述了在一系列独立同分布的伯努利试验中,第一次成功所需的试验次数的概率分布。在连续抛掷硬币的试验中,每次抛掷结果为正面向上的概率为 p p p,反面向上的概率为 1 − p 1-p …

ElasticSearch之单值多字段查询以及multi match

写在前面 在这篇文章 我们看了使用dis_max查询来进行单值多字段场景下的查询,如下: POST /blogs/_search {"query": {"dis_max": {"queries": [{"match": {"title": "Brown fox"}},{&quo…

MySQL 篇-深入了解 DDL 语言(一)

🔥博客主页: 【小扳_-CSDN博客】 ❤感谢大家点赞👍收藏⭐评论✍ 文章目录 1.0 MySQL 说明 2.0 DDL 语言 2.1 DDL 语言 - 定义数据库 2.1.1 创建数据库操作 2.1.2 查看数据库操作 2.1.3 使用数据库操作 2.1.4 删除数据库操作 2.2 DDL 语言 …

nginx 从$http_x_forwarded_for 中获取第一个参数

在 Nginx 中,$http_x_forwarded_for 变量通常包含了客户端的原始 IP 地址以及可能经过的代理服务器的 IP 地址列表,这些地址由逗号分隔。如果你想从 $http_x_forwarded_for 中截取第一个参数(即最左边的 IP 地址),你可…
推荐文章