十大加速器排名

数据中心“加速”究竟需要怎样的fpga创新?生物序列分析算法硬件加速器关键技术研究

-xilinx -数据中心 -应用程序

加速器负载越高越好吗

作者:李卫中来源:doit
超大规模云计算中心,电子商务和社交网络数据中心正面临着加速具有复杂数据类型的工作负载的挑战。

数据中心加速的主要途径

突破传统CPU处理能力的需求已成为共识。当前的方法主要包括以下几类:

路径一,ASIC:经过数十年的发展和演进,针对特定目的而设计的ASIC因特定用户的需求而显着提高了效率。但是,设计周期长,成本高和适用范围狭窄的常见问题使ASIC仅适合于大批量或忽略产品成本的场合。

路径二,GPU:随着近年来机器学习和其他领域的飞速发展,GPU早已不再局限于3D图形处理。它在浮点计算,并行计算和其他计算方面的特性已在业界引起越来越多的关注。注意,尤其是当前最大的独立芯片制造商和厂商NVIDIA有点像天上掉下来,但其应用范围的多功能性尚待及时测试。

路径三,FPGA:它是一种半定制ASIC,不仅解决了定制电路的缺点,而且在性能和应用范围上也显示出优势。英特尔已经积极部署并启动了CPU + FPGA架构。 Xilinx池FPGA,最近的一些成就也使FPGA成为数据中心加速的领导者。

Xilinx数据中心加速器取得重大进展

最近,赛灵思在2016年全球超级计算大会(SC 16)上宣布了一套新技术-Xilinx可重配置加速堆栈解决方案,旨在帮助全球最大的云服务提供商快速开发和部署加速平台。使用Xilinx FPGA,该解决方案比x86服务器CPU快40倍;它比竞争对手的FPGA解决方案快6倍。

Xilinx全球战略高级副总裁Steve Glaser和云战略总监Andy walsh详细介绍了Xilinx的最新FPGA动态可重配置堆栈技术。

超大规模工作负载中,赛灵思FPGA的单位功耗性能与CPU对比 Xilinx FPGA单元电源性能与CPU在超大规模工作负载中的比较

与服务器CPU的性能相比,机器学习推理的单位功耗性能提高了11倍;数据分析SQL查询增加了33倍;视频处理转码增加了40倍;存储压缩增加了40倍;网络vSwitch可以增加23倍。

在包括计算效率和加速器利用率的象限中,Xilinx的集合FPGA实现的单位功率性能是Altera FPGA的2-6倍,并且相关产品将于明年上市。

数据中心加速主要途径比较 数据中心加速的主要方式比较 问题1:Xilinx FPGAVS。英特尔集成MCM CPU + FPGA

赛灵思全球战略高级副总裁史蒂夫·格拉泽(Steve Glaser)认为,在由代表应用程序宽度的水平轴和加速器利用率的垂直轴组成的象限图中,赛灵思汇集的FPGA在超大规模网络应用中遥遥领先。注意FPGA的优势,但其集成的MCM CPU + FPGA只能解决中小企业的问题。

问题2:Xilinx FPGA与Nvidia GPU

面对日益流行的GPU,Steve指出,就应用范围而言,GPU和定制ASIC远远少于FPGA。

以机器学习加速为例,使用神经网络对图像进行分类,翻译文本和语音以及识别非结构化数据中的基础模式需要“两阶段”方法。

在第一阶段(训练),使用大量标注的样本数据和计算来训练神经网络。 Nvidia GPU擅长的领域仅占机器学习市场规模的5%。

一旦网络训练完成,它将进入第二阶段(推理),通过训练后的神经网络处理新的数据样本或查询,以确定其可能的级别。这个市场占了机器学习加速的90%,是Xilinx FPGA竞争的世界。

在当今最大的数据中心中,推理是一项繁重的工作,它负责启用各种重要且不断扩展的应用程序,例如语言翻译,自然语言界面,照片和视频内容识别以及在线产品选择和促销。最大的两个人工智能市场是无人驾驶汽车和机器人。

Xilinx池FPGA将机器学习推理计算效率提高了2-6倍。

回顾赛灵思近年来在加速领域的里程碑

回顾赛灵思云计算加速中的重要里程碑:

赛灵思近年来在加速领域的里程碑事件 Xilinx近年来加速发展的里程碑

从2014年到2015年,赛灵思与Qualcomm和IBM等公司合作,推出了业界首款20nm和16nm数据中心产品,比竞争对手领先一年零四分之一。此外,赛灵思还积极推动CCIX联盟的发展,该联盟制定了行业标准。

目前,赛灵思FPGA已被全球七家最大的超大规模云服务公司中的三家采用,其中:

百度已将Xilinx技术用作数据中心的集中资源部署,以及无人驾驶汽车和语音的机器学习。不久前,百度宣布使用Xilinx技术将序列分析提高了10倍。

微软宣布,为了在服务器上实现网络加速,其数据中心已经大规模部署了Xilinx FPGA技术,以构建加速器架构来分配越来越多的工作负载。

亚马逊最近宣布在弹性计算云上实施FPGA即服务。诸如保险定价公司AON,基因序列测试公司edico基因组和机器学习公司TERADEEP之类的Amazon合作伙伴已宣布使用AWS F1实例。

新兴技术公司也是Xilinx的重要用户类型之一。

DEEPHI TECH是一家新兴公司,已与Xilinx合作推出了用于机器学习推理的FPGA平台和一个用于部署的超高效神经网络,与GPU相比,其性能甚至提高了10倍。

使用赛灵思FPGA的单个服务器与整个机架的CPU性能对比 使用Xilinx FPGA在单个服务器和整个机架之间的CPU性能比较 可重新配置的加速堆栈:行业标准的开发和部署

随着Internet和物联网的大规模应用,当今许多未来的工作负载将不可想象。

行业标准的开发与部署 制定和部署行业标准

Xilinx云战略总监Andy Walsh表示,Xilinx可重配置加速堆栈的第一层开发版本最近已经发布,主要用于超大规模数据中心部署和基于云的开发环境。

在中间应用程序开发层,Xilinx提供了一个集成框架。机器学习,分析和视频的应用功能库;和针对UltraScale FPGA优化的数学函数库。

在更高级别,Xilinx为云配置和管理提供了对OpenStack的支持。支持Ultrascale FPGA; Ocata Edition将于2017年推出。

赛灵思加速堆栈 赛灵思加速堆栈

“如果您是一家专门从事机器学习推理的公司,那么Xilinx池FPGA是最佳选择。”安迪说。

点评:

Xilinx具有可编程,可优化和可重新配置的优点。

机器学习的培训在于浮点计算,这是GPU的增强部分,但这仅占机器学习工作的5%。一旦进入大规模应用程序,Xilinx FPGA的优势便在于没有GPU推理功能,而某些作业则占了机器学习工作量的90%以上。在该领域的成功将使Xilinx拥有很高的市场地位。

在云计算和物联网大爆炸的时代,随着机器学习市场的成熟,Xilinx的汇集式FPGA可重配置加速堆栈可谓是小菜一碟,使非常大型的网络公司轻松解决80%的工作。除了新兴公司之外,Xilinx还将目标市场瞄准了亚马逊,Facebook,谷歌,微软,阿里巴巴,百度,腾讯和其他“七个超级”数据中心公司,并得到了亚马逊,微软等公司的认可。和百度。可以说,Xilinx最初已成为业界一流的数据中心加速解决方案提供商。

点击上方的蓝色字体,关注我们

近年来,数据中心加速器市场正在迅速增长。根据Research and Markets的相关数据,从2018年到2023年,数据中心加速器市场将从28.4亿美元增长到211.9亿美元,复合年增长率(CAGR)为49.47%。其中,FPGA有望成为复合年增长率最高的细分市场,而这一增长将受到企业工作负载加速应用对FPGA越来越多的采用的推动。

Achronix和BittWare联合发布的VectorPath S7T-VG6加速卡

在数据中心系统中,使用FPGA解决方案可以带来很多好处。 Achronix中国销售总监郭道正说:“首先是效率的提高。在某些应用中,FPGA的价格/性能比要比CPU和GPU好,这是因为FPGA的价值是固有可编程的,固定许多芯片的配置,当有一种新的应用程序类型时,可以通过更改FPGA算法来使新算法适应新的应用程序,但是如果使用该芯片,客户仍然需要重做硬件设计;因为它是一块板,所以有FPGA的操作和部署,因此用户可以根据自己的需要放置相应的编号,从而可以进行快速部署。”

为什么云加速需要FPGA?

众所周知,在过去的10G网络中,通常使用CPU进行数据处理。但是,随着网络带宽越来越大,例如25G甚至100G网络,传统的CPU处理方法显然压力很大。一方面,因为CPU不仅需要处理网络数据,还需要处理更多面向应用程序的数据信息。因此,大约从几年前开始,业界就开始将一些网络数据处理移交给FPGA。

另一方面,随着移动互联网和包括5G在内的高速传输应用程序的数量不断增加,这些大型应用程序生成的数据量可能会非常惊人。最后,这些数据也需要存储和分析。 Achronix营销副总裁Steve Mensor表示:“如果我们仍然使用当前的CPU来处理它,将会非常慢。因此,当今的数据中心开始使用硬件。包括FPGA来运行和存储这些相关应用程序从性能指标的比较来看,一般而言,FPGA可以将性能提高到传统CPU的10到100倍,这就是FPGA成为越来越多应用的原因。方案是云加速解决方案的首选。”

Achronix市场副总裁Steve Mensor

最早在数据中心中使用FPGA的公司是Microsoft,此后Amazon一直遵循Microsoft的设计。两家云服务巨头实际上拥有相当大的实力和工程资源,可以将整个FPGA解决方案集成在板和服务器上。以上,从而集成了硬件。但是对于许多第2层公司而言,它们没有资源和实力。 Achronix营销副总裁Steve Mensor表示:“如果盲目地将加速器与服务器集成在一起,将会浪费太多资源,并且会损失更多资源。对于Tier2客户,他们更愿意直接使用基于FPGA的加速解决方案。 ,在加速卡上配置自己的算法和API,并发展自己的业务。“这使Achronix和BittWare这次启动了VectorPath。 S7T-VG6加速卡更具吸引力。

存储和接口创新的重要性如何?

从正式发布起,VectorPath S7T-VG6是由Achronix和Molex旗下FPGA加速器产品供应商BittWare共同推出的,用于高性能计算和数据加速应用的新型FPGA加速器卡。加速卡的核心是Achronix于今年5月正式发布的7nm Speedster7t FPGA芯片,该芯片可以用作人工智能/机器学习(AI / ML),网络和数据加速应用程序快速开发的平台。

据Achronix称,该加速卡面向未来2-3年的应用,其主要目标市场是数据中心的云和边缘计算加速领域。 Molex副总裁Sam Bichara表示:“首先,在PCIe接口上,业界当前正在使用PCIe Gen3X16接口,并且我们目前正在测试该接口。但是在卡侧的设计中,我们保留了PCIe Gen4将来,Achornix的FPGA芯片实际上可以支持Gen5或32G。如果业界的PCIe服务器已逐渐成为市场主流,那么我们的主板只需要进行相应的软件升级即可。它可以直接应用于客户端。”

此外,在网络接口方面,史蒂夫·门索尔对记者说:“我们将提供可支持一系列行业标准协议和线速的硬件MAC和FEC IP,以支持客户开发网络接口。当前的网络接口主要有两种,一种是基于QSFP56的,该接口大约为200GbE,目前整个行业还没有达到400G的容量,100G基本上已经比较成熟,服务器和交换机都在逐步向200G迈进。大型数据中心客户正在缓慢地开始部署200G技术,但是,更多小型客户的服务器和交换机主要集中在10G,25G和40G级别,这样我们就可以提供各种解决方案。如果使用铜缆,则可以使用1-4或1-2方式将200G或两条100G线路分成多个接口,并将它们安装在计算机机房的接口中。实际上,还可以使用铜缆或光模块将另一个QSFPDD 400G接口分散到计算机机房中。但是,400G接口目前在市场上相对较少。通常,实验室或终端机的客户仍然停留在10G,25G,40G,50G,甚至不及100G和200G。因此,我们还将提供电缆解决方案,客户可以根据自己的系统条件对接口进行很好的适配。 ”

同时,使用的主存储器是GDDR6和辅助DDR4。在调查原因时,史蒂夫·门索尔说:“与当前客户应用(例如集成在芯片上的HBM2相比),这种配置非常灵活并且价格可能非常低。因为HBM2的价格非常昂贵,因此需要集成在芯片上,它也相对复杂。对于相当一部分客户应用程序,它不会在GDDR6上放置大量数据。在这种情况下,DDR4可以提供良好的性价比。”

存储后,Achronix还创新性地引入了可扩展的OCuLink接口。郭道正解释说:“由于许多数据中心和客户端现在都使用基于NVMe的应用程序来提供高速存储系统。由于NVMe也是PCIe接口,因此可以与OCuLink结合使用以提供NVMe访问。也可以用作通过OcuLink接口进行卡级级联的高速通道,具有低延迟和高带宽;此外,一些客户认为卡接口对他们来说还不够难,那么他们可能会开发出其他板通过OCuLink接口连接到其他板以进行其他I / O扩展。最后是新系统的集成,包括我们的旧板和调试板,包括新的协议板和算法,还可以可以通过OCuLink进行特殊处理。“这种灵活的设计方法进一步增强了客户在产品开发中的差异化能力。

小结:

简而言之,借助Achronix最近推出的独立于Speedster7t的FPGA芯片的强大功能以及BittWare的FPGA加速器技术的强大支持,Achronix在当今的数据中心加速器市场上迈出了关键的一步。但是,将来,Achronix仍需要面对Xilinx和Altera等强大竞争对手的挑战。编辑认为,Achronix仍需要继续以核心技术为先导,并吸引强大而著名的合作伙伴,以开发更具成本效益的产品并利用其渠道逐步与竞争对手的市场竞争,从而赢得竞争优势。日益激烈的数据中心加速器市场。

欢迎订阅华强微电子

编辑选择

再次支持JDI的“耶稣生存”

[深度]初创企业“遍地开花”国内VCSEL在5G浪潮下走向产业链整合

[深度]道路阻力很长,线路即将来临。汽车IGBT将“降低成本并提高效率”以吸引国有企业参与竞争

Exynos 980与990的发布时间相差不到两个月,三星真的着急

微信支付宝集体禁止三星,您还敢使用超声波指纹识别吗?

有关更多爆炸性内容,请单击以查看历史新闻

欲了解更多行业信息,请访问华强电子网站-商业信息

欢迎关注华强微电子

《华强电子》杂志送礼活动

请发送“杂志”或“ 2”以获取详细信息

生物序列分析算法硬件加速器关键技术研究

生物序列分析是现代生命科学领域的重要基础研究工作。由于该领域的广泛应用,程序功能的复杂性以及海量数据的特性,对计算机性能的要求越来越高,迫切需要高性能计算的支持。 。尽管现有的基于CPU和GPU的通用计算平台可以提供强大的峰值计算功能,但是它们无法在计算粒度,存储调度和计算适用性方面积极地适应应用程序的特性,这很难应付。 -在生物序列分析领域。位级操作以及不规则的计算和存储要求具有较低的实际效率。近年来,FPGA器件凭借其可编程特性,细粒度的并行能力,丰富的计算资源,灵活的算法适应性,低硬件成本和高性能功耗比,已成为理想的定制计算平台。针对通用计算平台上生物序列分析应用程序并行性能低的问题,基于通用微处理器的异构体系结构与FPGA可重构算法加速器的结合,本文研究了典型计算方法的细粒度并行性。这个领域。以存储优化为核心,集中了可重构算法加速器设计中面临的若干技术难题,构建了面向序列分析应用的动态可重构原型系统,以实现对典型生物信息序列分析过程的定制计算,从而实现了已达到改善特定应用程序性能并降低系统功耗的目标。本文获得的重要研究成果如下:1.针对不同领域动态编程算法的数据关联和存储访问特性,基于FPGA平台,进行了数据关联转换,负载均衡任务划分和存储调度策略。根据资源限制提出。并行计算结构旨在实现典型算法的细粒度并行性。具体包括:针对回溯条件下序列比较过程中存储需求过大的问题,提出了一种节省存储需求的细粒度并行算法,并采用区域划分和计算策略来解决FPGA上的问题。芯片逻辑和存储资源面临长序列比较限制问题;利用二维串行动态规划问题的固定数据依赖性和矩阵反对角元素不存在数据相关性,提出了一种基于齐次线性阵列和加速器结构的并行计算矩阵反对角元素的方法模板。 ;等效惩罚模型和仿射惩罚模型分别用于实现三种序列比较设计方案:无回溯,片内回溯和片外回溯,全面解决了序列比较应用的硬件加速问题。针对RNA二级结构预测领域中3D非串行动态规划算法中数据相关距离变化,计算不规则和存储不连续的问题,提出了一系列提高存储效率的优化措施:重组单元的计算顺序,通过数据重用减少了片外存储访问开销,通过数据预取和缓存以及同步点写回等方式隐藏了片外访问延迟,从而实现了计算与通信之间的平衡;使用相等数量的反角元素且无数据依赖性本文提出了一种基于主从多处理单元的细粒度并行算法和加速器设计模板。利用列元素的计算量之差仅与列坐标有关的特征,采用“区域划分”和“按列旋转”的级别。基于加速器设计模板,基于加速器设计模板,Zuker,RNAalifold和CYK这三种典型算法的硬件加速在世界上首次实现,其加速效果达到了十倍以上。针对伪结RNA结构预测领域中的二维动态规划算法中复杂的数据关联和有限的存储带宽问题,提出了一种“时空重叠”的数据关联分析方法。通过动态调度内存访问请求减少了分片的数量。外部存储访问的随机性使存储带宽需求降低了50%;使用基于多处理单元的异构线性阵列结构,实现了二维动态规划矩阵的细粒度并行计算,与通用计算平台相比已经实现了3倍左右的精度。 5倍加速效果。 2.针对启发式序列数据库搜索算法中种子检测效率低的问题,提出了一种基于常规查询策略的并行多子搜索算法和基于线性结构的并行多子搜索数组。阵列分组和并行种子收集,组内种子合并以及多个子并行扩展策略实现了无阻塞数据库搜索,并成功实现了BLAST数据库搜索算法的硬件加速。 3.针对基于HMM模型的随机搜索过程中紧密耦合数据相关时矩阵元素无法并行计算的问题,提出了一种粗细混合HMM模型并行计算方法,即实现单个元素内部状态的细粒度并行计算。 “模型序列”之间的匹配过程实现了粗粒度的并行性。与目前最好的硬件加速方案相比,单个PE的计算性能提高了30%;与在通用计算平台上运行的搜索程序相比,可以获得近200倍的全局加速效果。以蛋白质结构预测为应用背景,提出了一种细粒度的并行方法和贝叶斯网络模型的计算结构。针对模型的串行结构和不同处理阶段负载不匹配的问题,提出了一种多阶段混合流水线处理策略和细粒度并行计算结构。关键流水线段复制用于实现流水线负载均衡。共享访问竞争和地址间隔访问的特性,使用参数表分段,复制和传输策略来提高参数访问效率,这是首次成功地基于贝叶斯统计和网络模型实现了蛋白质结构预测应用程序的硬件加速。 5,设计了基于大容量FPGA芯片和SDRAM存储器的硬件​​算法加速器,结合通用微处理器构建了基于异构架构的序列分析原型系统,并开发了序列分析应用程序集和FPGA配置文件库使用FPGA动态全局重建技术实现不同应用程序之间的快速切换,提高原型系统对应用程序的适应性,并实现生物序列分析典型应用程序的整体加速效果。结果表明,本文提出的异构计算平台与可重构FPGA算法加速器相结合,对生物序列分析应用具有明显的加速作用,可以达到提高计算性能和降低系统功耗的双重目的。