当前位置:首页 » 运营 » 正文

景安vps 怎样:vps python 升级

13 人参与  2021年01月11日 10:31  分类 : 运营  评论

  这种转换从一枝刘,姚望,俞若飞。优化模型推断在上,原文链接:翻译:本文介绍了,推理基于云虚拟主机域名填什么优化模型改进程序;相比之下,英特尔的版(.5,最新的是.2),也做推理模型优化;深入研究编译栈希望为,和专用加速器提供了一个通用的软件栈(适用于,在)用于不同的硬件平台和深厚的学习框架尽可能在不同深度的学习框架,可以很容易地部署到不同的硬件平台高效率:通过下面的中,我们可以更好地了解已完成堆栈:基于栈亚马逊有人算了一笔账建议图优化,具有一定的卷积过程优化提出他们自己的方式,加快的推理提出并获得在的主流机型了良好的加速效果;概要大规模使用的部署和的流行的普及,所以如果我们能上的表现,这将是具有重大意义的型号扣除改善;为了提高推理以上,能的常规方法,例如:在和英特尔,通常为模型计算映射,如图书馆和高能英特尔-以优化操作图;虽然这些现有的库可提高能,但由于本地操作级局部操作层面优化之前已定义,它是困难的图级优化;因此,最终优化的非常有限的推理为一体;本文介绍,是一种全面的方法来模型推断,采用了全栈系统优化;模板进行了优化,而不诉诸通过联合行动和图像的水平进一步的能优化的第三方库;实验表明,选择所述存储器确定方案根据自己的需要来选择内存,是全球最大的4,最小128,再下订单的。在模型推理,相对于的实现,可以达到3.45更低的延迟;1引言模型在计算机视觉领域大规模使用,使得模型结构优化变得至关重要;景安云助手类似的,大型的服务器端,客户端部署边缘,的优化也使得进步意义;因此,如何优化模型推演已经成为很多上的用户研究的重点;扣在上还有很大的提升空间的模型的能;模型本质上是的扣除由操作的计算图是被选自图3的操作的计算;在实践中,常高能的内核库(如-和),以改善操作能;这些库通常是目标数据输入(诸如2卷积),随后通过常规的呼叫操作的形状,但在大多数情况下,这些库只注重操作(在大多数情况下是卷积),但错过了在端查看的优化机会进一步推理水平高端型号;优化的图水平通常是深的学习框架,如和;然而,图优化,诸如操作融合熔化操作和数据布局规划布局规划数据的电平,常作为已经在第三方库被被预先定义;因此,在冲突中,这使得能提升空间,但不能挖掘优化和内核库优化框架;此外,不同的架构依赖于不同的高能库,图书馆和深度学习框架,非常容易出错且费时的发展相结合;虽然这些库高度优化的,他们是作为一个第三方插件,这使得它有可能的库和框架的冲突;例如使用本征库来处理原本计算,后来又推出了-,所以该线程将运行-和本征线程导致资源冲突,冲突;因此,该特异帧依赖的方法预测的型号是呆板,繁琐,效果不好;由于框架的,而不引入如何在框架(例如框架不可知独立帧法),以优化推理模型的能已经成为一个问题,很多人想解决;最近,英特尔发布了通用模型推理引擎,称为开发工具包;在86平台上,该开发套件模型计算机视觉任务优化的,而且相比使用单独的深度学习框架,以获得更好的能虚拟的好处;由于也基于-呼叫操作,它只能提供图格拉夫级优化的有限水平(例如操作融合);因此大多数型号意义不大优化;基于先前的观研究,我们得出这样的结论-“灵活的终端到终端的优化灵活的端到端优化”的关键在于进一步完善模型的推理能力;在这篇文章中,我们建议使用方式来优化的模型;是系统的,完整堆栈,包括经营部门和映像级,能高,而不是依赖于第三方库的联合优化;在操作层面上,我们利用先进的技术来优化计算量最大,如卷积模板的操作在不同的体系结构上运行不同的载荷,同时也使我们可以在图层面操作灵活;在图的水平,除了诸如集成和简化推理常规操作,我们优化通过操纵布局过程中,在整国内高防免备案个模型,以达到最佳能,以协调数据的各个操作;总之,由柔和有效的方式,端部的优化结束,但常规方式往往依靠第三方库,需要用于调谐;进行了一系列的基础上编制栈的深入研究改进;这样我们就可以优化操作水平,而不是依靠第三方库,这让我们非常灵活,可以是操作水平经营水平和图形的水平集成的地图水平;然而,中,只有一个特定类型的数据的,定制的操作级操作级优化;在此之前,不提供操作级操作级别同图的电平图的优化功能的关节的电平;此外,一些深度学习编译器,如张量中的理解与灼热的,他们不专注于优化,或的优化能不显著;是不是非常快例如,基于文章描述和我们自己的实验,夜光只优化单核的能,因此我们不建议这样;表1总结了比较和优化方法,以优化的能结果在几个主流能良好;级选择图级别的选择联合我的世界云主机选择开源支持支持支持支持第三方有限不支持支持第三方有限未知不支持原不完善支持不支持支持辉光支持单支持不支持支持本文将介绍以下内容:不同的上提供了主流的(英特尔,和)操作-和图形级联合优化方案联合优化运行水平和获得高的能水平来导出模型能,目前的能比方案更好;模板可以构造一个高效率的卷积,卷积灵活不同的体系结构的(86和)。以这种方式上优化操作,而不依赖于高能的核心至第三基体;一个全球方案的设计,美国高防服务器卡不卡不同的操作组合在的一个模式,找到最佳的布局,以确保高能的同时降低运营带来的额外开销之间的布局数据转换;值得注意的是,本文中,主要考虑的直接卷积计算直接卷积,对计算密集的内核,例如通过卷积的和也兼容优化;在15个主要的神经网络进行测试,我们评估在86和架构的,出色的表现:在微架构,15种最多为13余种;在,15种14种最好的;上的72,15种15种最好的;值得注意的是,在86,英特尔采用-调,优化的程度是非常低的;选择框架特定指定情况下,框架(例如和)和框架无关独立帧()解决方案,在一种情况下往往表现出色,但表现不佳;如何用做和在不同架构的能非常均衡,高效;此外,提供一种小尺寸的独立的模块,高能不依赖于帧或核心库上,可以容易地部署在不同的平台上;部署在亚马逊新服务的使用,从而使开发者可以根据和云服务器侧边缘装置的估计的优化模型;已经有许多应用程序开发人员通过优化在不同平台上模型来进行部署的预测;所有的源代码将被刊登在开源项目;本文的其余部分介绍以下内容:第二章介绍的背景和的典型的现代模型;第三章介绍了我们提出的优化以及如何实现的想法;第四章介绍了项目的评估;第五章介绍了相关工作;第六章总结;2背景2。现代1虽然加速器,如和代表好,但大量的买国外虚拟主机工作来计算学习的深入,尤其是模型推断在深入研究的上模型推论;今天,大多数的为或的86架构,而占据了嵌入式和移动设备市场;增强的工艺技术,晶体管尺寸的不断缩小,这样,我们可以建立一个更大和更复杂的处理器,从而达到增强并行通过增加核的数目计算;在多核心处理器,它是螺纹同步损失之间的同步成本最小化的不同线程之间避免干扰,关键的;内通过单一物理(单指令多数据,单指令多数据)技术来实现的最高能的处理器内核;所述值被载入到多个宽向量寄存器宽向量寄存器中,然后一起处理;(使用控制多个处理器,每个处理器(矢量数据)分别对一组数据,由此实现并行技术在空间的相同的操作;)提出如512位高级矢量扩展集(-512),在每个周期,16位单精度浮点32(总512);2处理数据寄存器256;此外,该指令采用熔融乘加()技术来量化乘法,然后在相同的周期中,存储在第二矢量寄存器的累积结果来求集;类似的技术也被集成在和;我们希望能找到在86和架构的优化一个共同的;此外,值得注意的是,大多数的同步多线程()技术,当今的服务器,支持超线程超线程技术;在这种情况下一个物理核可以具有两个虚拟核心,以提高系统的吞吐量;然而,超线程,以提高能取决于应用;在我们的例子中,我们不使用超线程,因为一个线程会占用相应的物理资源的核心,如果我们打开一个线程在同一物理核心会导致能下降;我们将经由共享存储器模式在处理器内(在典型的系统设置推理模型)我们的优化;不均匀的存储器存取()非均匀存储器访问在该范围虚拟主机发布之外;2.2个卷积神经网络卷积神经网络卷积神经网络(细胞神经网络)卷积神经网络在大型计算机视觉任务中使用;一个模型通常拉伸以形成计算图计算图;图计算出的基本上向无环图()向非循环图中,节点表示的动作,即使是从线与指示操作输出和输入到操作);推理模型计算输入数据实际拉丝,并以获得输出;图优化(例如剪枝不必要的节点和边删除多余的节点,独立于输入数据的预先计算的值预先计算独立于输入数据的值)可以提高能估计模型;在绝大多数的计算工作的模型的推理,是在卷积()卷积;这些操作可利用基本上完全并行化,特征向量和所述;以往的研究表明,卷积运算可以通过优化的调整布局数据的进行优化;剩下的挑战是如何有效地管理数据流,让获得推理高能的机型;剩余工作大多卷积和存储器相关的操作(例如批标准化批标准化,池池,激活激活,通过添加元素的逐元素加法元件,等等);传统的做法是把它们放进卷积运算,提高算法以提高能的整体复杂;图上的训练模式和推理的质计算出的没有什么不同,只以较大的比例(接合向后操作)和在计算(如功能丧失)一些琐碎操作;因此,对于在推理模型也可用于训练优化;3个优化优化本章将介绍我们能够优化我们的想法,以及如何实现;这篇文章中描述模型预测是用于端至端端对端情况下的优化方法;我们的解决方案,给出了的最常见的模式;其基本思想是把一个端到端的优化是一个问题,然后寻找最好的全局优化,也就是我们不注重优化单操作;为此,我们首先介绍了如何使用模板可以被配置为低级别的计算密集型的卷积运算优化低电平密集卷积运算;通过选择数据布局之间的适当的虚拟主机买来之后怎么用操作,以减少不必要的开销,从而使在一个特定的体系结构用于特定任务卷积找到最优的方式来实现更加灵活;我们基于栈,编译通翻译过程中,操作调度操作调度和运行时组件组件运行增加了一些新的特点,以优化;天然栈已经取得了一定的景安怎样图级优化(包括操作融合操作员融合,预先计算预操作和简化干涉中批量范数和返回归一化的简化和丢弃),这在我们的项目它也一直采纳,但这不是引进;3.1个操作优化最优化计算为提高整个任务重要的,因为卷积运算占据了整个过程的大多数能优化的卷积运算;这已经是一个充分研究的问题,但解决的办法往往是过去的汇编代码级的研究;在本节中,我们将使用特利用了的(,排比等。),以用于单个进行优化,而不考虑繁琐汇编代码和++代码的;全球管理实现了通过,你可以很容对接易地把我们的优化方式,从单一的操作来计算整个地图扩大;3.1。单线程的1个单线程优化优化我们首先进行了在一个线程优化;计算密集型操作,需要多个操作数横动操作;因此管理输入数据布局是必要的的关键是减少存储器存取的开销;我们先回操作本身来解释的内存管理机制;在2输入一三维特征(高度宽度数量的信道)和多个三维卷积核的(通常小于高度和宽度,和通道的数量,但相同),另一种输出三维张量张量;计算处理进行说明(六个参数:_,_,_,_,_和_)在图1中:实施例有效地实施1和-512指令地图集;三人被漆成深蓝色,绿色和粉红色核;为了能够有效地(融合乘法-加法),不同的值芯填云虚拟主机需要备案吗充到寄存器,并且乘法累积到的不同寄存器中不同的输入值和输出值;其中在载玻片上的输入图的卷积核,对应于求和的位置相乘得到相应于图特征元件可被用于将的输出;的卷积核构成的_数目;注_,_和_相互约束不能令人尴尬的并行高度并行处理;补充图。

  描述:俄罗斯10元我们使用传统输入法(输入和输出是张量4,:批量大小,:信道数,:图特征高度,:图特征宽度)来描述我们的默认布局数据;卷积核相关联(:输出通道,:输入通道,:芯高度,:芯宽度);根据经验,我们将特征映射格式为[](是-分割出的子通道号的尺寸,是子段尺寸的尺寸);例如的()中=,信道的数=()的()的新加坡大小;作为输出和输入格式:[],其中分频系数可以是不同的;相应地,一个卷积核是[][]和是的分割尺寸分割尺寸为,是子尺寸输入通道和个的输出通道;值得注意的是,为了获得所需的布局,需要进行大量的数据资源开销转换;除了大小重新排序,以便更好地利用最新的矢量指令集(如-512,2等。),我们用算术因素__并分成__,则循环_移动内部寄存器阻塞;例如,支撑-512的在,我们可以使用32×512比特宽的寄存器0-31;我们保持该循环机构:一个内核寄存器存储数据,同时在图的其它寄存器存储的特征;-512由指令集,存储在内核7独立虚拟主机中的寄存器值(最大512个比特,32×16输出通道)和多个的用于连续输入特征图。乘以这些结果后,将被存储到其它累积寄存器;图1示出这种思维方法;对于矢量指令,我们也可以用这样的想法,但需要改变_(例如_)是因子分频因子;算法1总结了在单线程优化我们的方式,在本质上俄罗斯10元是:为友好的内存位置维度排序优化布局格式来优化内存访问寄存器阻断好矢量指令利用率阻断寄存器来实现矢量指令的良好利用率然而,不像在方面,我们的高级语言,我们定义了一个模板,其中,所述块的尺寸(,),则号码(_)寄存器的用法,和环路策略(_)能够容易地构成;因此,依赖于架构(高速缓存的大小,矢量的宽度等。)或不同的任务(图特征尺寸,卷积核的大小等。),我们可以调整计算逻辑;在这种情况下非常灵活,也使得我们的优化可能的下图的水平;算法1:操作算法来实现的:秒>0。_=0的:>0。_=0的:_>0秒。__=0:从_{真,假}:在[]:在[]延迟检测[]:在[]对于的每个不相交的组块做>平行对于流。

  外:=0->__初始化_1到__0对于。外:=0->_做内核的每个条目做>()对于。内:=0->做(,_0)>浮对于:=1->_+1>俄罗斯10元(,_0,_)结束对结束对结束对结束对对于:=1->_+1个(_,)结束对结束对结束对3.1。2线程级并行线程级并行我们通常任务成片,然后在不同的核并行运行;核心库,如英特尔,经常使用现成的多线程程序,如的;然而,我们发现,使用可扩展的这种现成的并行程序的不理想;因此,我们定制的线程池线程池来有效地处理这种尴尬的并行问题;在个物理系统的核心,我们最外层循环操作被划分成个部分,然后分配到个线程;然后,我们在并发由++11个原子学协调线程,那路由路径么调度器,并通过无锁队列中的单生产者-单消费者生产者单消费者单模否锁定队列中的每个工作线程之间;在不同的物理内核上运行的活动线程,以保证最低硬件冲突的,如前面提到的,我们没有打开超线程;可以通过对全局数据结构多线程(如无锁队列无锁队列)来访问,我们需邵阳要插入缓存被填满,以避免线程间伪共享;总而言之,这个自定义线程池,通过这一机制,以减少对资源的冲突,降低了线的启动成本,这使得这种方法比的表现更好;3.2布局变换消除布局转换(开销)消除在本节中,我们把一个单一的操作中最佳图延伸到优化的整个计算;其主要思想来源于3。第1节描述图转换开销的数据布局的降低水平;集中之前,操作上的单步运行优化,而不是被认为高度优化的操作之间,数据的转换开销布局提出;在该模型计算,大部分工作量俄罗斯10元是和输入一般是[],所以我们应该确保每个在布局内;然而,操作可以仅之间一些默认布局和兼容,导致每个计算前需要输入布局数据(或)被转换成[]和最后将它转换回;这种转换会带来显著的能开销;幸运的是,看地图的水平,我们可以把作为一个单独的节点处理布局外,只在必要时插入;换句话说,我们消除了转换计算当它发生,并尽可能保持布局处理转化通过绘制;要确定一个数据转换是否是必要的,我们首先接触的方式,数据被分为三类:1。布局无视操作布局独立操作:这些操作并不需要考虑布局,任何布局可以处理数据,这样,使用等;2。布局容错操作半布局的相关操作:这些操作需要知道数据布局的过程中,例如,为我们应对,和[]布局;还有操作,例如_,池等;3。布局相关的操作布局相关的操作:这些操作只在特定的布局中进行的,他们不接受的数据转换,所以在此之前的操作,很好的转化到事先特定的格式;这样展平,整形等;通常之间操作模式是不相关的布局(例如,使用,的毗连和)或布局耐受(例如_和池)类型格式,使得数高防服务器价格据可以保持[]℃至横卷积美国主机租用层;从到[]语言格式转换发生在第一之前;数据布局可以之间保持相同的格式而无需转换(例如[]是的值相同);仅依赖于版图的操作中,如所述的展平,从数据布局[]是转换回;图2:布局优化的一种简单的模型;在左边是默认的过程数据布俄罗斯10元局,粉红色额外开销的每个节点,以便数据转换以获得良好的能所需的,然后转换到默认布局;右图流级优化,布局数据变换使开销最小化;绿色节点不之前和数据转换后进行任何计算;在实践中,我们的计算中,我们第一次遍历图,来推断所有节点的数据格式,如图的左侧流程图。2,然后我们将从默认布局被转换成[],对于它进行更好的能;注意,为了进一步避免转换,我们定义为常数常数;然而,为了优化能,的值可以是在不同的层不同,有必要的布局转换;意大利高防服务器3,我们将。第3节中进一步描述;最后,插入对应节点计算图;因此,我们仍然有输入和网络输出,但层间的内部布局,有被优化[]语言格式,如图在图2中的右侧;值得注意的是,该模型的参数(如卷积核重量,_均值和方差)的布局是恒定的,所以可以预先编译期间被转化;我们通过引入到多个等级图堆的的优化方法实现这一点;尽可能通过保持转换后的格式改变的布局,和时间之间的层重新编译预转换卷积核的权利,我们已进一步提高推理的-端模型的能;3.3优化方案搜索搜索优化我们依赖于硬件功能,如高速缓存大小,矢量单元宽度提出上述优化方案,特别是,存储器访问模式等中,布局数据;然而,手动尝试各种可能的方法来优化繁琐和不切实际的;所以3。将分离的通道部分2假定参数例如[]是,整个网络是相同的,而选择不同导致更好的能的一个不同的值;虚拟主机那家好此外,单独的输出宽度的参数,例如_,还需要调整为不同的向量指令集;因此,自动寻找最佳的解决方案,以进一步提升能;我们应该让在俄罗斯10元现场帮助专家建立一个搜索空间(在最短的时间内,找到某一个平台设备的最佳解决方案);分两步搜索,本地搜索的第一步,找各种优化计算密集型操作,那么全局搜索,选择不同的方案,以获得最佳的端到端能的组合;3。在第1节提出的优化模板,证明了这种方法是可行的;3.3。1本地搜索本地搜索对于每个计算密集型操作的第一步计算密集型操作(如模型)来找到优化的方式;我们用一个元组组:(_,_,_,_)来表示的卷积过程中,这些参数来表下级网络托管主机和虚拟主机单位表示不同的架构卷积上的不同任务;分离第一两个参数__代表以及输入和输出通道参数(如[])中,某些定向到和高速缓存大小高速缓存的大小;寄存器的数目被使用代表环路_的第三个参数,和架构和代数有关;我们还观到,使用寄存器都在一个线程往往不提供最佳的能;_最后一个参数是一个布尔值,来决定是否展开卷积核(算法1,第12行)的环计算,这是因为环路有时会扩大通过减小分支分支损失提高能;使用3个本地搜索。1。

  第1节模板找到这些值的最佳组合,以减少时间;按下面的步骤本地搜索:候选名单和定义__;尝试所有可能,我们列出了通道号码的所有参数;例如,如果信道数为64,我们选择[32,16,8,4,2,1]作为替代;_候选列表定义,实际操作中,从[32,16,8,4,2]_选定值;定义_候选名单:真,假]。

  中,每个组合多次穿越通过获得所有组合的频率所限定的空间,以得到一个平均运行时间;最终生成在根据时间的升序列表;俄罗斯10元值得注意的是,我们设计这样的元组以这种方式配置,这意味着我们可以修改元组(如相加和相减参数,修改值)作为必需的;根据经验,在本地搜索模型需要几个小时,这是可以接受的机器;例如,在一个单一的核微架贵州虚拟主机多少钱构18处理器的机器,它需要6小时以进行不同-5020搜索任务;此外,我们保持数据库,该数据库存储每个卷积的每个的工作负载(图核卷积核大小由特征所定义的)上的结果,以防止在不同的模式重复的搜索;对于每个单独的操作优化的结果是好的,确实比手动搜索方法更高效的本地搜索;虚拟主机然而,对于每一个操作局部最优的搜索可能导致不全局最优;例如,两个连续的操作_0和_1,如果_0输出的分频因子(_)划分和输入_1因子(_)不同,我们需要额外布局转换工作;这引起转换的额外开销大于本地搜索带来的能提升,特别是当大量的网络;换句话说,如果我们选择作为整个网络中的常数分频因子(如3-。第2节),我们将不会在一些优化;因此,我们将使用下一个全局搜索做一个权衡;多线虚拟主机推荐3.3。2全球搜索全局搜索在本节中,我们将优化搜索扩展到整个计算图;这个想法是让每个分割因子的自由选择(我。_和_),并考虑对应于所造成的转换布局的开销的时间数据;据3。区间2,无论是之间的操作布局不经意任一布局耐受,它们可以使用值确定操作;图3:全局搜索推理模型:可替换地,如果添加的话,开销由数据转换引起的示出为块;在我们的例子中所示的模型。3将说明我们的想法俄罗斯10元;每个可从图中可以看出存在一些候选程序(由不同_和_指定组合物);每个的最小时间可通过局部搜索的组合来获得;由于__选择且通常小于10,组合的总数一般小于100是;选择不同的方法可能导致不同的数据进入塔顶(虚线框之间)或无转换(如果随后的等于__);为简单起见,我们省略了一些不影响全局搜索操作(比如两个,_之间)的身影;然而,例如_此操作不能被省略,因为它需要它的两个输入操作数(输出和)格式是一样的操虚拟主机迁移作;换言之,与一个国家(每个き可选的程序的,总数为12。模型,其中,的层数量的增加的),它往往是难以处理;幸运的是,我们实际上可以使用动态规划()算法动态规划算法,有效地解决这个问题;选择一个程序,在心中,只要保持当前的全局最优解,结合自身和它直接连接到前数据布局数据布局而不需要在任何前锋;算法2中所描述的方法;事实上,许多模型结构简单,虚拟主机500故障可以减少到一个列表(每正向处理列表只有一个);在这种情况下,一个完成后可以安全地删除由前述方法生产的中间状态;对于更复杂的结构点,诸如使用的两个输出到_输入到下一个将是非常困难的,因为一个方案可能需要被保存,以供以后使用(图。3,如通过方式_,需要该方案)算法2全局搜索升级算法在图排序节点的计算拓扑;候选程序的时间使用对于俄罗斯10元拓扑顺序对于每个方案的做>是第个的方案=_()的初始化计划下=全局优化方案为前身的每个如此远全局最优方案做是第个实施例_=+_(,)+如果_=_万一结束对结束对结束对最短的程序返回的最后一个节点然而,如果模型结构过于复杂,有很多之间的数据依赖关系,那么算法将变得很难使用;例如,由于很多级联块级联块,状态在的数目可以达到目标检测模型兆大小;在这种情况下,我们将介绍以加快搜索类似的解决方案;我们寻找全球问题,降低到艺术的编译器,寄存器分配略作修改;寄存器分配问题建模,每个节点有候选(可选寄存器包含所有可能的)的列表,与描述两个寄存器之间的节点的可用成本矩阵成本矩阵相关联的每个边缘;我们的全球搜索和类似虚拟主机占用的,每一个系列的选项,每条边的程序列表和两个,生成的布局相关联的开销矩阵转换成本矩阵布局转换;对于非节点,诸如_,将需要的所有输入必须是相同的格式,我们需要修改的输入格式,和其它输入格式转换过去;因此,我们定义非候选节点列表的相同的输入被定义为第一和,并且定义这两个节点之间是相同的成本,由于对角线元素是0,在其它元件巨大;由于没升级有改变我们对自然的网络,模型输出不俄罗斯10元变;为了验证,我们和结果(图像分类模型的预测精度和模型预测的目标检测精度)进行比较;4.1整体业绩整体能在表2中,我们对不同的平台,测试不同的方法来优化15种主流机型的能,提升的影响;个样本,以获得平均时间,每次图像推断(=的_1);总体而言,在不同的平台使用不同型号,能好方法之外的方法(忽略一些意想不到的结果,可以带来高达11倍的能提升)不是;而最重要的基准测试结果比较每个型号,能如下:获取英特尔微架构0.94-1.15倍的能提升;获取0.92-1.72能;2在72上获得。05-3.45能;对于框架专用的帧相关的该计划和不是上模型推理的最佳选择;由于图中的级级缺乏灵活优化(诸如柔数据布局管理器);支持英特尔-,所以在86上面有不错的表现;然而,在比,因为可扩展问题可扩展问题(图表现不佳。图4);在模型的能并不明显,当推理因为是动态决定动态决策;与此相反,帧无关通过去除帧加速度所期望的程序,在每个模型然而能结果是不稳定的;尽管在某些情况下良好的能,但有时在某些特定的模型是很慢的(相比上-152慢45倍优化);使分析的结果,我们不考虑这些异常情况;值得注意的是时,有许升级多(例如的检测)列举的时间内不用测量时间;由于不开源,它不能被修改以获得内部实时模型;由于取决于-(86架构),它并不适用于;能计划强调指出,根据我们提出的第三章高能优化技术;此外,优化的方式,所有的基准很大程度上依赖于第三方库(-,本征);不依赖于这些库,所以有很大的空间来提高能;表2:比较基准和程序;每个结果是测试的平均时间倍;对于每个模型的最优解胆大;(的时间是不准确的)4.2点优化的启示优化的意义在本节中,我们将介绍第三优化方案的详细说明;为方便起见,我们只选择网络是每个网络的家庭进行比较;网络优化类似的想法同一网络的家庭;在;4.2。1--4.2。第3节,我们只讨论能(英特尔的效果优化也适用于和上);4.2。第1节描述了操作级优化,4.2。2和4.2。第3节描述了操作电平与图的水平联合优化联合优化;4.2。的1个布局优化首先,我们使用矢量指令利用布局和组织数据,以量化指令有无组织数据相比,第二行中的操作表3,在一个内存访问内存访问;这是4。操作级部分在大量的优化使用1,我们将其复制到模板,然后不改变内部代码或前提的汇编代码,使用调度机制,以优化在不同的平台上的模型;我们可以从表3中的第二行看到,默认的数据布局()与显著改善比较;两种实现方式被配置成正确地量化,和线程级并行,图基层优化也是一个方法描述堆栈,这样的操作融合融合操作,预先计算简化预计算,推理简化推理等;表3:基准能带给我们的优化模式相比,4.升级2。

  2布局变换消除布局转换测量其次,我们评估3。第2节描述,通过消除数据转换开销布局能增益;结果示于表3中的第三行的,布局可以看出,减少了开销转换,能1.1-1.5倍;使用系统的方法,以消除不必要的数据布局转换,通过外推所述全局数据布局,需要并插入到格式转换节点时仅;4.2。3优化方案搜索搜索优化机制接下来,我们比较我们的搜索算法的优化机制产生了人工筛选的结果和表现;根据表3中的第三和第四行中,我们可以看到3。第三节描述的算法可以找到接近的数据布局的最佳组合;比我们的手册,以找出能的效果优于1.1-1.5次;全局搜索加速-50(和它的变体)接受加速,网络结构更复杂,因为它具有用于优化更多的空间;与此相反,-19(和它的变体)的加速效果不太好,因为结果是相对简单;使用类似的算法,以获得显着的促进效果;结果表明自动搜索,就可以让我们无需手动调整参数,你还可以得到更好的能;据我们所知,是目前唯一种类可以达到这个水平的优化方案;4.2。4多线程并行并行多线程最后,我们使用3.1。第2节中提到的线程池多线程,并扩大的(通常由编译器的实现)测试;我们使用英特尔-,和,和的结果进行比较的本征(全部由多线程的);我们配置的环境变量,以确保线程(每个线程都在不同内核上运行)的分配,类似于线程池的操作;按照一秒数量的可被处理在图4中给出的模型的处理顺序(第1个大小=)逐个;用于显示,图的方便。图3中。4被分成(英特尔)根据平台;图4显示了我们的线程池的能,比的或程序更好;开始接近开销的线程比我们的线程池更大,和可扩展不好;此外,升级我们观到,有时当你添加一个线程,能会有波动甚至下滑;的能也可以根据实现而改变;总之,我们的评估方法适用于我们的场景,但对于不同的场景非常有自己的自定义线程池;图4:处理速度的优化是在不同的线程不同;标准误差标准误差(<0.4)过不是图可见。

  5相关工作相关工作在我们的日常生活深度学习的应用越来越广泛,但仍然有很多工作要做的(在不同的硬件平台,油门加速时可达学习过程的深度);今天,深学习框架经常在不同的硬件平台,优化利用这些实现的运行学习和培训和推理的深度;对于推理能的一些特殊要求(如低延迟低延迟或小二进制大小)硬件平台上,我们还需要进行优化,以工作;更加灵活和高效的操作级优化和图形级组合的;尽管本文重点介绍如何优化平台上,但是这些思想可以应用到其它硬件平台;基于栈(激发到框架卤化物的一端),堆栈介绍如何打开一个深学习网络中间表示()中间文件;还有一些类似的深入学习编译器,如,张量解析,发光和;然而,这些类型的编译器不类似于我们,在推理(比如辉光仅单核优化的)的优化过程的研究结果;我们相信,我们提出的方案可以集成到这些框架;我们使用其它高能库,优化计算密集型操作的复杂的方法;除了这些库,为卷积卷积和矩阵乘法矩阵乘法英特尔上,也有一些高度定制化的优化;这些努力大多数侧重于优化单一的操作水平,并基于卷积过程和资源的微调,而不考虑整个网络;这种优化可以最大限度的目标卷积的能,但扩展到平台上做的联合优化是非常不方便的;和各种优化,我们可以配置进行优化配置,所以针对不同的体系结构可以非常灵活的配置模板,联合优化将变得很容易在操作层面和图形的水平;我们使用自动搜索找到最好的优化模式;在地方类似的自动调整思路进行了介绍;然而,他们都集中升级在一个单一的操作,能优化,而我们正在考虑为整个全局优化模型;最近,我们还担心在图形级别优化的任务,优化任务牺牲一些优化,以改善当地的优化能的整体能;这非贪婪的想法和我们的想法是非常相似的,在我们的程序也使用;我们启发,寄存器分配问题在,为复杂的结构模型的全局搜索(如)使用类似的算法;本文使用的程序一直在想,略作修改,然后应用到新的领域;6摘要本文中,我们提出了一个端到端的和的优化编译器的解决方案,来进行推理的有效模式;实验表明,在不同类型的(英特尔微架构,和的72),对15种主流车型,而相比最先进的方案,我们能够实现3.45的能提升;今后,我们将侧重于:开发其它卷积计算算法,如的和;支持治疗进行量化(例如,8)推理的模型;在硬件平台(如比较和的),以扩大我们的操作水平和图形级联合优化方案;来源::,版权归原所有,如需转载,请与联系。

本文链接:http://3zi.me/post/1228.html

<< 上一篇 下一篇 >>

  • 评论(0)
  • 赞助本站

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

跟随标题