南华财经 - 国内专业的财经门户网站!
adtop
新闻检索:
topadl
topadr
当前位置: 南华财经 -> 头条资讯

比标准Attention快197倍!Meta推出多头注意力机制“九头蛇”

来源:IT之家    发布时间:2022-10-05 13:10   阅读量:19242   

虽然《变形金刚》已经开始在很多视觉任务中大显身手,但是还有一个问题。

比标准Attention快197倍!Meta推出多头注意力机制“九头蛇”

也就是说,在处理大图像时很难计算。

例如,当面对一个1080p的图时,其60%以上的计算都花在创建和应用注意力矩阵上。

主要是因为自我关注头数是令牌的平方,令牌数与图的大小成二次关系。

那我能做什么。

好消息是—

现在Meta想出了一个多焦点的操作方法,可以比标准注意力整整快197倍!

而且在提高计算速度的同时,不会牺牲精度,有时甚至可以提高1—2分的精度。

这是怎么回事。

这种方法叫九头蛇注意力,主要是针对视觉转换者。

九头蛇注意力的想法源于线性注意力中一个有点矛盾的点:

使用标准的多头自关注,在模型中增加更多的头可以保持计算量不变。

但是在线性注意中改变操作顺序后,增加更多的头部实际上会降低层的计算成本。

具体来说:

当标准的自我注意头是令牌数的平方时),通过使用可分解核,我们重新排列操作顺序,使得注意头的数量成为特征d的平方。

然后用九头蛇绝招最大化注意力头数H,使H=D,最后可以化为时空上的O简化运算。

其中九头蛇绝招的基础如下图所示:

前者在Hgt96.后者在Hlt3,内存不足。

当他们在模型中加入更多的头部时,Softmax注意力模型的准确性似乎崩溃了,而多头线性注意力仍然可以保持一致,于是就有了上面的操作。

速度快了197倍,精度还可以更高。

我们来看看九头蛇关注交出的成绩单。

如你所见,九头蛇的注意力比标准注意力快197倍。

伴随着图像大小的增加,显著增加了模型的翻牌数,创建和应用注意矩阵的计算量仅为0.02%。

或者用Hydra Attention替换某个特定的注意力层,也可以在ImageNet上提高模型1%的准确率或者保持与基线相同。

当然,最多可以更换8层。

该成果已入选ECCV 2022研讨会。

其中,有3名中国人,分别是:

傅成阳毕业于清华大学,在北卡罗来纳大学教堂山分校获得硕士和博士学位,现在是元计算机视觉的研究科学家。

戴,毕业于北京大学学士学位和普林斯顿大学博士学位,曾就职于Meta公司。

张培昭,本硕,毕业于中山大学,美国得克萨斯州Aamp博士,m大学,在Meta工作了五年。

论文地址:

涉及

郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。

责任编辑:柳暮雪    

推荐阅读

  • 第四届国际金融B2B博览会圆满落幕,USGFX大放异彩 第四届京剧票友大

    第四届国际金融B2B博览会圆满落幕,USGFX大放异彩 第四届京剧票友大

  • 金融科技独角兽们的处境为何越来越尴尬?

    金融科技独角兽们的处境为何越来越尴尬?

  • 上海医药四年四换帅战略发展面临挑战

    上海医药四年四换帅战略发展面临挑战