Transformer和Mamba强强结合!最新混合架构全面开源,推理速度狂飙8倍

最近发现,将Mamba和Transformer模块混合使用,效果会比单独使用好很多,这是因为该方法结合了Mamba的长序列处理能力和Transformer的建模能力,可以显著提升计算效率和模型性能。

典型案例如大名鼎鼎的Jamba:Jamba利用Transformer架构的元素增强Mamba 结构化状态空间模型技术,提供了 256K 上下文窗口,吞吐量直接超了Transformer三倍。

除Jamba外,近日又有不少最新提出的Transformer结合Mamba的研究,效果都很赞,比如Mamba-2-Hybrid,推理速度比Transformer快8倍。

我从这些最新研究中挑选了8个高质量成果供同学们参考学习,全部都是已开源可复现,帮助各位寻找灵感、打磨论文。

论文原文+开源代码需要的同学看文末

An Empirical Study of Mamba-based Language Models

方法:本文主要研究了基于Mamba的选择性状态空间模型与Transformer模型的结合,提出了一种混合SSM-Transformer模型,即Mamba-2-Hybrid,通过将Mamba、自注意力和MLP层组合起来,在所有常见基准测试中都优于Transformer模型。

创新点:

  • 提出了混合SSM-Transformer模型的概念,这种模型由Mamba-2、自注意力和MLP层组成。

  • 提出了Mamba-2-Hybrid模型扩展到支持16K、32K和128K上下文长度的方法。在推理时,Mamba-2-Hybrid模型预测生成一个token的速度可能比Transformer快达8倍;在23个长上下文评估中,16K和32K模型与Transformer基准模型相当甚至超过其性能。

  • 证明了Mamba-2-Hybrid模型在长上下文任务中的泛化能力。通过在Phonebook查找任务中的表现,发现将Mamba-2-Hybrid扩展到支持128K上下文可以完美执行任务,即使电话簿中包含超过150K个标记。

Dimba: Transformer-Mamba Diffusion Models

方法:Dimba 是一种全新的文本到图像扩散模型,它采用了一种结合了 Transformer 和 Mamba 元素的独特混合架构。具体来说,Dimba 在 Transformer 层和 Mamba 层之间交替顺序堆叠块,并通过交叉关注层整合条件信息,从而充分利用了两种架构范式的优势。

创新点:

  • 引入了一个新的文本到图像扩散模型,采用了Transformer和Mamba元素的混合架构。Dimba模型通过在Transformer和Mamba层之间交替堆叠块,并通过交叉注意力层整合条件信息,充分发挥了两种架构范式的优势。

  • 介绍了一种新的状态空间模型,即Mamba,它在处理序列数据方面具有高效性和模型灵活性的优势。Mamba在SSM中引入了时变参数,并提出了一种硬件感知的算法,实现了高效的训练和推理。

Integrating Mamba and Transformer for Long-Short Range Time Series Forecasting

方法:本文探索时间序列数据中Mamba和Transformer架构的融合潜力,提出了一种混合框架Mambaformer,通过内部整合Mamba和Transformer的优势实现长短范围的时间序列预测,实验证明Mambaformer家族在长短范围时间序列预测问题上优于Mamba和Transformer。

创新点:

  • 作者提出了一种混合架构,该架构结合了Mamba和Transformer模型以进行时间序列预测。

  • 核心的Mambaformer层将Mamba层和自注意力层交替排列,以结合Mamba和Transformer的优点。注意力层捕获时间序列数据中的短期依赖性,而Mamba层则增强了捕获长期依赖性的能力。这一层显著提高了Mambaformer系列在长短时范围时间序列预测中的性能。

PoinTramba: A Hybrid Transformer-Mamba Framework for Point Cloud Analysis

方法:本文提出一种新的点云分析方法PoinTramba,通过将Transformer和Mamba的优势相结合,实现了计算复杂度和分析性能之间的平衡,同时引入了双向重要性感知排序算法,进一步提高了性能,实验结果表明该方法在点云分析领域取得了最新的最优成果。

创新点:

  • PoinTramba:这是一个结合了Transformer和Mamba的混合框架,用于点云分析。通过结合这两种架构,PoinTramba在计算复杂性和分析性能之间取得了卓越的平衡。

  • 为了解决点云随机排序对Mamba性能的负面影响,作者引入了一种新的双向重要性感知排序策略。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“曼巴新8”获取全部论文+开源代码

码字不易,欢迎大家点赞评论收藏

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/774667.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【Unity小知识】UnityEngine.UI程序集丢失的问题

问题表现 先来说一下问题的表现,今天在开发的时候工程突然出现了报错,编辑器提示UnityEngine.UI缺少程序集引用。 问题分析与解决(一) 既然是程序集缺失,我们首先查看一下工程项目是否引用了程序集。在项目引用中查找一…

自定义流程表单开发优势体现在什么地方?

提质、增效、降本,应该是很多职场办公需要实现的发展目标。那么,应用什么样的软件平台可以实现?低代码技术平台、自定义流程表单开发是目前流行于职场行业中的软件产品,可视化操作界面、够灵活、易维护等优势特点明显,…

java项目总结4

1.正则表达式 用于验证字符串是否满足自己所需要的规则。方法:matches 注意:\在Java中有特殊涵义,是将其它的意思本来化,假设"是用来引用字符串的,但是你如果想要输出它,那是不是就变成了System.out…

气压传感器在自动驾驶汽车还有哪些应用场景

气压传感器在近年来被广泛应用于各种新兴领域,以下是其中几个最新的应用: 1、自动驾驶汽车:自动驾驶汽车需要精确的气压传感器来监测道路上的气压变化,帮助车辆进行准确的定位和导航。气压传感器可以提供高精度、可靠的气压数据&…

利用git将Qt代码托管到U盘或者网盘

文章目录 1.前言2.解决方案3.操作步骤3.1.软件安装3.2.在U盘创建裸仓库3.3.创建Qt程序并将代码上传至U盘3.4.版本标记及切换3.4.在别的电脑上clone代码出来 4.其他5.结语 1.前言 我们在开发项目时,随着项目需求的增加以及bug的修复,肯定会涉及到版本管理…

【山东大学】web数据管理——复习笔记

写在前面 若有图片加载失败,请科学上网 。本文为对软件学院连老师的PPT课件总结所得的复习笔记,仅供参考。不保证对考点的全覆盖,以PPT为主。对往年考过的题相关知识点前面都标注了“考过”,并高亮,供参考。写的比较匆…

智能插座搭配BIOS唤醒功能实现远程定时开关机

智能插座 智能插座凭借其强大的联网能力,不仅能够实现远程操控开关电源,部分高端型号更是集成了电量统计与自动化操作功能,为用户带来了前所未有的便捷体验。以下是我对几款体验过的智能插座的简要评价,因版本差异可能有所不同。…

分享6个自己每天都会打开的网站

分享6个自己每天都会打开的网站,有实用办公网站,也有休闲摸鱼网站,链接直达,速看~ 1、鸠摩搜索 https://www2.jiumodiary.com/ 一个免费的电子书下载网站,页面干净无广告,只有一个搜索框,输入…

Playwright之录制脚本转Page Object类

Playwright之录制脚本转Page Object类 设计思路 : 我们今天UI自动化设计的时候,通常会遵循一些设计模式,例如Page Object模式。但是自己找元素再去填写有一些麻烦,所以我们可以通过拆解录制的脚本,将其中的元素提取出来…

vue3中pinia使用持久化管理

安装插件 npm install pinia pinia-plugin-persistpinia进行注册 创建index.ts import { createPinia } from pinia; //对外暴露大仓库 export default createPinia(); 在mian.ts //引入pinpa import { createApp } from vue //引入根组件 import App from ./App.vue const…

class类和style内联样式的绑定

这里的绑定其实就是v-bind的绑定,如代码所示,div后面的引号就是v-bind绑定,然后大括号将整个对象括起来,对象内先是属性,属性后接的是变量,这个变量是定义在script中的,后通过这个变量&#xff…

CAN转PN网关模块连接激光切割机的配置方法

激光切割机在工业生产中被广泛应用,而激光发射器与控制设备常以不同的协议存在两者之间,CAN总线和Profinet以各自的特点被广泛用于设备当中。本文将介绍介绍兴达易控CAN转Profinet网关模块(XD-PN_CAN20)连接 CAN 激光切割机的使用…

【算法 - 哈希表】两数之和

这里写自定义目录标题 两数之和题目解析思路解法一 :暴力枚举 依次遍历解法二 :使用哈希表来做优化 核心逻辑为什么之前的暴力枚举策略不太好用了?所以,这就是 这道题选择 固定一个数,再与其前面的数逐一对比完后&…

如何在 Ubuntu上搭建 LAMP

远程登录 Ubuntu系统环境 ssh (User)(IP) # 比如:ssh lennlouis192.168.207.128 为安全起见,建议你使用 root 登录 VPS 后创建一个具有 sudo 权限的帐号。 安装和配置 Apache 2 Apache Http Server 是一个开源的,非常流行,使用…

RAG 为什么需要文本分割(Chunking)

Picone上的一个博客,翻译过来学习一下,其中加入了一些个人的理解和调整,有兴趣更深入研究的可以看一下文章的原文。 为什么需要文本分割(Chunking) 在构建与LLM相关的应用程序时,Chunking是将大量文本分解…

anaconda命令大全

目录 查看所有虚拟环境查看某虚拟环境安装的包创建虚拟环境激活创建好的虚拟环境回到之前的环境删除创建的虚拟环境查看conda所在的位置、虚拟环境位置等信息conda修改虚拟环境所在的位置 查看所有虚拟环境 conda env list查看某虚拟环境安装的包 激活要查看的虚拟环境之后&a…

【黑马头条】 article微服务编译失败,包com.heima.model.common.article.dtos 不存在

解决办法, 将 model微服务重新打包编译下载 然后在service的pom文件里面加上版本号 这样编译就不会找不到啦

SQL注入【1】——通用漏洞/SQL注入/mysql跨库/ACCESS偏移

一、知识点: 1、脚本代码与数据库前置知识 2、Access数据库注入-简易&偏移 3、MYSQL数据库注入-简易:权限跨库 二、前置知识: (一)SQL注入漏洞产生原理分析 SQL注入产生条件:根本条件:可控变量、特定函数。 脚本代码在实现…

数学建模MATLAB绘图大全

最近快要开始一年一度的数学建模竞赛啦,接下来争取每天更一篇数学建模算法!(当然这是理想状态下),今天就先更一些MATLAB常用的绘图吧,论文赏心悦目的关键就在于丰富多彩的图,好看的图一定会成为…

MySql主从同步延迟怎么办?

文章目录 什么是MySQL主从架构主从架构的组成工作原理主从复制的步骤主从架构的优点主从架构的缺点 什么是主从同步延迟为什么会导致主从延迟主从延时的排查和解决如果发现主从数据不一致怎么办? 我们常说的业务量越来越大,I/O访问频率过高,单…