🚀 SOTAFollow - AI/机器人前沿论文追踪
分类管理 SOTA(State-of-the-Art)论文,覆盖 VLA、WorldModel、RL、LLM 等领域
Vision-Language-Action Model · 视觉-语言-动作模型
论文
年份
核心贡献
文档
Vega
2026
统一 Vision-Language-World-Action,InstructScene 100K,NAVSIM EPDMS 89.4 SOTA
精读
Uni-World VLA
ECCV 2026
交错式闭环 VLA,统一生成未来帧+动作 tokens
精读
DVGT-2
2026
Vision-Geometry-Action 端到端,O(1) 帧复杂度,PDMS 90.3
精读
MINT ⭐
2026
频域多尺度动作Tokenizer(SDAT),LIBERO 98.3% SOTA
精读
π0.7 ⭐
2026
多样化上下文条件化,零样本跨本体衬衫折叠,~5B
精读
VISTA
2026
世界模型生成视觉子目标,未见场景 14%→69%
精读
VLA-JEPA
2026
JEPA风格VLA预训练,时序因果注意力,流匹配动作头
精读
Actuate 2025
2025
Sergey Levine & Liyiming Ke:RL Post-training 是关键补充
精读
World Model · 世界模型 · 自动驾驶
论文
年份
核心贡献
文档
Being-H0.7 ⭐
2026
先验-后验双分支对齐,MoT 高效实现,6 仿真 SOTA
精读
Latent-WAM ⭐
2026
SCWE 16-query 压缩 + WorldMirror 几何蒸馏,感知自由 89.3
精读
AIM ⭐
2026
空间价值图桥接未来视频生成与动作解码,RoboTwin 2.0 平均 93.1
精读
Epona
2025
自回归扩散世界模型,Chain-of-Forward 训练
精读
Fast-WAM
2026
测试时想象是否必要?端到端规划加速 48×
精读
Uni-World VLA
ECCV 2026
交错式世界建模,冻结幻觉问题,PDMS 89.4
精读
MV-VDP
2026
多视角视频扩散策略,Meta-World 89.1%
精读
LeWorldModel
2026
首个端到端 JEPA 世界模型,48x 规划加速
精读
DreamerAD
2026
解析世界模型,Shortcut Forcing 80× 加速
精读
主题
文档
从表征学习角度看 Being-H0.7、Fast-WAM 与 π0.7
链接
世界模型 EP04:Motus(石麻笔记)
链接
硅谷101-世界模型深度解读
笔记
Reinforcement Learning · 强化学习
论文
年份
核心贡献
文档
NPO / AutoNPO ⭐
2026
近未来策略优化,Qwen3-VL-8B 57.88→63.15
精读
XXPO 系列
—
PPO/GRPO/GSPO/DAPO/GMPO 算法全景对比
精读
RAD
NeurIPS 2025
首个3DGS-RL端到端,碰撞率降低3倍
精读
RAD-2
2026
扩散生成器+RL判别器,碰撞率降低56%
精读
FlowGRPO
2025
首个 GRPO + Flow Matching,SD3.5 63%→95%
精读
PPO 精读
—
Clipped Surrogate、GAE、Python 伪代码
精读
Large Language Model · 大语言模型
论文
年份
核心贡献
文档
DeepSeek-V4
2025
CSA+HCA 混合稀疏注意力,1M token 上下文
精读
Foundation Model · 基础模型知识详解
模块
主题
文档
🧩 Tokenizer
TiTok 统一视觉 Tokenizer、VQVAE、1D Tokenization
详情
⚡ 注意力
FlashAttention、RoPE/3DPE/mRoPE、Kimi Attention Residuals
详情
🎛️ 微调
LoRA 参数高效微调、ZeRO 优化器
详情
🧠 世界模型
自回归框架、训练 Loss 设计
详情
📍 位置编码
RoPE、3DPE、mRoPE(DVGT-2 时序融合)
详情
🧩 记忆机制
MEM/GMP、MemoryVLA
详情
🌊 Diffusion
GuideFlow 约束引导流匹配、CVF/CF/RFE 三层约束机制
精读
主题
简介
文档
大模型 Roadmap
Transformer、MoE、量化、RAG、部署全景图
详情
TiTok
统一视觉 Tokenizer,1D 离散化 + VQ-GAN
精读
TiTok-1D
信息密度自适应分配、背景压缩、主体细节
笔记
VQVAE
Codebook 机制、视觉表征学习
详解
自回归框架
掩码设计、Action Token、VLA 结合
详解
LoRA
Low-Rank Adaptation、低秩适应机制
精读
FlashAttention
IO 感知、分块计算 + 重新计算
精读
FlashAttention-2
并行性改进、循环顺序调换
精读
ZeRO
零冗余优化器、数据并行分区
精读
World Model Loss
ELBO / KL Balancing / JEPA / LPIPS
详解
DCT
频域信号处理基础
详解
RoPE / 3DPE / mRoPE
位置编码技术详解
详解
MEM(记忆机制)
Gated Memory Policy、MemoryVLA
精读 、精读
GCT
几何上下文注意力,ETH3D 98.98% F1
精读
PETR
3D 检测:3D 位置编码融合相机几何
精读
PETR V2
Feature-Guided Position Encoding、时序融合
精读
GuideFlow ⭐
约束引导流匹配,端到端可控多模态规划,CVPR'26
精读
逐行代码级模型拆解系列(来源:小冬瓜AIGC)
篇目
主题
文档
#1
DeepSeek-V4 模型架构(HCA/CSA/SWA + MoE + mHC)
查看
面试知识点整理 · 子文化搜集与碎碎念
分类
简介
路径
🎯 RL
强化学习面试相关
查看
🧠 LLM
大语言模型面试相关
查看
🤖 VLA
Vision-Language-Action 面试相关
查看
🌍 WM
WorldModel 面试相关
查看
主题
简介
文档
MoE_RL 训推不一致
MoE 做 RL 训练-推理不一致
查看
智元 RL 技术凉经
RL 后训练面试题
查看
GRPO vs SFT 数据差异
SFT 与 GRPO 数据需求、难度分布
查看
LLM 面试深度知识点
五大模块详解
查看
LLM 面试入门知识点
入门级知识点
查看
AI 工具使用技巧 · Agent 工作流 · 效率提升策略
主题
简介
文档
Claude Code Context Rot & Rewind
1M 上下文会"腐烂",Rewind 是最佳方案
查看
Hermes Agent 新手使用十大技巧
主辅模型配置、SOUL.md、记忆机制
查看
日期
类别
简报
04-26 🌟
⚙️ CONFIG, 📚 DOCS, 🔬 FM, 🛠️ TOOLS
[FM] MEM文件夹时序融合启示章节大幅扩充:PE编码、时空融合、门控机制完整伪代码
04-25
🌍 WM, 🔀 MERGE
Merge pull request #7 from zhangcollion/lingbot-va
04-24
🌳 COMMIT, 🎯 RL, 💬 LLM, 🤖 VLA
[VLA] 新增 VLA-JEPA 论文精读报告
自动按天聚合 · emoji风格 · GitHub快捷导航