滚球官网 牛津、微软等发布音视频智能综述: 梳理大模子时间AVI辩论全景


GPT-4o 一边看屏幕一边和你语音对话;Veo-3、MovieGen、Seedance 2.0 班师把原生音轨纳入视频生成链路;HappyHorse 这类近期模子也驱动探索音视频搭伙生成;OpenVLA 让机器东谈主” 听音辨物”—— 音视频大模子,正在从” 加在视觉模子傍边的一个 ASR”,进化成 omni-modal 基础模子的中枢能力之一。
NUS 搭伙牛津、多伦多、UTD、HKUST、QMUL、微软辩论院、罗切斯特大学等共 9 家机构最近推出据作家所知第一份系统的音视频智能(AVI)大模子综述,用一张演化树串起十年发展,给出援助 taxonomy、三条干线与六大将来辩论轴,把 AVI 在大模子时间的变装与待解问题摆到了吞并张舆图上。

一、9 机构、首份” 音视频大模子” 综述
188金宝博官网app下载连年来,AI 圈最显耀的变化之一,是” 模子不再只看图”。
2024 年 GPT-4o 把语音、视觉、文本塞进吞并个 backbone,2025 年 Google Veo-3、Meta MovieGen 把” 原生带音轨的视频生成” 作为援助目的,2026 年字节 Seedance 2.0 和 HappyHorse 等责任进一步把文本、图像、视频、音频条款与同步音视频输出放进吞并代视频生成叙事中;Qwen-Omni 把多模态对话推到流式及时层面,OpenVLA、π0、GR00T 这一线 VLA 模子则驱动让机器东谈主同期处理语音教唆、视觉、动作致使环境声响。
但与此同期,总共领域的学术舆图却仍然高度漫衍。ASR、数字东谈主 / 语言头(talking head)、Foley(拟音)合成、视频配音(V2A)、音频驱动视频生成(A2V)、音画编订、音视频问答(AVQA)、空间音频推理、AV 导航、AV 操作…… 每一个子标的都有我方的范式、benchmark 与评测口径。
恰是在这一布景下,新加坡国立大学(NUS)搭伙牛津大学、多伦多大学、UTD、HKUST、QMUL、微软辩论院、罗切斯特大学等机构,推出了据作家所知第一份特意针对” 音视频大模子(AVI in Large Foundation Models)“的系统综述。

论文标题:Audio-Visual Intelligence in Large Foundation Models: AComprehensiveSurvey
论文:https://arxiv.org/abs/2605.04045
HF Paper:https://huggingface.co/papers/2605.04045
GitHub(Awesome-AVI,握续更新):https://github.com/JavisVerse/Awesome-AVI
技俩主页:https://javisverse.github.io/
论文把以前十年里洒落在十几个子社区的 AV 责任,再行组织成畅达寰宇(Understanding the World)/ 创造寰宇(Creating the World)/ 与寰宇交互(Interacting with the World)三条干线,给出援助的 taxonomy、基础工夫拆解、专揽幅员、以及面向将来 1–3 年的六轴辩论道路。
论文自己的立意,是把 AVI 四肢大模子时间下、与单模态语言模子同等首要的一支基础能力来梳理:从音视频对王人、到搭伙音视频生成、再到及时闭环交互,应该变成一个连贯的辩论框架,而不是被 ASR、Foley(拟音)、数字东谈主 / 语言头、AVQA 各自的范式无间切碎。
二、十年 AVI” 进化树”:从” 对得上” 到” 听 - 看 - 说 - 动一体”
大开 paper 第一页,先映入眼帘的等于这张 2016–2026 AVI 进化树:

论文把总共 AVI 的发展分红 4 个时间:
Era 1(2016–2018):AV Alignment——L3-Net、AVTS、Wav2Lip、Audio2Head,加上”ASR + LLM + TTS” 的级联式语音对话。问题齐集在” 对得上”。
Era 2(2019–2022):Scaled Representations——XDC、AVID、VATT 这些大限度对比学习步伐登场,AudioLDM、MusicGen 等单模态生成驱动爆发,SpeechGPT、SALMONN、Qwen-Audio 一齐走出 audio-native LLM。
Era 3(2023–2024):AV Creation——MBT、AV-HuBERT、Diff-Foley、MMAudio、FoleyCrafter、MusicInfuser、AudioGPT、Mini-Omni、NExT-GPT,把” 以一种模态生成另一种模态” 和”AV 阻挡器” 推到舞台中央。
Era 4(2024–2026):Omni / VLA——ImageBind、Qwen-Omni、JavisDiT、MovieGen、Veo-3、Seedance 2.0、HappyHorse、GPT-4o、OpenVLA、Audio-VLA,原生和会的 AV 大模子、同步音视频生成模子与 VLA 一齐走向前台。
更首要的是,论娴雅确指出,从 Era 1 到 Era 4,滚球app中国官网下载入口有 6 条瓶颈集会历久:音画同步、时序一致性、可控生成、评测体系、及时延伸、安全处理与数据合规。这些问题不会因为模子变大就自动解除,反而会跟着场景升级(短视频 → 长视频 → 及时 omni → agentic)反复出现。
三、援助 Taxonomy:感知 / 生成 / 交互三条干线
论文给出的援助 taxonomy 是中枢托福物之一,它把 AVI 拆成三条干线:

畅达寰宇(Understanding the World,Perception):包括音视频语音识别(AV-ASR)、唇语识别(lip reading)、活跃语言东谈主检测(ASD)、声源定位与分离、音视频事件畅达、跨模态检索、音视频问答(AVQA)这些经典任务,加上越来越多基于 AV-LLM 的长视频畅达与因果推理任务。

创造寰宇(Creating the World,Generation):被进一步拆成” 条款生成 / 跨模态生成 / 搭伙音视频生成 / 音画编订” 四类,障翳视频配音(V2A)、音频驱动视频生成(A2V)、joint AV 生成等代表标的。论文终点指出,真确” 原生搭伙” 的音视频生成才刚刚驱动 ——MovieGen、Veo-3、Seedance 2.0、JavisDiT,以及 HappyHorse 这类近期模子还是能从文本或多模态条款生成带原生音轨的视频,但跨身份、跨时长、跨场景物理合感性的音画同步生成,以及局部、可控的音画编订,仍是敞开问题。

与寰宇交互(Interacting with the World,Interaction):包含两条线,滚球中国官方网站入口一条是” 音视频对话”(从级联 ASR + LLM + TTS,到 audio-native LLM,再到 GPT-4o / Qwen-Omni 这类原生 omni-modal 及时音视频对话),另一条是” 具身智能与机器东谈主”(AV 导航、AV 场景畅达、AV 操作,对应 SoundSpaces、AVLMaps、OpenVLA、Audio-VLA)。


论文强调:交互不是一次性输出,而是带景色的闭环 —— 感知 → 推理 → 反应 / 举止,要在延伸、反馈和用户意图的不休下握续运行。这亦然为什么 omni-modal 与 VLA 类模子会在 Era 4 同期出现。
四、基础工夫:暗意、生成、LLM-centric
要是说三条干线组织的是” 作念什么”,基础工夫这一章组织的等于” 怎么作念”。论文把 AVI 的工夫栈拆成三块:
Representation(暗意):音频与视觉特征抽取、VAE / 重建式压缩、破碎化 tokenization、跨模态对王人与和会。在大模子语境下,要道问题已从” 特征对分歧得上” 升级为” 用哪种 token 把音视信号塞进 LLM 才最高效”。
Generation(生成):系统梳理 VAE / GAN / Diffusion / 自回来(AR)/ Masked Autoregressive(MAR) 五类生成范式各自的能力规模与组合神态,终点障翳了 diffusion /flow matching 的演化、AR 模子在视觉与音频上的发达、以及 hybrid AR + Diffusion 的最新标的。
LLM-centric 系统范式:论文把现时 AV 大模子按结构归成几种典型范式 ——Encoder + LLM、LLM + Generator、援助感知生成模子(unified Encoder + LLM + Decoder)、以及 Agentic 系统与 VLA 模子。这亦然工业界搭” 音视频版 GPT-4o” 时最班师对应的架构采选。

对正在搭” 音视频版 GPT-4o” 的工程团队来说,这张图大体很是于一份 AV 大模子架构选型的速查表,不错拿来对照我方现时的 backbone /encoder/decoder 分裂。
五、专揽幅员:从短视频 AIGC 到具身机器东谈主
论文用一整章梳理了 AVI 的下流专揽幅员:

围绕音视频基础模子张开,作家把专揽归纳为 6 大标的:
1.AIGC 与创意本色:视频配音 / Foley(拟音)合成、跨语言唇形同步、配乐与音画编订,再到一次性出” 带原生音轨短场景” 的 JavisDiT、Veo-3、Seedance 2.0、HappyHorse 等搭伙音视频生成模子;
2. 数字东谈主与外交交互:从 Wav2Lip 的 2D 唇形同步、到 GaussianTalker 的 3D 神经渲染、再到 EmoGene、EMAGE、Stereo-Talker 的高保真全身数字东谈主;
3. 东谈主本干事:以 Qwen-Audio、SALMONN 等 audio LLM 为中枢的对话助手 / 会议转写 / AI 陶冶 / 无终止扶持;
4. 千里浸式体验与 Metaverse:空间音频推理、AV-NeRF、AVLMaps,以及20 ms 级别的低延伸硬不休;
5. 具身 AI 与机器东谈主:从 SoundSpaces 一脉的 AV 导航,到 OpenVLA / π0 / GR00T / SmolVLA 的援助 VLA 战略;
6. 泛在感知与安全处理:贤惠城市、工业 IoT、深伪检测、声学荒谬检测、水印与数据合规、秘籍与旯旮部署。
六、将来六大辩论轴:特出” 更长清单”,给出结构性能力

AVI 发展道路图:前三阶段树立起” 对应 / 感知 / 生成” 的能力基础,当下处于交互式 omni-modal 与具身模子这一前沿,再往后是因果 - 迤逦文 AVI 与可考据的 agentic AVI—— 下文六大主轴正对应道路图右侧两段需要补王人的要道能力。
论文终末给出六条将来辩论主轴,障翳音画同步、因果事件 grounding、空间音频推理、长程迤逦文回想、可控生成、安全处理、水印与数据合规等要道问题,并强调这六轴不是更长的待办清单,而是把 AVI 与” 通用多模态学习” 区分开的结构性能力:
1. 因果事件 - 声源 grounding:建模延伸、装束、画外音、多源搀和下的源级 / 事件级 / 因果对王人,把音画同步推向因果可解说层面;
2.AV 寰宇模子:把音视频四肢几何、材质、能源学、可供性、用户 / 外交景色的互补凭证,并以空间音频推理作为要道能力;
3. 长程 AV 迤逦文回想:构建流式 / 情景 / 语义多层、可采选、可溯源的 AV 回想,而不是简便加长迤逦文窗口;
4. 因果 AV 干扰与可控生成:让生成与编订撑握对物体、声息、身份、情谊、空间、时辰的局部、因果、同步干扰;
5.Verifier 与 Reward 生态:特出 FAD / FVD / CLIP / SyncNet 这些代理方针,发展面向 grounding、物理合感性、音频不可替代性、长程一致性、任务效劳的考据器;
6. 交互式与负株连 AVI:在低延伸、秘籍、版权、水印与数据合规等安全处理不休下,把 AV 模子变成可被信任的及时妥洽者。
这六条主轴,每一条都险些对应着某条工业界正在追的家具线:
因果事件 - 声源 grounding ↔ 视频畅达 / 视频搜索;
AV 寰宇模子 ↔ 寰宇模子 / Sora 系列;
AV 迤逦文回想 ↔ 长会议、长直播、长游戏伴随的 omni assistant;
因果 AV 干扰 ↔ AI 视频后期 / 影视殊效;
VerifierReward 生态 ↔ AI 视频质料评估、自动编订;
交互式与负株连 AVI ↔ omni 助手 / 及时陪练 / 具身机器东谈主。
七、对行业意味着什么
终末作念一个精真金不怕火的产业向解读:
1. 论文给出了” 音视频大模子” 研发的援助坐标系。 非论你是在作念视频生成、数字东谈主 / 语言头、omni 助手,照旧 AV 智能体或具身机器东谈主,都能在这张全景图里找到我方的位置,进而判断承接工夫栈在那里、可模仿的步伐是什么。
2. 它明确指出了 omni-modal 模子的下一波竞争点不在” 能不可听 / 能不可看”,而在” 能不可在援助 backbone 或援助生成链路下作念长程 AV 迤逦文推理 + 原生音画同步生成 + 及时闭环交互”。 GPT-4o、Veo-3、Seedance 2.0、Qwen-Omni、OpenVLA,以及 HappyHorse 这类近期搭伙音视频生成尝试,都在从不同侧面鼓舞这一趋势。
3. 评测体系正在重塑。 论文对 FAD / FVD / CLIP / SyncNet 这类代理方针在音画同步与音频不可替代性维度上的局限作念了系统商讨,并明确把 verifierreward 生态列为将来主轴之一。不错预期将来一年,AV 评测会从” 主不雅打分 + 代理方针”,走向” 任务效劳 + 物理合感性 + 安全可溯源” 的多维评测体系。
4. 安全处理还是从镌脾琢肾走向基础才调层面。 深伪、版权、秘籍、水印与数据合规、及时糟塌,将成为部署侧不可绕过的硬不休。
对任安在作念 AV 大模子、omni-modal 模子、视频生成、数字东谈主 / 语言头、AV 智能体、具身机器东谈主、空间音频或深伪检测的团队,这篇综述长文都值得齐全通读一次。
配套的 Awesome-AVI 仓库会握续更新步伐、数据集与 benchmark滚球官网,辩论者不错围绕它追踪最新发达。