电话

17709168119

开云网址·(中国)官方网站阿里达摩院最新研究:从故事到视频智能体驱动的进化系统|大模型论文

2024-03-18

  开云网址·(中国)官方网站阿里达摩院最新研究:从故事到视频智能体驱动的进化系统|大模型论文最近,智能体和 AIGC(人工智能生成内容)技术取得了重大进展。阿里达摩院提出了一个关于故事到视频制作的智能体驱动进化系统——AesopAgent,它是智能体技术在多模态内容生成方面的实际应用。

  该系统在一个统一的框架内集成了多种生成功能,因此个人用户可以轻松利用这些模块。这一创新系统可将用户故事提案转化为脚本、图像和音频,然后将这些多模态内容整合到视频中。此外,动画单元(如 Gen-2 和 Sora)可以使视频更具感染力。

  AesopAgent 系统可以协调视频生成的任务流程,确保生成的视频内容丰富且连贯一致。该系统主要包括两层,水平层(Horizontal Layer)和实用层(Utility Layer)。在水平层中,研究团队提出了一种基于 RAG 的新颖进化系统,该系统可优化整个视频生成工作流程以及工作流程中的各个步骤。它通过积累专家经验和专业知识,不断进化和迭代优化工作流程,包括优化大型语言模型提示和实用程序的使用。实用程序层提供多种实用程序,可生成在构图、角色和风格方面具有视觉连贯性的一致图像。同时,它还提供音频和特效,将它们整合到富有表现力和逻辑安排合理的视频中。

  自然语言、程序代码和数学符号的基础数据分布差异巨大,要使大型语言模型(LLMs)在三个领域同时实现高性能,还具有一定的挑战。要使 LLM 在特定领域内达到非常高的熟练程度,往往需要使用相关语料进行大量训练,而这通常会牺牲 LLM 在其他领域的性能。

  为此,清华团队提出直接融合已经高度专业化的模型,他们提出的融合框架 UltraFuser 由三个已经在语言、编码和数学方面得到了充分的训练的专家组成。研究团队提出了 token 级门控机制来融合专家的输出。为确保稳定性,他们还设计了一种两阶段训练策略,并伴有平衡采样。

  为了有效地训练融合模型,研究团队进一步构建了一个高质量的监督指令调整数据集 UltraChat 2,其中包括文本、代码和数学内容。该数据集包含约 30 万条指令,涵盖了各个领域的广泛主题。实验表明,该模型可以同时掌握这三个关键领域。

  随着人工智能(AI)助手的出现,软件开发的格局发生了范式转变。然而,现有的解决方案并没有充分利用 IDE 的所有潜在功能,如构建、测试、执行代码、git 操作等。因此开云网址,这些解决方案受限于其有限的功能开云网址,主要侧重于在基于聊天的界面中建议代码片段和文件操作。

  为了填补这一空白,微软团队推出了全自动 AI 驱动软件开发框架 AutoDev,该框架专为自主规划和执行复杂的软件工程任务而设计。AutoDev 使用户能够定义复杂的软件工程目标,并将其分配给 AutoDev 的自主 AI 智能体来实现。这些 AI 智能体可以对代码库执行各种操作,包括文件编辑、检索、构建过程、执行、测试和 git 操作。它们还能访问文件、编译器输出、构建和测试日志、静态分析工具等。这使得 AI 智能体能够以完全自动化的方式执行任务并全面了解所需的上下文信息。

  此外,AutoDev 还将所有操作限制在 Docker 容器内,建立了一个安全的开发环境。该框架结合了防护栏以确保用户隐私和文件安全,允许用户在 AutoDev 中定义特定的允许或限制命令和操作。

  研究团队在 HumanEval 数据集上对 AutoDev 进行了测试,在代码生成和测试生成方面分别取得了 91.5% 和 87.8% 的 Pass@1 好成绩,证明了它在自动执行软件工程任务的同时维护安全和用户控制的开发环境方面的有效性。

  人类通过模仿和社会互动来学习社交技能。在现有的语言智能体构建研究中,这种社交学习过程大多未得到充分研究。基于这一空白,卡内基梅隆大学的研究团队提出了一种互动学习方法 SOTOPIA-π来提高语言智能体的社交智能。这种方法利用行为克隆和自我强化训练,根据大语言模型(LLM)的评分对过滤后的社交互动数据进行训练。

  研究表明,这一训练方法能在提高语言智能体安全性的同时,让 7B LLM 达到专家模型(基于 GPT-4 的智能体)的社交目标完成能力,并在 MMLU 基准上保持一般 QA 能力。这种训练范式还揭示了基于 LLM 的社会智能评估中的一些困难:基于 LLM 的评估者高估了专门为社交互动训练的语言智能体的能力。

  Google Research提出了一种从单张人物输入图像生成音频驱动人类视频的方法——VLOGGER,它建立在最近成功的生成扩散模型基础之上。

  VLOGGER由两部分组成,一是随机人体到三维运动扩散模型,二是一种基于扩散的新型架构,它通过空间和时间控制来增强文本到图像模型。这有助于生成长度可变的高质量视频,并可通过人脸和身体的高级表示轻松控制。

  与之前的工作相比,这一方法不需要对每个人进行训练,不依赖于人脸检测和裁剪,能生成完整的图像(不仅仅是人脸或嘴唇),并能考虑广泛的情况(如可见躯干或不同的主体身份),这对于正确合成交流的人类至关重要。研究团队还提出了一个包含三维姿势和表情注释的全新多样化数据集 MENTOR,它比以前的数据集大一个数量级(800000 identities),并且包含动态手势。研究团队在其上训练并简化了他们的主要技术贡献。

  VLOGGER 在三个公共基准测试中的表现达到了 SOTA,考虑到图像质量、身份保留和时间一致性,同时还能生成上半身手势。VLOGGER 在多个多样性指标方面的表现都表明其架构选择和 MENTOR 的使用有利于大规模训练一个公平、无偏见的模型。最后,研究团队还展示了在视频编辑和个性化方面的应用。

  尽管图像到视频(I2V)生成技术近年来不断进步,但对更好的可控性和局部动画的探索却较少。大多数现有的图像到视频生成方法都不具备局部感知能力,往往会移动整个场景。然而,人类艺术家可能需要控制不同物体或区域的移动。此外,目前的 I2V 方法不仅需要用户描述目标运动,还需要提供冗余的帧内容详细描述。这两个问题阻碍了当前 I2V 工具的实际应用。

  来自香港科技大学、腾讯和清华大学的研究团队提出了一个名为 Follow-Your-Click 的实用框架,通过用户简单的点击(指定要移动的内容)和简短的运动提示(指定如何移动)来实现图像动画。在技术上,研究团队提出了第一帧屏蔽策略来提高视频生成质量,以及配备了简短运动提示数据集的运动增强模块来提高模型的简短提示跟随能力。为了进一步控制运动速度,他们提出基于流量的运动幅度控制,以更精确地控制目标的运动速度。

  与之前的方法相比,Follow-Your-Click 具有更简单而精确的用户控制和更好的生成性能。与 7 种基线方法(包括商业工具和研究方法)在 8 个指标上的广泛实验比较表明,这一方法更胜一筹。

  基础模型是一种强大的技术,如何公开发布这些模型直接塑造了它们的社会影响。来自普林斯顿大学和斯坦福大学的研究团队及其合作者在最新论文中重点研究了开源基础模型,即那些具有广泛可用模型权重的模型(如 Llama 2、Stable Diffusion XL)。

  研究团队确定了开放式基础模型的五个独特属性(如更强的可定制性、监控能力差等)开云网址,这些属性既能带来好处,也能带来风险。开放式基础模型在创新、竞争、决策权分配和透明度等方面具有显著优势,但也有一些需要注意的事项。为了了解其滥用风险,研究团队设计了一个风险评估框架来分析其边际风险。通过几种滥用载体(如网络攻击、生物武器),研究团队发现目前的研究还不足以有效描述开源基础模型相对于现有技术的边际风险。该框架有助于解释某些情况下边际风险较低的原因,通过揭示过去的工作侧重于该框架的不同子集和不同假设,澄清了有关滥用风险的分歧,并为更具建设性的辩论阐明了前进方向。

  总之,该项研究概述了需要开展哪些研究来从经验上验证开源基础模型的理论效益和风险,从而有助于对开源基础模型的社会影响进行更有依据的评估。