阿里出品!DreaMoving:图片+文字提示就能生成高质量舞蹈视频
首页 > 业界 > 关键词  > DreaMoving最新资讯  > 正文

阿里出品!DreaMoving:图片+文字提示就能生成高质量舞蹈视频

2023-12-12 14:20 · 稿源:站长之家

**划重点:**

1. 🌐 **框架介绍:** DreaMoving是一种基于扩散模型的可控视频生成框架,基于图文就能制作高质量定制的人类跳舞视频视频。

2. 🔄 **架构解析:** 文中提出了Video ControlNet和Content Guider两大关键组件,分别负责运动控制和身份保留,可适用于各种风格化的扩散模型。

3. 🎬 **成果展示:** DreaMoving通过姿势序列和简单的内容描述,如文本和参考图像,生成高质量、高保真度的定制视频。

站长之家(ChinaZ.com)12月12日 消息:DreaMoving由阿里巴巴集团的一组研究人员倾力打造,一种基于扩散模型的可控视频生成框架,。该框架的核心目标基于图文就能生成高质量、定制化的人类舞蹈视频。

DreaMoving以其出色的扩散模型为基础,能够根据人物的身份和姿势序列生成目标身份在任何地方跳舞的视频。

DreaMoving 可以生成高质量和高保真度的视频,给定指导序列和简单的内容描述,例如文本和参考图像作为输入。具体来说,DreaMoving 通过人脸参考图像、通过姿势序列进行精确运动操作以及由指定文本提示提示的综合视频外观控制来展示身份控制的熟练程度。

比如你“投喂”一张人像,以及一段prompt就能生成对应的视频,而且改变prompt,人物背景和身上的衣服也会跟着变化。

为实现这一目标,该技术引入了Video ControlNet和Content Guider两个关键组件。

Video ControlNet:这是一个图像ControlNet,通过在每个U-Net块后注入运动块,处理控制序列(姿势或深度)以产生额外的时间残差。这有效实现了对运动的控制。

Content Guider:该组件负责将输入文本提示和外观表达,如人脸(衣物是可选的),转换为内容嵌入,实现跨注意力的传递。

image.png

值得一提的是,目前DreaMoving项目并没有开源代码。点击前往DreaMoving官网体验入口

项目网址:https://dreamoving.github.io/dreamoving/

论文网址:https://arxiv.org/abs/2312.05107

举报

  • 相关推荐
  • 大家在看
  • Farspeak:LLM应用开发平台,提升文档处理能力。

    Farspeak是一个LLM应用开发平台,它允许开发者通过API接入,使用自然语言查询(NLQ)和自然语言开发(NLD)技术,与MongoDB Atlas等数据库进行交互,处理结构化和非结构化数据。其主要优点包括实时嵌入更新、单一存储解决方案以及对多种数据库的支持。

  • Read Fast:提升阅读体验的智能阅读工具

    Read Fast是一个旨在提升用户阅读体验和理解能力的智能阅读工具。它通过Quick Read功能将长篇文本压缩成简洁、易于管理的阅读材料,帮助用户在更短的时间内阅读更多书籍。此外,Translation功能让用户轻松探索新语言,并利用Vocabulary Builder进一步提升语言技能。Read Fast还提供个性化的阅读环境,通过Key Insights和Critical Analysis为用户提供全面的学习体验,并通过Question Generation功能实现个性化学习。

  • LinkedCRM:AI驱动的LinkedIn销售工具

    LinkedCRM是一个为销售专业人士设计的Chrome扩展程序,它集成在LinkedIn生态系统中,专注于销售的GPT工具。它通过AI技术帮助用户在LinkedIn上自动搜索潜在客户,提供精准的电子邮件搜索,丰富客户信息,并与CRM系统同步数据,从而提高销售效率和安全性。

  • Indie Affiliates:轻松分享你的联盟营销计划

    Indie Affiliates是一个帮助初创公司和企业轻松分享他们的联盟营销计划给全球联盟营销人员的平台,从而增加收入、反向链接和品牌曝光。

  • Rich AI:个性化创业指导和赚钱建议的AI助手

    Rich AI是一款为iPad和iPhone设计的应用程序,旨在提供商业和赚钱的创意灵感、个性化建议、语音模式、学习机会、专业意见以及即时反馈。它通过提供核心创业哲学和营销策略的解释,帮助用户在创业和赚钱方面取得成功。

  • Relayer:AI驱动的笔记和持续视频,提升学习效率。

    Relayer是一个专注于学习效率提升的AI驱动平台,它通过先进的人工智能技术,帮助用户在观看视频课程时自动捕捉关键点,简化笔记过程。Relayer还提供了始终置顶的视频播放器,确保用户在记笔记或多任务处理时不会丢失课程内容。此外,它还支持与同伴的无缝协作,共享笔记,突出重要部分,并实时协作。Relayer自动整理笔记,确保一切井井有条,易于访问。它还支持多设备访问,保持学习内容在电脑、平板和手机之间的同步。

  • PeacePulse:一款全面的心理健康APP

    PeacePulse是一款设计用于iPad的心理健康APP,它通过个性化日记、AI治疗师、每日肯定、情绪记录、目标设定与追踪、日常挑战、提醒与通知等功能,帮助用户改善情绪健康,增强自我照顾实践。该APP注重用户数据的安全性和隐私保护,提供月度订阅服务,价格为每月4.99美元。

  • BlogToPin:一键将博客文章转换为Pinterest引人入胜的图钉。

    BlogToPin是一个专为Pinterest设计的工具,旨在帮助用户自动化地将博客文章转化为吸引人的图钉(Pins),从而吸引更多的有机流量和潜在客户。它通过简化图钉的创建和管理,让用户能够专注于内容创作,而不必花费大量时间在Pinterest上手动创建和安排图钉。

  • Stackpointer:一站式商业搜索引擎,洞察企业技术栈。

    Stackpointer是一个综合性商业搜索引擎,通过分析企业的技术栈来提供详细的商业洞察。用户可以通过关键词或特定技术来搜索企业,帮助创业者制定市场进入策略,识别市场饱和度,了解行业趋势,从而做出明智的商业决策。

  • Zest - Longevity:科学延长寿命,提升生活质量

    Zest - Longevity是一个旨在帮助用户实现更长寿、更健康生活的应用程序。它基于过去十年来科学研究对衰老生物学根源的探索,提供了一种工具,让用户能够从核心层面上应对衰老,甚至预防和逆转生物衰老过程。该应用程序由医生、长寿科学家和研究人员团队共同开发,并持续更新评估推荐方案。Zest通过跟踪8个关键的长寿支柱:情绪、睡眠、运动、阳光暴露、冷浸、禁食、补充剂和血液测试,帮助用户形成每日推荐目标,综合这些目标形成用户的长寿得分。此外,Zest与Vital SDK和数字生物标记的被动跟踪兼容,支持几乎所有可穿戴设备,结合行为科学和长寿科学,运用心理学和神经科学帮助用户维持延长生命的习惯。

  • Eve Coach:AI压力教练,助力管理工作相关压力。

    Eve Coach 是一款人工智能压力教练,旨在为用户提供工作场所中遇到的压力情境的支持和指导。产品通过AI技术,帮助用户管理和减轻工作压力,提高工作效率和生活质量。

  • anto:字幕文件 (srt) 翻译工具 Windows专用

    anto 是一款针对 Windows 的字幕文件 (srt) 翻译工具,提供便捷的翻译功能,旨在提高字幕翻译效率。

  • Interactive Graph by LLM:利用大型语言模型生成交互式图表

    Interactive Graph by LLM 是一个基于大型语言模型(LLM)的网站,它允许用户通过自然语言提示生成交互式图表。这项技术的重要性在于它简化了数据可视化的过程,使得非技术用户也能够轻松创建和理解复杂的数据。产品背景信息包括其创新的交互方式和对数据可视化的贡献。目前产品处于免费试用阶段,定位于希望简化数据展示流程的企业和个人。

  • Subtitle:开源字幕生成工具,实现内容无缝翻译。

    subtitle是一个开源的字幕生成工具,利用先进的机器学习技术,为用户提供准确且自然的声音字幕。它支持多种语言,易于集成到现有的工作流程中,并允许用户在自己的服务器上自托管,增强控制权和隐私保护。

  • KeepChatGPT:增强ChatGPT体验的插件,提供数据安全和效率。

    KeepChatGPT是一款旨在提升ChatGPT使用体验的插件,它通过自动刷新、保持活跃、数据安全、取消审计等创新功能,让AI聊天体验变得无比安全、顺畅、丝滑、高效和简洁。这款插件由兴趣驱动,完全免费共享,适合所有希望提升聊天效率和数据安全性的用户。

  • 快手可图大模型Kolors:智能创作与形象定制的AI艺术平台

    快手可图平台是一个结合了人工智能技术的在线艺术创作和形象定制服务。它允许用户通过输入文本或上传人像图片,快速生成具有多样风格和高画质的AI艺术作品。该平台的背景是快手公司,旨在为设计师、艺术家和普通用户提供一个创新的创作工具,帮助他们实现个性化的艺术创作需求。

  • Mapify:AI 思维导图,解析一切

    Mapify 是一款 AI 驱动的思维导图工具,能够帮助用户从多种文件格式、网页内容或视频等资料中快速提取核心观点,并整理输出为结构化的思维导图。它通过一键做图、缩放导图、内置 AI 模板等功能,极大提升了用户的生产力和创造力。Mapify 还具备与 AI 对话、实时网络访问和图像生成等高级功能,使用户能够更高效地展示和分享思维导图。

  • Perplexity Pages:将研究转化为视觉震撼、全面内容的新工具。

    Perplexity Pages 是一个旨在帮助用户将研究和知识转化为视觉吸引人、结构化且全面的内容的工具。它允许用户轻松创建、组织和分享信息,无论是深入文章、详细报告还是信息指南。该产品通过自定义、适应性和视觉元素的整合,使得内容创作更加个性化和吸引人,适合教育者、研究人员和爱好者等不同领域的内容创作者。

  • Hanabi.rest:AI驱动的API构建平台,快速部署全球REST API。

    Hanabi.rest是一个基于AI的API构建平台,它允许用户通过自然语言和截图来构建REST API,并且可以立即在全球范围内通过Cloudflare Workers部署。该平台支持多运行时API,能够生成与Cloudflare、Fastly、Deno、Bun、Lagon、AWS或Node.js兼容的代码,非常适合需要快速开发和部署API的开发者。

  • Betina:AI宠物护理专家,24/7即时指导。

    Betina是一个由AI驱动的宠物护理助手,旨在为宠物主人提供即时的宠物健康、行为、营养和福祉方面的专业指导。它通过创建宠物档案,提供个性化建议,并通过实时沟通和反馈来帮助宠物主人更好地理解和照顾他们的宠物。

今日大家都在搜的词: