​ElevenLabs AI创始人提出应对音频Deepfakes想法:加水印
首页 > 业界 > 关键词  > ​ElevenLabs最新资讯  > 正文

​ElevenLabs AI创始人提出应对音频Deepfakes想法:加水印

2024-05-06 10:13 · 稿源:站长之家

划重点:

⭐ AI 语音技公司面临应对 Deepfakes 的挑战

⭐ ElevenLabs CEO 提出数字水印技术应对 Deepfakes

⭐ 技术应前景广阔,但也存在滥用风险和合规难题

站长之家(ChinaZ.com)5月6日 消息:AI 语音技术领域的公司正努力寻求何规范 Deepfakes,同时又不抑制创新。ElevenLabs 的联合创始人兼 CEO Mati Staniszewski 告诉《大西洋月刊》说:“这将是一场猫鼠游戏”。去年在测试版推出后,ElevenLabs 一跃成为价值亿美元的公司,其使用 AI 生成逼真的音频剪辑。这包括文本转语音配音、在29种语中配音以及克隆声音。该公司声称,其用户在过去一年内生成了超过100年的音频内容。

声音 音频

图源备注:图片由AI生成,图片授权服务商Midjourney

立法者担心这项技术存在危险的滥用潜力。人工智能的进步与电话诈骗的增加关,诈骗者会冒充爱人、家庭成员或政府官员进行超级电话诈骗。拜登的人工智能主管布鲁斯・里德甚至表示,“声音克隆” 是一让他夜不能寐的事情。去年,4chan 用户利用 ElevenLabs 的工具生成了名人深度伪造,视频中的内容充斥着种族主义和跨性别歧视,据《副刊》报道。

但 Staniszewski 是一个理想义者。他认为 ElevenLabs 的技术可以促进一个世界,在那里患有像肌萎缩侧索硬化症 ALS)这样的神经退行性疾病的患者失去说话能力后仍然可以用他们自己的声音交流。这项技术还有助于帮助人们跨越文化和语言进行沟通。纽约市市长埃里克・亚当斯用 ElevenLabs 的技术用普通话、意第绪语和海地克里奥尔语拨打电话,称他已经能够到更多的非英语母语的市民。

为了充分发挥这一潜力并防止欺诈,Staniszweski 表示,用户应该能够识别人工智能生成的声音和人类的声音。Staniszewski 告诉《大西洋刊》,“真正的解决方案” 是对合成声音进行数字水印处理,以便人类能够区分真假。该公司正在开发这项技术,但只有在其他公司的合作下才能发挥作用。ElevenLabs 已与包括 AI、Anthropic、Google 和 Meta 在内的几家人工智能公司签署了一项协议,共同打击2024年选举中的 Deepfakes。

举报

  • 相关推荐
  • 大家在看
  • LookOnceToHear:实时语音提取智能耳机交互系统

    LookOnceToHear 是一种创新的智能耳机交互系统,允许用户通过简单的视觉识别来选择想要听到的目标说话者。这项技术在 CHI 2024 上获得了最佳论文荣誉提名。它通过合成音频混合、头相关传输函数(HRTFs)和双耳房间脉冲响应(BRIRs)来实现实时语音提取,为用户提供了一种新颖的交互方式。

  • Models Table:大型语言模型的详细列表和信息

    Models Table 提供了一个包含300多个大型语言模型的列表,这些模型被所有主要的AI实验室使用,包括Amazon Olympus, OpenAI GPT-5, OpenAI GPT-6等。该列表展示了大型语言模型的发展趋势和多样性,对于AI研究者和开发者来说是一个宝贵的资源。

  • ReVideo.pro:一键式AI视频制作工具,适用于社交媒体和商业广告。

    ReVideo是一款功能强大的在线视频制作工具,它集成了100多个高级模板、AI背景移除工具、无版权音乐和图片库等。用户可以通过ReVideo轻松创建适用于Facebook、Instagram、YouTube、TikTok、Snapchat、播客等多种平台的视频内容。ReVideo的主要优点包括:无需录制视频或面对镜头、AI自动转录音频为字幕、自动生成音频波形、一键式品牌资产个性化、媒体库集成、超过300万的库存照片和视频资源可供搜索等。此外,ReVideo还提供了商业许可,允许用户为其客户创建视频并保留100%的利润。

  • SignLLM:首个多语种手语生成模型,优化手语翻译与教学。

    SignLLM是首个多语种手语生成模型,它基于公共手语数据构建,包括美国手语(ASL)和其他七种手语。该模型能够从文本或提示生成手语手势,并通过强化学习加速训练过程,提高数据采样质量。SignLLM在八种手语的生产任务上都达到了最先进的性能。

  • InstructAvatar:文本引导的情感和动作控制,生成生动的2D头像

    InstructAvatar是一个创新的文本引导方法,用于生成具有丰富情感表达的2D头像。该模型通过自然语言接口控制头像的情感和面部动作,提供了细粒度控制、改进的交互性和对生成视频的泛化能力。它设计了一个自动化注释流程来构建指令-视频配对的训练数据集,并配备了一个新颖的双分支扩散基础生成器,可以同时根据音频和文本指令预测头像。实验结果表明,InstructAvatar在细粒度情感控制、唇同步质量和自然度方面均优于现有方法。

  • AnyNode:ComfyUI的节点,能够根据用户指令生成任何类型的输出。

    AnyNode是一个为ComfyUI设计的插件,它利用LLMs(大型语言模型)的能力,根据用户的输入生成所需的输出。它支持使用OpenAI API或本地LLMs API,允许用户通过简单的配置和指令,实现复杂的编程任务,无需编写代码。该插件的主要优点包括易用性、灵活性和强大的功能,能够显著提高开发效率,尤其适合需要快速原型开发和自动化任务的开发者。

  • FlashRAG:高效的检索增强生成研究工具包

    FlashRAG是一个Python工具包,用于检索增强生成(RAG)研究的复现和开发。它包括32个预处理的基准RAG数据集和12种最先进的RAG算法。FlashRAG提供了一个广泛且可定制的框架,包括检索器、重排器、生成器和压缩器等RAG场景所需的基本组件,允许灵活组装复杂流程。此外,FlashRAG还提供了高效的预处理阶段和优化的执行,支持vLLM、FastChat等工具加速LLM推理和向量索引管理。

  • MusicGPT:在本地使用 LLMs 根据自然语言提示生成音乐。

    MusicGPT 是一款允许在任何平台上以高性能方式在本地运行最新音乐生成 AI 模型的应用程序。它支持文本条件音乐生成、旋律条件音乐生成以及不确定长度 / 无限音乐流。产品优势在于无需安装重型依赖如 Python 或机器学习框架,能够本地运行 AI 模型,提供自然语言提示生成音乐的功能。

  • AI Menti Builder:AI驱动的快速演示文稿制作工具

    AI Menti Builder是一个在线工具,它利用人工智能技术帮助用户快速创建演示文稿。这个工具能够根据用户输入的主题,即时生成一个可交互的演示文稿草稿,用户可以根据自己的需求进行调整和完善。它适用于团队会议、研讨会、讲座、调查、趣味测验等多种场合,大大减少准备时间,提高效率。

  • Copilot for Telegram:Telegram上的AI伴侣,智能聊天新体验。

    Copilot for Telegram是由微软推出的一款AI聊天助手,它通过GPT技术为用户提供智能聊天体验。用户可以与Copilot进行无缝对话,获取信息,享受更智能的聊天体验,所有这些功能都集成在Telegram应用中。Copilot for Telegram的主要优点包括提供个性化建议、娱乐内容、生活小贴士等,旨在提高用户的社交互动质量。

  • 一设MJ咒语解析:反向解析AI提示词的效率工具

    MJ咒语解析是一个专注于设计领域的工具,它能够帮助用户根据图片和绘画反向解析AI提示词,从而提高设计工作的效率和质量。该工具的背景信息表明,它是由一群对AI技术在设计领域应用充满热情的开发者所创建,旨在解决设计师在创作过程中遇到的提示词难题。

  • Marlee:AI协作与绩效助手,提升团队协作与个人发展。

    Marlee是一款致力于提升团队协作和个人绩效的AI工具。它通过个性化洞察,帮助团队成员在工作流程中相互促进,提供连接、激励、协作和发展的解决方案。Marlee利用科学支持的问题和分析,以高达98%的可靠性度量48种工作动机,帮助团队成员感到被看见和接受,从而在工作中展现最佳状态。此外,Marlee还提供人才招聘、人才发展、解决冲突、团队绩效和沟通等方面的帮助,以及在并购中预测文化协同的可能性。

  • Rehance:提升SaaS产品生产力的AI助手

    Rehance是一个AI助手插件,旨在为SaaS产品提供自动化任务执行和问题解答功能,帮助用户提高工作效率,简化复杂操作,并提供使用数据以优化产品。

  • HyperCrawl:专为LLM和RAG应用设计的高效网络爬虫

    HyperCrawl是第一个为LLM(大型语言模型)和RAG(检索增强生成模型)应用设计的网络爬虫,旨在开发强大的检索引擎。它通过引入多种先进方法,显著减少了域名的爬取时间,提高了检索过程的效率。HyperCrawl是HyperLLM的一部分,致力于构建未来LLM的基础设施,这些模型需要更少的计算资源,并且性能超越现有的任何模型。

  • 2D to 3D Image Converter:快速将2D图像转换为3D,开启全新的视觉体验和无限可能性。

    Stylar AI的2D to 3D Image Converter是一个强大的图像转换工具,它利用先进的Image-to-Image技术,将平面2D图像转换为3D图像。这款工具提供高质量的图像转换和多种风格选项,能够满足用户对图像进行3D化的需求。产品的主要功能包括上传图片、选择3D效果、下载3D创作等。它还提供了多种3D风格,如3D卡通效果、3D艺术作品等,以及将草图转换为3D设计的功能。

  • ComfyUI ProPainter Nodes:ComfyUI 实现的 ProPainter 框架用于视频修补。

    ComfyUI ProPainter Nodes 是基于 ProPainter 框架的视频修补插件,利用流传播和时空转换器实现高级视频帧编辑,适用于无缝修补任务。该插件具有用户友好的界面和强大的功能,旨在简化视频修补过程。

  • Play It, Say It:个人语言教练,助你像母语者一样发音。

    Play It, Say It 是一款结合了尖端AI技术和用户友好设计的个人语言教练APP,为初学者和多语言者提供全面的学习体验。通过真实生活例句、母语者发音、录音对比和无限学习等功能,帮助用户提高语言技能,实现流畅沟通。

  • What The Product:Chrome扩展,一键获取产品洞察

    What The Product是一款Chrome浏览器扩展,利用OpenAI ChatGPT技术,为用户提供对任何网站或产品的即时洞察。用户只需一键点击,即可生成详尽的报告,帮助用户评估新产品和网站。该插件免费使用,无需注册或登录,安装后即可立即使用。

  • All in AI:探索最佳的AI产品和工具

    All in AI是一个集合了多种AI产品和服务的平台,旨在帮助用户发现包括人工智能、大型模型学习、生成工具等在内的最佳AI产品和工具。平台提供了从图像生成、聊天机器人、文本写作到视频创作、代码辅助、设计辅助、教育学习、音乐生成等多种AI应用的导航和工具目录。

  • BestBlogs.dev:为开发者提供高质量编程、AI等领域阅读体验

    BestBlogs.dev 是一个专注于编程、人工智能、产品设计、商业科技及个人成长领域的阅读平台。它通过先进的语言模型,为开发者提供智能摘要、精准评分与多语言辅助,帮助用户高效过滤信息噪音,节约时间,实现技术与认知的双重飞跃。

今日大家都在搜的词: