ElevenLabs AI创始人提出应对音频Deepfakes想法：加水印

2024-05-06 10:13 · 稿源：站长之家

划重点:
⭐ AI 语音技公司面临应对 Deepfakes 的挑战
⭐ ElevenLabs CEO 提出数字水印技术应对 Deepfakes
⭐ 技术应前景广阔，但也存在滥用风险和合规难题

站长之家（ChinaZ.com）5月6日消息:AI 语音技术领域的公司正努力寻求何规范 Deepfakes，同时又不抑制创新。ElevenLabs 的联合创始人兼 CEO Mati Staniszewski 告诉《大西洋月刊》说:“这将是一场猫鼠游戏”。去年在测试版推出后，ElevenLabs 一跃成为价值亿美元的公司，其使用 AI 生成逼真的音频剪辑。这包括文本转语音配音、在29种语中配音以及克隆声音。该公司声称，其用户在过去一年内生成了超过100年的音频内容。

声音音频

图源备注:图片由AI生成，图片授权服务商Midjourney

立法者担心这项技术存在危险的滥用潜力。人工智能的进步与电话诈骗的增加关，诈骗者会冒充爱人、家庭成员或政府官员进行超级电话诈骗。拜登的人工智能主管布鲁斯・里德甚至表示，“声音克隆” 是一让他夜不能寐的事情。去年，4chan 用户利用 ElevenLabs 的工具生成了名人深度伪造，视频中的内容充斥着种族主义和跨性别歧视，据《副刊》报道。

但 Staniszewski 是一个理想义者。他认为 ElevenLabs 的技术可以促进一个世界，在那里患有像肌萎缩侧索硬化症 ALS）这样的神经退行性疾病的患者失去说话能力后仍然可以用他们自己的声音交流。这项技术还有助于帮助人们跨越文化和语言进行沟通。纽约市市长埃里克・亚当斯用 ElevenLabs 的技术用普通话、意第绪语和海地克里奥尔语拨打电话，称他已经能够到更多的非英语母语的市民。

为了充分发挥这一潜力并防止欺诈，Staniszweski 表示，用户应该能够识别人工智能生成的声音和人类的声音。Staniszewski 告诉《大西洋刊》，“真正的解决方案” 是对合成声音进行数字水印处理，以便人类能够区分真假。该公司正在开发这项技术，但只有在其他公司的合作下才能发挥作用。ElevenLabs 已与包括 AI、Anthropic、Google 和 Meta 在内的几家人工智能公司签署了一项协议，共同打击2024年选举中的 Deepfakes。

（举报）

相关推荐
大家在看

关键词：

【腾讯云】11.11云上盛惠！云服务器首年1.8折起，买1年送3个月！

11.11云上盛惠！海量产品 · 轻松上云！云服务器首年1.8折起，买1年送3个月！超值优惠，性能稳定，让您的云端之旅更加畅享。快来腾讯云选购吧！

Docker容器镜像
去看看

Docker容器镜像 60元/15天

爆款产品组合购
去看看

爆款产品组合购低至1元

腾讯云x NVIDIA加速计划
去看看

腾讯云x NVIDIA加速计划最高获赠10万元扶持基金

2核2G云服务器
去看看

2核2G云服务器 112元/1年

查看更多相关信息>>

腾讯云 12-20

广告
ElevenLabs发布配音API 允许开发者在产品中添加音频或视频翻译功能

ElevenLabs近日发布了配音API，允许开发者在其产品中添加音频或视频翻译功能。利用该API，开发者可以将任意音频或视频翻译成29种语言，并且保留原始发言者声音的独特特征。通过ElevenLabsMusic生成的音乐也可以通过该平台进行分享，为普通人实现成为“歌手”的梦想提供了新的途径，同时也为专业音乐人提供了创作灵感。

ElevenLabs AI头条
DeepSeek V2模型在哪下载 DeepSeek V2在线体验地址多少

继今年1月份开源国内首个MoE模型后，DeepSeek公司经过4个月的深入研究，于今日宣布开源其第二代MoE模型——DeepSeek-V2。这一模型在多个主流大模型评测榜单中表现卓越，尤其在中文综合能力的开源模型中排名第一，与闭源模型如GPT-4-Turbo和文心4.0处于同一水平。公司坚信创新力和好奇心是通往AGI之路的核心要素，并将持续为实现AGI的终极梦想努力。

DeepSeek
DeepSeek Chat：AI对话助手 - 使用教程与免费体验入口

DeepSeekChat是什么？DeepSeekChat，基于DeepSeek-V2模型，是一款集成了2千亿参数量的MoE模型的AI技术产品。利用AIbase的人工智能智能搜索问答功能，您可以轻松找到最适合您需求的AI应用，解锁AI的无限可能。

DeepSeek
德国 AI 翻译初创公司 DeepL 估值 20 亿美元

德国AI翻译初创公司DeepL最近宣布获得3亿美元投资，使其估值达到20亿美元。DeepL以其强大的AI技术闻名，已赢得逾10万付费客户。这些发展显示了生成式人工智能技术的潜力和广泛应用。

DeepL AI翻译 AI头条
Suno新竞争对手ElevenLabs Music发布音乐人饭碗被砸稀烂！

ElevenLabsMusic AI音乐 AI头条
ElevenLabs推Audio Native 可将网页内容自动转为博客

ElevenLabs推出了一项名为AudioNative的新服务，它是一个嵌入式音频播放器，能够自动将博客、新闻网站和其他网页内容转换成高质量的语音旁白，从将这些内容自动变为播客形式。主要功能:自动生成语音旁白:利用ElevenLabs的文本转语音服务，自动生成网页内容的高质量人声旁白。复制并粘贴嵌入代码到网站上。

ElevenLabs AI头条
DeepSeek发布V2模型 GPT-4的性能白菜的价格

DeepSeek在开源MoE模型领域取得了重要进展，继今年1月份开源国内首个MoE模型后，现在发布了第二代MoE模型:DeepSeek-V2。这一新模型在多项性能评测中均展现出色的表现，与GPT-4等闭源模型竞争，同时在成本效益上具有显著优势。DeepSeek提供了对话官网和开放平台，用户可以在chat.deepseek.com免费开启对话DeepSeekAPI开放平台则提供注册即赠送大量tokens的优惠，以支持优质项目的发展。

DeepSeek AI头条
DeepMind可持续发展主管表示，AI系统能源利用效率将提高

谷歌DeepMind的可持续发展主管DrewPurves表示，随着系统能源效率的提升，生成式AI模型的能源利用将逐渐降低。包括谷歌的Gemini在内，强大新AI模型的巨大需求已导致能源和计算成本飙升。随着AI技术的不断发展，期待来能够通过技术创新来解决这些环境问题。

DeepMind AI系统
百度搜索推出AI图片助手支持去水印、画质修复、AI扩图等功能

百度搜索推出AI图片助手，在百度APP上搜索「修图」，然后上传图片，即可一键涂抹，去除背景中的路人。百度已经推出「涂抹消除」功能。在将于今年5月30日举办的2024百度移动生态万象大会上，百度搜索会正式推出更多基于大模型的产品功能，为用户提供更好的搜索体验。

AI图片助手修图功能百度搜索
幻方DeepSeek-V2系列模型已在魔搭社区开源

魔搭ModelScope社区宣布，DeepSeek-V2系列模型现已在魔搭ModelScope社区开源。幻方公司在5月6日推出了第二代MoE模型DeepSeek-V2，并开源了技术报告和模型权重，该模型引入了MLA架构和自研Sparse结构DeepSeekMoE，以236B总参数、21B激活，实际部署在8卡H800机器上，输入吞吐量超过每秒10万tokens输出超过每秒5万tokens。DeepSeek-V2的推理代码和模型下载链接已经在魔搭ModelScope社区开源，用户可以通�

魔搭ModelScope社区 DeepSeek-V2模型开源技术报告

LookOnceToHear:实时语音提取智能耳机交互系统

LookOnceToHear 是一种创新的智能耳机交互系统，允许用户通过简单的视觉识别来选择想要听到的目标说话者。这项技术在 CHI 2024 上获得了最佳论文荣誉提名。它通过合成音频混合、头相关传输函数(HRTFs)和双耳房间脉冲响应(BRIRs)来实现实时语音提取，为用户提供了一种新颖的交互方式。

语音识别实时处理智能耳机

Models Table:大型语言模型的详细列表和信息

Models Table 提供了一个包含300多个大型语言模型的列表，这些模型被所有主要的AI实验室使用，包括Amazon Olympus, OpenAI GPT-5, OpenAI GPT-6等。该列表展示了大型语言模型的发展趋势和多样性，对于AI研究者和开发者来说是一个宝贵的资源。

AI 大型语言模型机器学习

ReVideo.pro:一键式AI视频制作工具，适用于社交媒体和商业广告。

ReVideo是一款功能强大的在线视频制作工具，它集成了100多个高级模板、AI背景移除工具、无版权音乐和图片库等。用户可以通过ReVideo轻松创建适用于Facebook、Instagram、YouTube、TikTok、Snapchat、播客等多种平台的视频内容。ReVideo的主要优点包括：无需录制视频或面对镜头、AI自动转录音频为字幕、自动生成音频波形、一键式品牌资产个性化、媒体库集成、超过300万的库存照片和视频资源可供搜索等。此外，ReVideo还提供了商业许可，允许用户为其客户创建视频并保留100%的利润。

视频制作 AI字幕社交媒体

SignLLM:首个多语种手语生成模型，优化手语翻译与教学。

SignLLM是首个多语种手语生成模型，它基于公共手语数据构建，包括美国手语(ASL)和其他七种手语。该模型能够从文本或提示生成手语手势，并通过强化学习加速训练过程，提高数据采样质量。SignLLM在八种手语的生产任务上都达到了最先进的性能。

手语机器学习多语种

InstructAvatar:文本引导的情感和动作控制，生成生动的2D头像

InstructAvatar是一个创新的文本引导方法，用于生成具有丰富情感表达的2D头像。该模型通过自然语言接口控制头像的情感和面部动作，提供了细粒度控制、改进的交互性和对生成视频的泛化能力。它设计了一个自动化注释流程来构建指令-视频配对的训练数据集，并配备了一个新颖的双分支扩散基础生成器，可以同时根据音频和文本指令预测头像。实验结果表明，InstructAvatar在细粒度情感控制、唇同步质量和自然度方面均优于现有方法。

AI 头像生成情感控制

AnyNode:ComfyUI的节点，能够根据用户指令生成任何类型的输出。

AnyNode是一个为ComfyUI设计的插件，它利用LLMs（大型语言模型）的能力，根据用户的输入生成所需的输出。它支持使用OpenAI API或本地LLMs API，允许用户通过简单的配置和指令，实现复杂的编程任务，无需编写代码。该插件的主要优点包括易用性、灵活性和强大的功能，能够显著提高开发效率，尤其适合需要快速原型开发和自动化任务的开发者。

ComfyUI LLMs 自动化

FlashRAG:高效的检索增强生成研究工具包

FlashRAG是一个Python工具包，用于检索增强生成(RAG)研究的复现和开发。它包括32个预处理的基准RAG数据集和12种最先进的RAG算法。FlashRAG提供了一个广泛且可定制的框架，包括检索器、重排器、生成器和压缩器等RAG场景所需的基本组件，允许灵活组装复杂流程。此外，FlashRAG还提供了高效的预处理阶段和优化的执行，支持vLLM、FastChat等工具加速LLM推理和向量索引管理。

自然语言处理机器学习数据集

MusicGPT:在本地使用 LLMs 根据自然语言提示生成音乐。

MusicGPT 是一款允许在任何平台上以高性能方式在本地运行最新音乐生成 AI 模型的应用程序。它支持文本条件音乐生成、旋律条件音乐生成以及不确定长度 / 无限音乐流。产品优势在于无需安装重型依赖如 Python 或机器学习框架，能够本地运行 AI 模型，提供自然语言提示生成音乐的功能。

音乐人工智能本地运行

AI Menti Builder:AI驱动的快速演示文稿制作工具

AI Menti Builder是一个在线工具，它利用人工智能技术帮助用户快速创建演示文稿。这个工具能够根据用户输入的主题，即时生成一个可交互的演示文稿草稿，用户可以根据自己的需求进行调整和完善。它适用于团队会议、研讨会、讲座、调查、趣味测验等多种场合，大大减少准备时间，提高效率。

AI 演示文稿教育

Copilot for Telegram:Telegram上的AI伴侣，智能聊天新体验。

Copilot for Telegram是由微软推出的一款AI聊天助手，它通过GPT技术为用户提供智能聊天体验。用户可以与Copilot进行无缝对话，获取信息，享受更智能的聊天体验，所有这些功能都集成在Telegram应用中。Copilot for Telegram的主要优点包括提供个性化建议、娱乐内容、生活小贴士等，旨在提高用户的社交互动质量。

AI 聊天助手个性化

一设MJ咒语解析:反向解析AI提示词的效率工具

MJ咒语解析是一个专注于设计领域的工具，它能够帮助用户根据图片和绘画反向解析AI提示词，从而提高设计工作的效率和质量。该工具的背景信息表明，它是由一群对AI技术在设计领域应用充满热情的开发者所创建，旨在解决设计师在创作过程中遇到的提示词难题。

设计 AI 效率

Marlee:AI协作与绩效助手，提升团队协作与个人发展。

Marlee是一款致力于提升团队协作和个人绩效的AI工具。它通过个性化洞察，帮助团队成员在工作流程中相互促进，提供连接、激励、协作和发展的解决方案。Marlee利用科学支持的问题和分析，以高达98%的可靠性度量48种工作动机，帮助团队成员感到被看见和接受，从而在工作中展现最佳状态。此外，Marlee还提供人才招聘、人才发展、解决冲突、团队绩效和沟通等方面的帮助，以及在并购中预测文化协同的可能性。

团队协作个人发展 AI分析

Rehance:提升SaaS产品生产力的AI助手

Rehance是一个AI助手插件，旨在为SaaS产品提供自动化任务执行和问题解答功能，帮助用户提高工作效率，简化复杂操作，并提供使用数据以优化产品。

AI 自动化生产力

HyperCrawl:专为LLM和RAG应用设计的高效网络爬虫

HyperCrawl是第一个为LLM（大型语言模型）和RAG（检索增强生成模型）应用设计的网络爬虫，旨在开发强大的检索引擎。它通过引入多种先进方法，显著减少了域名的爬取时间，提高了检索过程的效率。HyperCrawl是HyperLLM的一部分，致力于构建未来LLM的基础设施，这些模型需要更少的计算资源，并且性能超越现有的任何模型。

网络爬虫机器学习数据检索

2D to 3D Image Converter:快速将2D图像转换为3D，开启全新的视觉体验和无限可能性。

Stylar AI的2D to 3D Image Converter是一个强大的图像转换工具，它利用先进的Image-to-Image技术，将平面2D图像转换为3D图像。这款工具提供高质量的图像转换和多种风格选项，能够满足用户对图像进行3D化的需求。产品的主要功能包括上传图片、选择3D效果、下载3D创作等。它还提供了多种3D风格，如3D卡通效果、3D艺术作品等，以及将草图转换为3D设计的功能。

3D图像转换 AI图像编辑设计辅助