京东开源JoyAI-Echo框架 5分钟长视频终于能 "边聊边改" 了-北京科技报

当前位置：首页＞正文

京东开源JoyAI-Echo框架 5分钟长视频终于能 "边聊边改" 了

2026-06-05 来源：网络阅读量：6413

6月3日，京东宣布开源JoyAI-Echo长音视频生成框架。JoyAI-Echo解决了行业三大痛点：角色难稳定一致、音色变化难控制、视频生成速度慢，实现了长视频生成“又快又好”。此外，JoyAI-Echo的“边聊边改”模式，让视频创作从 "静态生成" 变成 "动态协作"。

JoyAI-Echo在各类视频创作、数字人直播、品牌营销、教育和游戏内容生产等领域有巨大的应用潜力，它的推出，标志着京东在长视频生成领域实现重大突破，进入全球第一梯队。

四大技术创新解决长视频生成三大难题

在AI视频领域，十几秒短视频的生成质量越来越成熟，但行业头疼的瓶颈依然存在：难以向分钟级长视频突破。AI视频一但拉到这一时长，就会出现以下问题：同一个角色，在不同镜头里长得不一样；说话人的音色忽高忽低甚至突然变声；生成速度慢到离谱，等几分钟甚至半小时才能出结果。

以上问题，直接导致 AI 长视频停留在 "玩具" 阶段，很难真正投入生产、创造价值。JoyAI-Echo 的出现，彻底打破这个僵局。JoyAI-Echo 有四项技术创新：

一是跨模态音视频记忆库，让角色再也不 "变脸"。这也是JoyAI-Echo 最关键的突破。模型框架内置了一个专门的记忆库，能在多镜头生成过程中，持续保存并调用角色的外观特征和说话人音色信息。在长达 5 分钟的视频里，角色身份、视觉形象和声音音色都能保持高度一致，再也不会出现 "同一个人演着演着变成另一个人" 的尴尬情况。

二是记忆驱动后训练，速度直接提升 7.5 倍。研发团队创新提出了记忆驱动后训练流程，结合 SFT、跨模态 RLHF 和 Distribution Matching Distillation（DMD）技术，大幅提升了生成质量，更实现了惊人的推理加速。

其中，仅 DMD 一项技术就带来了约 7.5 倍的速度提升，让长视频生成从 "等半天" 变成 "秒出片"。

三是加入智能 "导演助理"——Director Agent，让长视频第一次实现 "对话式编辑"。JoyAI-Echo 不再是 "输入提示词，一次性出结果" 的传统工具。你用自然语言说需求，它会自动帮你拆分成剧本、角色、场景和镜头。哪里不满意，直接用对话的方式告诉它修改，它只重新生成有问题的局部镜头，不用重跑整条视频，让长视频创作从 "静态生成" 变成了 "动态协作"。

四是轻量化实时超分，高清输出不卡顿。为了满足专业内容生产的需求，JoyAI-Echo 配套了专门的实时超分模块，支持两档分辨率提升（736×1280 → 1152×1920，736×1280 → 1472×2560）。模块通过单步超分就能生成高分辨率视频和精细化音频，即使在流式延迟的约束下，也能保持稳定的高清表现。

各项指标全面领先行业 “AI 长视频时代"到来

为了客观评估 JoyAI-Echo 的性能，研发团队基于 100 个故事、3000 个镜头构建了长音视频生成评测集，从多个维度进行了全面测试。结果显示，JoyAI-Echo 在跨镜头一致性、视频质量、文本一致性和语音内容准确率等所有核心指标上都取得了领先表现，其中语音内容准确率更是高达0.8646，大幅领先行业其它同类模型。

在与行业同类模型对比中，用户认为JoyAI-Echo音频质量偏好的比例为81.7%，提示词遵循偏好为80.6%，视觉美学偏好为63.6%，IP 一致性偏好为59.4%。

JoyAI-Echo 的推出，意味着AI 视频生成的 "长视频时代"来了。它为虚拟故事创作和动漫制作、数字人内容生产和直播、品牌营销视频快速迭代、互动教育课件生成等领域带来了全新可能，将大幅优化行业成本效率。JoyAI-Echo也预示着未来人类可以像聊天一样，持续创作、修改和完善长视频内容，让高一致性、高画质、可交互的视频生成，真正走进每一个内容创作者的工作流程。

京东宣布，JoyAI-Echo的代码与权重已全部开源，目前项目页和 GitHub 代码仓库已经正式上线，供开发者和创作者体验：

免责声明：该文章系转载，所涉内容非本站（号）观点，不构成投资、消费建议，仅供读者参考。文字和图片均由第三方提供，一切法律责任由提供方负责。

典赞时刻·2024首都科普年度榜单发布

2024年我和妈妈学科学

医路·新青年：述说新时代首都青年医者故事

要闻关注

京华启新程——中国式现代化的首都示范

全球首个通用智能人“通通”，正在北京快速“成长”

北京重大科技基础设施平台密度全国居首

北京为什么执着于让人形机器人跑马拉松？答案来了！