AI 创意工具文字生成视频、老照片修复、照片开口说话、图片元素去除
AI 创意工具速查手册
🎬 一、MiniMax:文字生成视频
产品简介
MiniMax 是一款支持文字/图片生成视频的 AI 工具,提供 API 接口供开发者调用,同时也可配合“海螺AI”等产品实现从创意脚本到视频画面的全流程创作。
核心功能
| 功能 | 说明 |
|---|---|
| 文生视频 | 根据文字描述生成视频画面 |
| 视频模板生成 | 将图片/文本填充至预设模板,快速生成风格统一的视频 |
| 导演模式 | 支持推拉摇移等镜头控制 |
| API 集成 | 支持 MCP 协议,可编程调用 |
使用方式
方式一:配合海螺AI(新手推荐)
- 生成脚本:在 MiniMax 中描述你的视频想法(如“15秒海边漫步Vlog”),获取分镜脚本和 AI 提示词
- 生成视频:将提示词复制到海螺AI的“文生视频”功能中
- 后期优化:混剪实拍素材、添加旁白、动态文字
方式二:API 调用(开发者)
# 使用模板生成视频示例
import requests
api_key = os.environ["MINIMAX_API_KEY"]
headers = {"Authorization": f"Bearer {api_key}"}
# 提交任务
payload = {
"template_id": "393769180141805569", # 模板ID
"media_inputs": [{"value": "图片URL"}],
"text_inputs": [{"value": "狮子"}]
}
response = requests.post(
"https://api.minimaxi.com/v1/video_template_generation",
headers=headers, json=payload
)
task_id = response.json()["task_id"]
# 轮询获取结果...适用场景
- 快速制作短视频内容
- 营销视频素材生成
- 创意原型验证
🔧 二、CodeFormer:一键去除马赛克与老照片修复
产品简介
CodeFormer 是一款基于 Transformer 的盲脸修复工具,被誉为“业界顶尖 AI 去马赛克工具”,能够修复模糊、破损、老旧照片中的人脸细节。
核心能力
| 能力 | 效果 |
|---|---|
| 高精度脸部修复 | 修复模糊面部细节,找回被遗忘的面孔 |
| 黑白照片色彩增强 | 为老照片上色,让脸部色彩更生动 |
| 残缺面孔补全 | 智能补全残缺部分 |
| 视频处理 | 支持视频流的人脸修复 |
安装指南
环境要求
- 系统:Windows 10/11、Linux、macOS 10.15+(Mac需M1/2/3芯片)
- Python:3.8-3.10 版本
- 硬件:建议 NVIDIA GPU(CUDA 11.6+),CPU模式速度慢5-8倍
安装步骤
# 1. 克隆仓库
git clone https://github.com/sczhou/CodeFormer.git
cd CodeFormer
# 2. 创建虚拟环境(推荐)
conda create -n codeformer_env python=3.9
conda activate codeformer_env
# 3. 安装依赖
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
python basicsr/setup.py develop
# 4. 下载预训练模型
python scripts/download_pretrained_models.py facelib
python scripts/download_pretrained_models.py CodeFormerMac 快捷版
如果是 Mac M1/M2/M3 用户,可直接下载 DMG 安装包,无需命令行配置。
使用方法
# 基础修复命令
python inference_codeformer.py \
--input_path inputs/whole_imgs/ \
--bg_upsampler realesrgan \
--face_upsample \
-w 0.8 # 修复强度 0-1Web 界面
python apps/web_demo.py
# 访问 http://127.0.0.1:7860性能参考
- RTX 3090:单张 1024×1024 图片约 0.8 秒
- 模型占用:约 12GB 磁盘空间
🎭 三、EMO:照片开口唱歌/说话
产品简介
EMO(Emote Portrait Alive)是阿里巴巴智能计算研究院开发的音频驱动人像视频生成框架。只需一张照片和一段音频,即可让照片中的人物“开口说话或唱歌”,呈现逼真的表情和头部动作。
官方体验渠道
通义APP(阿里官方,目前唯一可直接体验的渠道):
- 打开通义APP
- 点击导航栏【频道】→【全民舞台】
- 选择模板,上传照片即可生成
⚠️ 注意:官方尚未开源模型和源码,目前仅能通过通义APP体验
开源复现方案:AniPortrait
由于官方未开源,社区有开发者复现了类似效果的 AniPortrait 项目。
安装参考
# 运行指令(需提前配置环境)
python -m scripts.audio2vid \
--config ./configs/prompts/animation_audio.yaml \
-W 512 -H 512在 animation_audio.yaml 中修改图片和音频路径
性能参考
- RTX 4090:2分钟音频 → 约 2小时 推理时间
EMO 技术亮点
| 特点 | 说明 |
|---|---|
| 音频驱动 | 根据音频直接生成视频,无需3D模型 |
| 身份保持 | 保证生成视频中人物与原照片一致 |
| 无缝帧过渡 | 避免面部扭曲和帧间抖动 |
| 跨语言支持 | 支持中文、英文等多种语言 |
适用场景
- 趣味短视频制作
- 虚拟主播/角色口播
- 历史照片“复活”
🧽 四、Magic Eraser:去除照片中的不需要元素
产品简介
Magic Eraser 是一类基于 AI 的在线修图工具,可以智能识别并移除照片中不需要的物体(如路人、水印、杂物),并自动补全背景。
主流工具对比
| 工具 | 特点 | 费用 | 水印 |
|---|---|---|---|
| Magic Eraser (官方) | 纹理模拟效果好,光影处理自然 | 免费版有水印 | ✅ |
| 即时设计 AI 擦图 | 不限次数,真免费 | 免费 | ❌ |
| Pippit Magic Eraser | 支持批量处理、提示词优化 | 免费 | ❌ |
使用方法(通用流程)
- 上传图片:打开工具网站,上传需要处理的图片
- 涂抹选择:用画笔涂抹需要去除的元素(可调整笔刷大小)
- AI 处理:点击生成/擦除,等待 3-5 秒
- 下载保存:预览效果后下载
推荐工具链接
| 工具 | 链接 | 特点 |
|---|---|---|
| 即时设计 AI 擦图 | js.design | 免费无限制,无需注册 |
| Magic Eraser | magiceraser.com | 纹理修复效果好 |
| Pippit | pippit.ai | 支持批量处理 |
适用场景
- 去除照片中的路人、杂物
- 移除水印、Logo
- 产品图背景净化
- 老照片划痕修复
📊 工具一览表
| 工具 | 核心功能 | 体验方式 | 推荐指数 |
|---|---|---|---|
| MiniMax | 文字生成视频 | API/海螺AI | ⭐⭐⭐⭐ |
| CodeFormer | 人脸修复/老照片 | 本地安装 | ⭐⭐⭐⭐⭐ |
| EMO | 照片开口唱歌 | 通义APP | ⭐⭐⭐⭐ |
| Magic Eraser | 移除图片元素 | 在线网页 | ⭐⭐⭐⭐⭐ |
💡 使用小贴士
- 视频制作组合:MiniMax(出脚本)+ 海螺AI(出画面)+ 实拍素材混剪 = 最佳效果
CodeFormer 安装避坑:
- 使用 Anaconda 管理环境
- 遇到 cython 报错先
pip install cython - 模型文件需完整下载(约12GB)
- EMO 替代方案:官方未开源,如需本地部署可关注 AniPortrait 项目,但对硬件要求较高
- Magic Eraser 免费推荐:即时设计的 AI 擦图是目前真正免费无限制的选择