卡卡字幕助手(VideoCaptioner)操作简单且无需高配置,支持网络调用和本地离线(支持调用GPU)两种方式进行语音识别,利用大语言模型进行字幕智能断句、校正、翻译,字幕视频全流程一键处理。为视频配上效果惊艳的字幕。
你可能感兴趣:
软件图片
软件特色
1. 多平台视频下载与处理
- 支持国内外主流视频平台(B站、Youtube、小红书、TikTok、X、西瓜视频、抖音等)
- 自动提取视频原有字幕处理
2. 专业的语音识别引擎
- 提供多种接口在线识别,效果媲美剪映(免费、高速)
- 支持本地Whisper模型(保护隐私、可离线)
3. 字幕智能纠错
- 自动优化专业术语、代码片段和数学公式格式
- 上下文进行断句优化,提升阅读体验
- 支持文稿提示,使用原有文稿或者相关提示优化字幕断句
4. 高质量字幕翻译
- 结合上下文的智能翻译,确保译文兼顾全文
- 通过Prompt指导大模型反思翻译,提升翻译质量
- 使用序列模糊匹配算法、保证时间轴完全一致
5. 字幕样式调整
- 丰富的字幕样式模板(科普风、新闻风、番剧风等等)
- 多种格式字幕视频(SRT、ASS、VTT、TXT)
最新版本已经支持 VAD 、人声分离、字级时间戳、批量字幕等实用功能
- 无需GPU即可使用强大的语音识别引擎,生成精准字幕
- 基于 LLM 的智能分割与断句,字幕阅读更自然流畅
- AI字幕多线程优化与翻译,调整字幕格式、表达更地道专业
- 支持批量视频字幕合成,提升处理效率
- 直观的字幕编辑查看界面,支持实时预览和快捷编辑
- 消耗模型 Token 少,且内置基础 LLM 模型,保证开箱即用
软件教程
- 打开安装包进行安装
- LLM API 配置,(用于字幕断句、校正),可使用本项目的中转站
- 翻译配置,选择是否启用翻译,翻译服务(默认使用微软翻译,质量一般,推荐使用大模型翻译)
- 语音识别配置(默认使用B接口,中英以外的语言请使用本地转录)
- 拖拽视频文件到软件窗口,即可全自动处理
提示:每一个步骤均支持单独处理,均支持文件拖拽。
1. LLM API 配置说明
LLM 大模型是用来字幕段句、字幕优化、以及字幕翻译(如果选择了LLM 大模型翻译)。
配置项 | 说明 |
---|---|
SiliconCloud | SiliconCloud 官网配置方法请参考配置文档 该并发较低,建议把线程设置为5以下。 |
DeepSeek | DeepSeek 官网,建议使用 deepseek-v3 模型, 官方网站最近服务好像并不太稳定。 |
Ollama本地 | Ollama 官网 |
内置公益模型 | 内置基础大语言模型(gpt-4o-mini )(公益服务不稳定,强烈建议请使用自己的模型API) |
OpenAI兼容接口 | 如果有其他服务商的API,可直接在软件中填写。base_url 和api_key |
注:如果用的 API 服务商不支持高并发,请在软件设置中将“线程数”调低,避免请求错误。
2. 翻译配置
配置项 | 说明 |
---|---|
LLM 大模型翻译 | 🌟 翻译质量最好的选择。使用 AI 大模型进行翻译,能更好理解上下文,翻译更自然。需要在设置中配置 LLM API(比如 OpenAI、DeepSeek 等) |
DeepLx 翻译 | 翻译较可靠。基于 DeepL 翻译, 需要要配置自己的后端接口。 |
微软翻译 | 使用微软的翻译服务, 速度非常快 |
谷歌翻译 | 谷歌的翻译服务,速度快,但需要能访问谷歌的网络环境 |
推荐使用 LLM 大模型翻译
,翻译质量最好。
3. 语音识别接口说明
接口名称 | 支持语言 | 运行方式 | 说明 |
---|---|---|---|
B接口 | 仅支持中文、英文 | 在线 | 免费、速度较快 |
J接口 | 仅支持中文、英文 | 在线 | 免费、速度较快 |
WhisperCpp | 中文、日语、韩语、英文等 99 种语言,外语效果较好 | 本地 | (实际使用不稳定)需要下载转录模型 中文建议medium以上模型 英文等使用较小模型即可达到不错效果。 |
fasterWhisper 👍 | 中文、英文等多99种语言,外语效果优秀,时间轴更准确 | 本地 | (🌟极力推荐🌟)需要下载程序和转录模型 支持CUDA,速度更快,转录准确。 超级准确的时间戳字幕。 建议优先使用 |
4. 本地 Whisper 语音识别模型
Whisper 版本有 WhisperCpp 和 fasterWhisper(推荐) 两种,后者效果更好,都需要自行在软件内下载模型。
模型 | 磁盘空间 | 内存占用 | 说明 |
---|---|---|---|
Tiny | 75 MiB | ~273 MB | 转录很一般,仅用于测试 |
Small | 466 MiB | ~852 MB | 英文识别效果已经不错 |
Medium | 1.5 GiB | ~2.1 GB | 中文识别建议至少使用此版本 |
Large-v2 👍 | 2.9 GiB | ~3.9 GB | 效果好,配置允许情况推荐使用 |
Large-v3 | 2.9 GiB | ~3.9 GB | 社区反馈可能会出现幻觉/字幕重复问题 |
推荐模型: Large-v2
稳定且质量较好。
注:以上模型国内网络可直接在软件内下载。
5. 文稿匹配
- 在"字幕优化与翻译"页面,包含"文稿匹配"选项,支持以下一种或者多种内容,辅助校正字幕和翻译:
类型 | 说明 | 填写示例 |
---|---|---|
术语表 | 专业术语、人名、特定词语的修正对照表 | 机器学习->Machine Learning 马斯克->Elon Musk 打call -> 应援 图灵斑图 公交车悖论 |
原字幕文稿 | 视频的原有文稿或相关内容 | 完整的演讲稿、课程讲义等 |
修正要求 | 内容相关的具体修正要求 | 统一人称代词、规范专业术语等 填写内容相关的要求即可,示例参考 |
- 如果需要文稿进行字幕优化辅助,全流程处理时,先填写文稿信息,再进行开始任务处理
- 注意: 使用上下文参数量不高的小型LLM模型时,建议控制文稿内容在1千字内,如果使用上下文较大的模型,则可以适当增加文稿内容。
无特殊需求,一般不填写。
选项说明
1. 语音转录页面
VAD过滤
:开启后,VAD(语音活动检测)将过滤无人声的语音片段,从而减少幻觉现象。建议保持默认开启状态。如果不懂,其他VAD选项建议直接保持默认即可。音频分离
:开启后,使用MDX-Net进行降噪处理,能够有效分离人声和背景音乐,从而提升音频质量。建议只在嘈杂的视频中开启。
2. 字幕优化与翻译页面
智能断句
:开启后,全流程处理时生成字级时间戳,然后通过LLM大模型进行断句,从而在视频有更完美的观看体验。有按照句子断句和按照语义断句两种模式。可根据自己的需求配置。字幕校正
:开启后,会通过LLM大模型对字幕内容进行校正(如:英文单词大小写、标点符号、错别字、数学公式和代码的格式等),提升字幕的质量。反思翻译
:开启后,会通过LLM大模型进行反思翻译,提升翻译的质量。相应的会增加请求的时间和消耗的Token。(选项在 设置页-LLM大模型翻译-反思翻译 中开启。)文稿提示
:填写后,这部分也将作为提示词发送给大模型,辅助字幕优化和翻译。
3. 字幕视频合成页面
视频合成
:开启后,会根据合成字幕视频;关闭将跳过视频合成的流程。软字幕
:开启后,字幕不会烧录到视频中,处理速度极快。但是软字幕需要一些播放器(如PotPlayer)支持才可以进行显示播放。而且软字幕的样式不是软件内调整的字幕样式,而是播放器默认的白色样式。
版本日志
v1.3.3
🔧 问题修复
优化字幕显示问题
优化ollama和lmstudio显示问题
添加VideoCaptioner官方api的显示
修复不能批量转录页面无法使用的问题
修复无法自定义预览图片的问题
优化双行字幕的导入问题
软件下载
开源地址:https://github.com/WEIFENG2333/VideoCaptioner
夸克网盘:https://pan.quark.cn/s/0025bfab2893
迅雷网盘:https://pan.xunlei.com/s/VO_Rl-s3eAComuPUUifBMl_9A1?pwd=3a9a#
百度网盘:https://pan.baidu.com/s/1J5thgIhbx4wTHj1Xf1Ygxw?pwd=4h9c 提取码: 4h9c
本地下载
电报频道:https://t.me/gongjuji_org
代理节点:优质代理节点
安全声明:本站分享的部分软件属于破解激活软件,可能会被杀毒软件误删,这属于正常现象,在意的可以选择不使用破解版!
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,工具集所有文章均包含本声明。