VideoCaptioner|卡卡视频字幕处理助手最新版 v1.3.3

卡卡字幕助手（VideoCaptioner）操作简单且无需高配置，支持网络调用和本地离线（支持调用GPU）两种方式进行语音识别，利用大语言模型进行字幕智能断句、校正、翻译，字幕视频全流程一键处理。为视频配上效果惊艳的字幕。

软件图片

最新版本已经支持 VAD 、人声分离、字级时间戳、批量字幕等实用功能

提示：每一个步骤均支持单独处理，均支持文件拖拽。

LLM 大模型是用来字幕段句、字幕优化、以及字幕翻译（如果选择了LLM 大模型翻译）。

配置项	说明
SiliconCloud	SiliconCloud 官网配置方法请参考配置文档该并发较低，建议把线程设置为5以下。
DeepSeek	DeepSeek 官网，建议使用 `deepseek-v3` 模型，官方网站最近服务好像并不太稳定。
Ollama本地	Ollama 官网
内置公益模型	内置基础大语言模型（`gpt-4o-mini`）(公益服务不稳定，强烈建议请使用自己的模型API)
OpenAI兼容接口	如果有其他服务商的API，可直接在软件中填写。base_url 和api_key

注：如果用的 API 服务商不支持高并发，请在软件设置中将“线程数”调低，避免请求错误。

配置项	说明
LLM 大模型翻译	🌟 翻译质量最好的选择。使用 AI 大模型进行翻译,能更好理解上下文,翻译更自然。需要在设置中配置 LLM API(比如 OpenAI、DeepSeek 等)
DeepLx 翻译	翻译较可靠。基于 DeepL 翻译, 需要要配置自己的后端接口。
微软翻译	使用微软的翻译服务, 速度非常快
谷歌翻译	谷歌的翻译服务,速度快,但需要能访问谷歌的网络环境

推荐使用 LLM 大模型翻译 ，翻译质量最好。

接口名称	支持语言	运行方式	说明
B接口	仅支持中文、英文	在线	免费、速度较快
J接口	仅支持中文、英文	在线	免费、速度较快
WhisperCpp	中文、日语、韩语、英文等 99 种语言，外语效果较好	本地	（实际使用不稳定）需要下载转录模型中文建议medium以上模型英文等使用较小模型即可达到不错效果。
fasterWhisper 👍	中文、英文等多99种语言，外语效果优秀，时间轴更准确	本地	（🌟极力推荐🌟）需要下载程序和转录模型支持CUDA,速度更快，转录准确。超级准确的时间戳字幕。建议优先使用

Whisper 版本有 WhisperCpp 和 fasterWhisper（推荐）两种，后者效果更好，都需要自行在软件内下载模型。

推荐模型: Large-v2 稳定且质量较好。

注：以上模型国内网络可直接在软件内下载。

类型	说明	填写示例
术语表	专业术语、人名、特定词语的修正对照表	机器学习->Machine Learning 马斯克->Elon Musk 打call -> 应援图灵斑图公交车悖论
原字幕文稿	视频的原有文稿或相关内容	完整的演讲稿、课程讲义等
修正要求	内容相关的具体修正要求	统一人称代词、规范专业术语等填写内容相关的要求即可，示例参考

无特殊需求，一般不填写。

智能断句：开启后，全流程处理时生成字级时间戳，然后通过LLM大模型进行断句，从而在视频有更完美的观看体验。有按照句子断句和按照语义断句两种模式。可根据自己的需求配置。
字幕校正：开启后，会通过LLM大模型对字幕内容进行校正(如：英文单词大小写、标点符号、错别字、数学公式和代码的格式等)，提升字幕的质量。
反思翻译：开启后，会通过LLM大模型进行反思翻译，提升翻译的质量。相应的会增加请求的时间和消耗的Token。(选项在设置页-LLM大模型翻译-反思翻译中开启。)
文稿提示：填写后，这部分也将作为提示词发送给大模型，辅助字幕优化和翻译。