
1. 功能说明
批量文字转音频和字幕,用来把一个文件夹中的多个 txt 文本,批量生成对应的:
mp3音频srt字幕
规则是一份 txt 对应生成一组结果:
- 一个音频文件
- 一个同名字幕文件
生成出来的字幕时长会跟随对应音频内容,不需要你手动再去对时间轴。
2. 适合哪些场景
这个功能比较适合下面这些用途:
- 批量把文案生成为配音
- 批量生成口播音频
- 批量生成解说音频和同步字幕
- 给图文视频、短视频、口播视频提前准备音频和字幕
- 一次处理一批不同标题、不同脚本、不同产品介绍文案
3. 当前支持什么
当前版本支持:
- 输入格式:
txt - 输出音频格式:
mp3 - 输出字幕格式:
srt - 语音接口:
Microsoft Speech API / edge-tts - 音色范围:界面中提供的全部可选音色
也就是说,现在不是只支持 3 个声音,而是支持当前界面里列出的整套可选音色。你可以先选语言,再选该语言下的具体音色。
4. 开始前先准备什么
建议提前准备好:
- 一个存放
txt的文件夹 - 一个缓存文件夹
- 一个输出文件夹
- 需要转换的文案内容
推荐:
- 每个
txt文件只放一份完整文案 - 文件名尽量有明确含义,后续方便对应音频和字幕
- 文本统一保存为
UTF-8编码更稳妥
5. TXT 文件夹怎么放
软件读取的是一个普通文件夹,直接扫描里面的 txt 文件。
推荐示例:
TXT 文件夹
├─ 产品介绍01.txt
├─ 产品介绍02.txt
├─ 直播预告.txt
└─ 活动口播文案.txt
注意:
- 只处理
.txt文件 - 隐藏文件不会参与处理
- 空白
txt会自动跳过 - 软件会按文件名顺序依次处理
6. 基本操作流程
推荐按下面顺序操作:
- 输入卡密。
- 选择缓存文件夹。
- 设置“最多生成数量”。
- 选择
TXT 文件夹。 - 选择接口。
- 选择字幕边界。
- 选择语言和语音。
- 选择输出命名方式。
- 选择输出方式。
- 设置语速、音调、音量。
- 选择输出文件夹。
- 如需要,勾选“运行前清空输出”。
- 点击“保存配置”。
- 点击“运行程序”。
7. 缓存文件夹怎么选
缓存文件夹建议使用一个单独的空白目录。
推荐示例:
E:\hapi360\cache
D:\work\tts_cache
建议:
- 尽量不要和别的任务长期混用
- 反复测试时尽量固定一个缓存目录
- 如果目录是空白目录,问题排查会更方便
8. 语言和语音怎么选
界面里支持先选“语言”,再选“语音”。
例如你可以选择:
- 中文普通话
- 中文粤语
- 英文美式
- 英文英式
- 日语
- 韩语
每个语言下会显示对应音色,同时界面还会显示:
- 适用场景
- 声音特点
推荐使用方式:
- 先按语言筛选
- 再根据场景选男女声、播报感或亲和感更合适的音色
- 先用 1 到 2 个短文案试听,再批量生成整批内容
9. 字幕边界怎么选
字幕边界决定生成 srt 时,字幕拆分得更粗还是更细。
当前有两种:
句子级字幕词级字幕
句子级字幕
特点:
- 一句一条或一小段一条
- 字幕更自然
- 更适合普通口播、讲解、短视频配音
推荐大多数用户优先使用这个。
词级字幕
特点:
- 拆分更细
- 字幕条数更多
- 更适合后续还要做精细动画、逐词卡点、重点词强调的场景
如果你只是想直接拿来用,一般先选“句子级字幕”更稳妥。
10. 输出命名怎么选
当前支持 6 种输出命名方式。
1)序号
示例:
001.mp3
001.srt
适合不在意原文件名,只想统一编号的场景。
2)原文件名 + 序号
示例:
产品介绍-001.mp3
产品介绍-001.srt
适合既想保留原文案名,又想保留批次序号。
3)原文件名
示例:
产品介绍.mp3
产品介绍.srt
这是最直观、最好找文件的一种方式,通常也最推荐。
4)序号 + 原文件名
示例:
001-产品介绍.mp3
001-产品介绍.srt
适合你希望文件管理时优先按序号排序。
5)序号 + 时间
示例:
001-20260603153045.mp3
001-20260603153045.srt
适合避免重名,也方便区分不同批次导出时间。
6)序号 + 时间 + 文件名
示例:
001-20260603153045-产品介绍.mp3
001-20260603153045-产品介绍.srt
适合想同时保留:
- 序号
- 导出时间
- 原文件名
如果出现同名冲突,软件会自动在文件名后追加 _2、_3 之类的后缀,避免直接覆盖旧文件。
11. 输出方式怎么选
当前支持两种输出方式。
方式一:音频字幕同目录
生成结果会直接放在同一个输出文件夹中。
示例:
输出文件夹
├─ 产品介绍01.mp3
├─ 产品介绍01.srt
├─ 产品介绍02.mp3
└─ 产品介绍02.srt
适合:
- 一份音频配一份字幕,想放在一起方便查看
- 文件数量不多
- 后续要手工拷贝到别的软件里使用
方式二:音频字幕分文件夹
软件会在输出目录下自动创建两个子文件夹:
音频字幕
示例:
输出文件夹
├─ 音频
│ ├─ 产品介绍01.mp3
│ └─ 产品介绍02.mp3
└─ 字幕
├─ 产品介绍01.srt
└─ 产品介绍02.srt
适合:
- 批量文件很多
- 音频和字幕需要分别交给不同流程使用
- 后续还要继续批量处理
12. 语速、音调、音量怎么理解
语速
- 默认
1表示标准速度 - 小于
1会更慢 - 大于
1会更快
建议:
- 普通口播:
0.9到1.1 - 资讯播报:
1.0到1.2 - 情绪表达或讲解类:可以适当慢一点
音调
- 默认
1表示标准音调 - 小于
1会偏低 - 大于
1会偏高
建议不要一次调整太大,先小范围测试。
音量
- 默认
1表示标准音量 - 小于
1更轻 - 大于
1更响
如果后续还要进剪辑软件统一混音,建议先保持默认值或略微提高,不要一开始就拉得过大。
13. 输出文件夹和清空输出
输出文件夹就是最终保存 mp3 和 srt 的位置。
如果勾选“运行前清空输出”:
- 同目录模式下,会清理输出目录中的旧
mp3和srt - 分文件夹模式下,会清理输出目录以及
音频、字幕子目录中的旧结果
如果你正在反复调试同一批文案,勾选清空会更方便。
如果你要保留历史结果,先取消勾选。
14. 最多生成数量怎么理解
这个参数是本次最多处理多少个 txt 文件。
例如:
- 文件夹里有 100 个
txt - 你设置
10
那么这次只会处理前 10 个。
适合下面这些情况:
- 先小批量测试音色效果
- 只先做前几条试听
- 临时只导出一部分文案
15. 一个最常用的实战示例
假设你要批量生成一组产品口播音频和字幕。
第一步:准备文案文件
TXT 文件夹
├─ 产品A介绍.txt
├─ 产品B介绍.txt
├─ 产品C介绍.txt
└─ 直播预告.txt
第二步:软件中这样设置
- 选择缓存文件夹
- 选择
TXT 文件夹 - 语言选择中文普通话
- 语音选择你想要的女声或男声
- 字幕边界选“句子级字幕”
- 输出命名选“原文件名”
- 输出方式选“音频字幕分文件夹”
- 语速先用
1 - 音调先用
1 - 音量先用
1 - 选择输出文件夹
第三步:运行后会得到
输出文件夹
├─ 音频
│ ├─ 产品A介绍.mp3
│ ├─ 产品B介绍.mp3
│ ├─ 产品C介绍.mp3
│ └─ 直播预告.mp3
└─ 字幕
├─ 产品A介绍.srt
├─ 产品B介绍.srt
├─ 产品C介绍.srt
└─ 直播预告.srt
这样后续无论是做视频,还是继续批量导入其它流程,都比较清晰。
16. 推荐工作流
如果你是第一次用,推荐这样操作:
- 先准备 2 到 3 个短
txt做测试。 - 先试听不同语音,不要一上来就整批生成。
- 字幕边界优先用“句子级字幕”。
- 输出命名优先用“原文件名”或“原文件名 + 序号”。
- 文件较多时,输出方式优先选“音频字幕分文件夹”。
- 确认试听没问题后,再放完整批次跑。
17. 常见问题
1)为什么没有生成文件
优先检查:
TXT 文件夹是否选对- 文件夹里是否真的有
.txt - 文本是否为空
- 输出文件夹是否配置
2)为什么只生成了部分文件
优先检查:
- “最多生成数量”是不是设小了
- 某些
txt是否为空 - 某些文件是否在生成过程中失败
运行日志里会看到对应提示。
3)为什么字幕和音频文件名不一致
正常情况下,一组音频和字幕的基础文件名是一致的。
如果你看到 _2、_3 这样的后缀,通常是因为输出目录里已经存在同名文件,软件为了避免覆盖,自动换了一个不重复的新文件名。
4)为什么这次声音效果和预期不一样
重点检查:
- 语言是否选对
- 音色是否选对
- 语速、音调、音量是否改动过大
- 字幕边界是否选成了更细的模式
建议先用一小段文案试听后再批量跑。
5)为什么偶尔生成失败
这个功能依赖在线语音服务,偶发失败、超时或返回异常时,可以:
- 重新运行
- 先减少一次处理数量
- 更换时间段再试
18. 总结
如果你只是想快速批量生成配音和字幕,最核心就是:
- 准备好一批
txt - 选好语言和语音
- 选好输出命名和输出方式
- 运行后直接得到成对的
mp3 + srt
如果你文件很多,建议优先使用“音频字幕分文件夹”;如果你更看重文件可读性,建议优先使用“原文件名”命名方式。
问题咨询
使用过程中如有疑问,可添加哈皮微信咨询:hapi360
