哈皮批量剪辑软件批量文字生成语音和字幕使用说明教程

1. 功能说明

批量文字转音频和字幕，用来把一个文件夹中的多个 txt 文本，批量生成对应的：

mp3 音频
srt 字幕

规则是一份 txt 对应生成一组结果：

一个音频文件
一个同名字幕文件

生成出来的字幕时长会跟随对应音频内容，不需要你手动再去对时间轴。

2. 适合哪些场景

这个功能比较适合下面这些用途：

批量把文案生成为配音
批量生成口播音频
批量生成解说音频和同步字幕
给图文视频、短视频、口播视频提前准备音频和字幕
一次处理一批不同标题、不同脚本、不同产品介绍文案

3. 当前支持什么

当前版本支持：

输入格式：txt
输出音频格式：mp3
输出字幕格式：srt
语音接口：Microsoft Speech API / edge-tts
音色范围：界面中提供的全部可选音色

也就是说，现在不是只支持 3 个声音，而是支持当前界面里列出的整套可选音色。你可以先选语言，再选该语言下的具体音色。

4. 开始前先准备什么

建议提前准备好：

一个存放 txt 的文件夹
一个缓存文件夹
一个输出文件夹
需要转换的文案内容

5. TXT 文件夹怎么放

软件读取的是一个普通文件夹，直接扫描里面的 txt 文件。

推荐示例：

TXT 文件夹

├─ 产品介绍01.txt

├─ 产品介绍02.txt

├─ 直播预告.txt

└─ 活动口播文案.txt

注意：

只处理 .txt 文件
隐藏文件不会参与处理
空白 txt 会自动跳过
软件会按文件名顺序依次处理

6. 基本操作流程

推荐按下面顺序操作：

输入卡密。
选择缓存文件夹。
设置“最多生成数量”。
选择 TXT 文件夹。
选择接口。
选择字幕边界。
选择语言和语音。
选择输出命名方式。
选择输出方式。
设置语速、音调、音量。
选择输出文件夹。
如需要，勾选“运行前清空输出”。
点击“保存配置”。
点击“运行程序”。

7. 缓存文件夹怎么选

缓存文件夹建议使用一个单独的空白目录。

推荐示例：

E:\hapi360\cache

D:\work\tts_cache

建议：

尽量不要和别的任务长期混用
反复测试时尽量固定一个缓存目录
如果目录是空白目录，问题排查会更方便

8. 语言和语音怎么选

界面里支持先选“语言”，再选“语音”。

例如你可以选择：

中文普通话
中文粤语
英文美式
英文英式
日语
韩语

每个语言下会显示对应音色，同时界面还会显示：

适用场景
声音特点

推荐使用方式：

先按语言筛选
再根据场景选男女声、播报感或亲和感更合适的音色
先用 1 到 2 个短文案试听，再批量生成整批内容

9. 字幕边界怎么选

字幕边界决定生成 srt 时，字幕拆分得更粗还是更细。

当前有两种：

句子级字幕
词级字幕

句子级字幕

特点：

一句一条或一小段一条
字幕更自然
更适合普通口播、讲解、短视频配音

推荐大多数用户优先使用这个。

词级字幕

特点：

拆分更细
字幕条数更多
更适合后续还要做精细动画、逐词卡点、重点词强调的场景

如果你只是想直接拿来用，一般先选“句子级字幕”更稳妥。

10. 输出命名怎么选

当前支持 6 种输出命名方式。

1）序号

示例：

001.mp3

001.srt

适合不在意原文件名，只想统一编号的场景。

2）原文件名 + 序号

示例：

产品介绍-001.mp3

产品介绍-001.srt

适合既想保留原文案名，又想保留批次序号。

3）原文件名

示例：

产品介绍.mp3

产品介绍.srt

这是最直观、最好找文件的一种方式，通常也最推荐。

4）序号 + 原文件名

示例：

001-产品介绍.mp3

001-产品介绍.srt

适合你希望文件管理时优先按序号排序。

5）序号 + 时间

示例：

001-20260603153045.mp3

001-20260603153045.srt

适合避免重名，也方便区分不同批次导出时间。

6）序号 + 时间 + 文件名

示例：

001-20260603153045-产品介绍.mp3

001-20260603153045-产品介绍.srt

适合想同时保留：

序号
导出时间
原文件名

如果出现同名冲突，软件会自动在文件名后追加 _2、_3 之类的后缀，避免直接覆盖旧文件。

11. 输出方式怎么选

当前支持两种输出方式。

方式一：音频字幕同目录

生成结果会直接放在同一个输出文件夹中。

示例：

输出文件夹

├─ 产品介绍01.mp3

├─ 产品介绍01.srt

├─ 产品介绍02.mp3

└─ 产品介绍02.srt

适合：

一份音频配一份字幕，想放在一起方便查看
文件数量不多
后续要手工拷贝到别的软件里使用

方式二：音频字幕分文件夹

软件会在输出目录下自动创建两个子文件夹：

音频
字幕

示例：

输出文件夹

├─ 音频

│ &nbsp;├─ 产品介绍01.mp3

│ &nbsp;└─ 产品介绍02.mp3

└─ 字幕

&nbsp; &nbsp;├─ 产品介绍01.srt

&nbsp; &nbsp;└─ 产品介绍02.srt

适合：

批量文件很多
音频和字幕需要分别交给不同流程使用
后续还要继续批量处理

12. 语速、音调、音量怎么理解

语速

默认 1 表示标准速度
小于 1 会更慢
大于 1 会更快

建议：

普通口播：0.9 到 1.1
资讯播报：1.0 到 1.2
情绪表达或讲解类：可以适当慢一点

音调

默认 1 表示标准音调
小于 1 会偏低
大于 1 会偏高

建议不要一次调整太大，先小范围测试。

音量

默认 1 表示标准音量
小于 1 更轻
大于 1 更响

如果后续还要进剪辑软件统一混音，建议先保持默认值或略微提高，不要一开始就拉得过大。

13. 输出文件夹和清空输出

输出文件夹就是最终保存 mp3 和 srt 的位置。

如果勾选“运行前清空输出”：

同目录模式下，会清理输出目录中的旧 mp3 和 srt
分文件夹模式下，会清理输出目录以及 音频、字幕 子目录中的旧结果

如果你正在反复调试同一批文案，勾选清空会更方便。

如果你要保留历史结果，先取消勾选。

14. 最多生成数量怎么理解

这个参数是本次最多处理多少个 txt 文件。

例如：

文件夹里有 100 个 txt
你设置 10

那么这次只会处理前 10 个。

适合下面这些情况：

先小批量测试音色效果
只先做前几条试听
临时只导出一部分文案

15. 一个最常用的实战示例

假设你要批量生成一组产品口播音频和字幕。

第一步：准备文案文件

TXT 文件夹

├─ 产品A介绍.txt

├─ 产品B介绍.txt

├─ 产品C介绍.txt

└─ 直播预告.txt

第二步：软件中这样设置

选择缓存文件夹
选择 TXT 文件夹
语言选择中文普通话
语音选择你想要的女声或男声
字幕边界选“句子级字幕”
输出命名选“原文件名”
输出方式选“音频字幕分文件夹”
语速先用 1
音调先用 1
音量先用 1
选择输出文件夹

第三步：运行后会得到

输出文件夹

├─ 音频

│ &nbsp;├─ 产品A介绍.mp3

│ &nbsp;├─ 产品B介绍.mp3

│ &nbsp;├─ 产品C介绍.mp3

│ &nbsp;└─ 直播预告.mp3

└─ 字幕

&nbsp; &nbsp;├─ 产品A介绍.srt

&nbsp; &nbsp;├─ 产品B介绍.srt

&nbsp; &nbsp;├─ 产品C介绍.srt

&nbsp; &nbsp;└─ 直播预告.srt

这样后续无论是做视频，还是继续批量导入其它流程，都比较清晰。

16. 推荐工作流

如果你是第一次用，推荐这样操作：

先准备 2 到 3 个短 txt 做测试。
先试听不同语音，不要一上来就整批生成。
字幕边界优先用“句子级字幕”。
输出命名优先用“原文件名”或“原文件名 + 序号”。
文件较多时，输出方式优先选“音频字幕分文件夹”。
确认试听没问题后，再放完整批次跑。

17. 常见问题

1）为什么没有生成文件

优先检查：

TXT 文件夹 是否选对
文件夹里是否真的有 .txt
文本是否为空
输出文件夹是否配置

2）为什么只生成了部分文件