Aegisub 从入门到精通

八千代 · 发表于 2026-5-6 14:03:11

《Aegisub 从入门到精通弃坑》

—— 从零开始，做出属于你的完美字幕（加油，对轴侠~） ——

第0章：快速入门 - 据说看了的人都成为节奏大师了

本章节目标为让你在第一次接触Aegisub 的 5 分钟内，就能完成一条简单的字幕的制作与导出！
搭配此教程提供了示范用的视频以及配套的文本，请配合食用
[spoiler=范例]
地狱不乐.rar
链接: https://pan.baidu.com/s/1_zuMwFpZUQAHZz-htOHG9w?pwd=d89w
提取码: d89w
解压密码：R70Mto

包含预处理wav文件，源文件mp4，字幕文本txt
[/spoiler]

1. 打开 Aegisub
首先下载最新版Aegisub(官网)/度盘分流
官网是全英文，你可以在右上角找到语言切换为中文（虽然好像没多大用)

根据你电脑的系统，Mac用户选择OS X，Windows用户则选择windows，其中Regular Install为安装包而Portable为压缩包，打开即食~
在官网你也可以查看官方用户文档

安装/解压完后打开软件，如果需要改变语言可以在上方view/查看里选择语言（需重启！）

主界面功能区如下图所示（直接应用官方图了）

2. 导入视频 / 音频
软件准备好了就可以导入素材开始制作了
别慌，我会一步一步教你怎么弄

导入视频：视频 → 打开视频，选择你的视频文件

导入音频：音频 → 从视频中打开音频/打开音频文件（可以在视频 → 使用空白视频来预览字幕）

3. 快速添加字幕（打轴）
接下来就可以进场打螺丝了（雾）
在此之前可以在 音频 → 显示波形 切换音频框显示模式，个人习惯和经验感觉频谱图不如波形直观，如果音频经过人声提取的话几乎可以做到目力打轴
[spoiler=音频框界面结构]

移到上一行，放弃未提交的更改（在卡拉OK模式时为上一音节）
移到下一行，放弃未提交的更改（在卡拉OK模式时为下一音节）
播放所选波形的音频
播放当前行
停止播放
播放所选部分前500ms
播放所选部分后500ms
播放所选部分头500ms
播放所选部分末500ms
播放所选部分至音频结束（或直到按下停止键）
开始时间提前（提前多少取决于提前开始时间选项）
结束时间延后（和上一个意思差不多，取决于延后结束时间选项）
提交（保存）更改
将视图移至所选行的位置
打开或关闭自动提交功能（如果打开，所有对时间轴的更改会立即提交而不再需要手动点提交）
打开或关闭提交后自动转至下一行功能（如果打开，Aegisub将会在你手动提交后自动选择下一行。自动提交显然是不会触发这个机能的）
打开或关闭自动卷动功能（如果打开，波形会自动移至当前所选行）
打开或关闭频谱分析模式（看下面的内容）
切换Medusa热键模式
切换卡拉OK模式
波形水平缩放
波形垂直缩放
音频音量
开启或关闭同时调节垂直缩放与音量

[/spoiler]
本快速添加字幕的方法是基于人声提取的预处理后，没有做人声提取复杂背景音频环境的话可能需要改为频谱模式，根据人声频谱范围做判定
对于新手来说是非常困难的，请移步至4. 精细时间轴
此外通常情况打轴下是不需要用到视频的，可以在查看里选择你认为需要的界面模式

现在将翻译的文本复制粘贴至字幕栏（如果现在不做后面貌似得一行行手动输入了！并且注意不要选择到编辑框）

选择第一个字幕，此时应该会被绿色高亮显示（色盲的同学欢迎留言你所看到的情况）
这时候根据音频可以大致进行打轴，在音频框用鼠标左键框选字幕范围根据波形图/频谱图，长度范围可以根据字幕文本长度为参考，红色竖线为开始蓝色为截止

按回车确认提交并自动切换为下一行，依此类推讲字幕大致排布就位，如果你发现多出来不需要管或者少了就使用空白的字幕顶替
（在音频框鼠标滚轮为左右滚动，Ctrl+Alt+滚轮为缩放）

4. 精细时间轴
现在已经用鼠标在波形图上大致拉出了字幕的起点和终点，但播放时发现仍有轻微偏差或错位
接下来要进行微调或查错（除虫时间到了），音频应当换为原始频谱（如果上一步使用了预处理的音频），并使用频谱图来辅助判断。
举个栗子~

上图框选处前端实际上包含吸气声，而实际语音在18.56秒处才开始，从频谱图上可以看到此处中低频才出现高亮
熟手做多了就能根据频谱图来判断，而笔者现在也只能够通过形状位置来简短猜测并未能够总结出经验来呢qwq
调整后如下图所示

推荐先从头开始播放完整的视频来检查，通过鼠标中键选取开始的时间并选取最开始的字幕，Ctrl+P开始播放/暂停（有视频的情况下才能使用，纯音频请使用空白视频功能，而且推荐自己改按键到舒服的按键），Ctrl+3为设定字幕起点，Ctrl+4为设定字幕终点，回车为确定，此时通过播放完整的视频应当把全部字幕的大致位置顺序都确定无误，不存在漏字幕或错位。
（如果不确定字幕是否正确可讲原文复制至翻译软件，播放即可知道读音）

接下来就是精细化调整，选择第一个字幕开始调整，空格为播放当前字幕的音频，如果没有问题就回车选择一下个（方向键上下也可以切换字幕）
如果感觉不全可以使用Q和W分别播放前后500毫秒的内容来判断是否有遗漏或鼠标选取不同的区域
调整还是推荐鼠标对着音频框进行精细调整

[spoiler=官方文档推荐方案]
如果能够较为准确的从频谱图或使用预处理的音频可参考官方的方案

一个常见的打轴方案（本文原作者的首选方案）就像下面这样：打开"提交后自动转至下一行"，并关闭自动提交所有更改、自动卷动以及Medusa热键模式。保持你的左手除大拇指外的四指放在s、d、f、g键上。你的大拇指不需要做任何事。将你的右手放在鼠标上。在波形上（通过鼠标左击和右击）选择一段可能包含当前行文字的音频，然后按 s 键来播放它。在播放的同时，如果需要可以调整开始时间。当播放进度标记到达行的结束位置时，同时调整结束时间。如果需要更准确的时间轴，可以按 d 来播放选区的最后500毫秒音频，按 q 来播放开始前的500毫秒音频，按 w 播放选区结束后的500毫秒音频，或按 e 播放选区开始的500毫秒音频。当你有了一些经验后，你可能只需要 s 键，也许还会用到 d 和 q。当你对这行的轴满意时，按 g 键来提交更改并移至下一行。向前滚动音频视图可以按 f。如果需要向后滚动可以按 a。移至下一行或上一行而不提交更改，可以用 z 和 x 键。

这个方案的优点是你不再需要移动你的手。经过训练，速度通常可以变得非常快；给一个25分钟有着350-400句对话的一集视频打轴可以很轻松地在40分钟之内完成，一些比较简单的剧情会更快。

当然，这个方案不一定所有人都觉得舒服，你应该在找到最适合你的方案前尝试其他的打轴姿势。

[/spoiler]

经过以上操作，字幕应该是烹饪完毕了

5. 保存与导出
菜单：文件 → 保存字幕
完成！你已制作出第一条字幕。

➡ 第1章：时间轴精修与频谱对齐(待更)

常见问题QA

Q：我的编辑器崩溃了，但我没有保存字幕怎么办？
[spoiler=A：]
默认情况下Aegisub每隔固定的时间就会自动保存一份当前正在编辑的字幕文件的备份(如果在这几分钟内有更改文件内容)。这些备份文件在 Windows 系统中位于 %APPDATA%\Aegisub\autosave，在 Linux 系统中位于 ~/.aegisub/autosave，在 OS X 系统中则位于 ~/Library/Application Support/Aegisub/autosave。您还可以直接在 Aegisub 中通过 “文件” → “打开自动保存的字幕…” 浏览这些备份。

可以在查看 → 选项 → 备份里调整参数，可以考虑每次改动都保存?
也可以手动Ctrl+S保存！
[/spoiler]
Q：常见快捷键都有哪些？
[spoiler=A：]
基础操作

Ctrl + O	打开字幕文件
Ctrl + S	保存字幕（请频繁使用！！！！！）
Ctrl + P	播放/暂停（视频模式下有效）

时间轴控制

Ctrl + 1	当前字幕起点播放（视频模式下有效）
Ctrl + 2	当前字幕终点播放（视频模式下有效）
Ctrl + 3	设置当前字幕起点时间
Ctrl + 4	设置当前字幕终点时间
Ctrl + ↑ / ↓	切换上一行 / 下一行字幕

音频播放与定位

空格	播放当前字幕对应的音频片段
Q / W	分别播放前500ms / 后500ms 音频（用于查漏）
鼠标中键	设定当前时间线位置（中点定位）
Ctrl + Alt + 滚轮	缩放音频波形（放大精细编辑）
鼠标滚轮</b>	左右平移波形视图

编辑与检查

Enter	确认当前字幕并跳到下一行（录入节奏）
Ctrl + Z/Y	撤销 / 重做
Ctrl + F	查找文本内容

[/spoiler]

第0.5章：快速入门 - 面对听译Z方案

本章节目标为让听译在第一次接触Aegisub 的 5 分钟内，就能完成新流程听译！
搭配此教程提供了示范用的视频以及配套的文本，请配合食用
[spoiler=范例]
悪役令嬢.rar
链接: https://pan.baidu.com/s/1hAuE-rK9dxEiaBSgtEbbww?pwd=x7cr
提取码: x7cr
解压密码：R70Mto

包含源文件mp4，预处理字幕srt
[/spoiler]

作为翻译往往将视频完整看一遍，而时间轴则需要从头找文本对应的内容，因此会产生人力浪费w
因此通过使用模型自动生成字幕再通过翻译校对是效率最高的方案（翻译大佬辛苦了，递茶

1. 打开 Aegisub
首先下载最新版Aegisub(官网)/度盘分流
官网是全英文，你可以在右上角找到语言切换为中文（虽然好像没多大用)

根据你电脑的系统，Mac用户选择OS X，Windows用户则选择windows，其中Regular Install为安装包而Portable为压缩包，打开即食~
在官网你也可以查看官方用户文档

安装/解压完后打开软件，如果需要改变语言可以在上方view/查看里选择语言（需重启！）

主界面功能区如下图所示（直接应用官方图了）

2. 导入视频 / 音频 / 字幕
软件准备好了就可以导入素材开始制作了
别慌，我会一步一步教你怎么弄

导入字幕：文件 → 打开字幕，选择你的视频文件
导入视频：视频 → 打开视频，选择你的视频文件

导入音频：音频 → 从视频中打开音频/打开音频文件（可以在视频 → 使用空白视频来预览字幕）

3. 听译（打轴）
此时你已经导入了视频，音频，字幕，现在你的界面应该类似于下图

现在按Ctrl+P开始播放/暂停视频直到你听完一句文本
通常模型的时间轴输出不会有太大偏差，此时在编辑框输入翻译的内容（覆盖原本自动生成的文本）按回车确认
[spoiler=例图]

[/spoiler]

如果时间轴完全不对时，删除错误的时间轴（通常这段是不包含语音）
[spoiler=例图]

[/spoiler]

如果时间轴偏差很大，此时在编辑框输入翻译的内容后（覆盖原本自动生成的文本）用鼠标在在音频框用鼠标左键框选大致的字幕范围按回车确认
[spoiler=例图]

[/spoiler]

如果时间轴缺失，此时在音频框用鼠标中键选取字幕开始的时间，再在字幕栏右键以视频时间插入（之后）即可创建新的字幕，你也可以更进一步在音频框用鼠标左键框选大致的字幕范围按回车确认
[spoiler=例图]

[/spoiler]

3. 保存与导出
菜单：文件 → 保存字幕
完成！你已制作出第一条字幕。

WIP

第1.1章：时间轴精修

参考
参考2

字体规范：
非特殊情况下请使用以下样式作为默认字体，即使不使用也确保你的字幕里包含改样式

Style: Credit,Source Han Sans CN,40,&H00FFFFFF,&H000000FF,&H00000000,&H00000000,0,0,0,0,100,100,0,0,1,2,0,8,10,10,10,1
Style: 对白日语,Source Han Sans,45,&H00FFFFFF,&H000000FF,&H00000000,&H00000000,0,0,0,0,100,100,0,0,1,2,0,2,10,10,30,1
Style: 对白中文,Source Han Sans SC Medium,70,&H00FFFFFF,&H000000FF,&H00000000,&H0000FFFF,-1,0,0,0,100,100,1,0,1,2.2,0,2,10,10,65,1

复制代码

已知部分用户的电脑使用中文语言，字体会被自动翻译成中文，在这种情况下可以使用以下样式，但在提交成果前需要使用记事本打开替换成英文版的样式

Style: Credit,Source Han Sans CN,40,&H00FFFFFF,&H000000FF,&H00000000,&H00000000,0,0,0,0,100,100,0,0,1,2,0,8,10,10,10,1
Style: 对白日语,Source Han Sans,45,&H00FFFFFF,&H000000FF,&H00000000,&H00000000,0,0,0,0,100,100,0,0,1,2,0,2,10,10,30,1
Style: 对白中文,Source Han Sans SC Medium,70,&H00FFFFFF,&H000000FF,&H00000000,&H0000FFFF,-1,0,0,0,100,100,1,0,1,2.2,0,2,10,10,65,1

复制代码

使用方法为复制上述样式，并且粘贴在样式管理器即可，此外也可从群内下载样式.ass文件，在样式管理器选择从脚本中导入
字幕 → 样式管理器

非常建议在样式管理器选择样式刚刚导入的样式，点击复制到样式库后就不用重复执行导入操作了，后续仅需点击复制到当前脚本即可

中文字幕在任何情况下都禁止使用斜体
字体因考虑视频分辨率，通常1080p下40px左右，4K则为80px左右，但根据实际观感和用途调整
字幕因考虑保持在7~10%的安全框内，也就是在1080p的视频下，上下距离为38px，左右距离为67px，但根据实际观感和用途调整
双语字幕需保证中文和日文在不同的轴，不应使用\N作为分割，请保证中文与日文的层数不同，默认情况将中文轴放置于在1层
层设置在编辑框左上角（红框处）

屏幕文本应尽可能模仿原文样式，可考虑尝试使用SourceHanSerifSC

开头请放置成员表，并使用Credit作为其样式，持续时间PV为5秒，并根据画面切换改变结束时间

本字幕由　{\b1\c&H00FFFF&}TSDM字幕组{\b0\c&HFFFFFF&}　制作　　仅供学习与交流使用　　禁止任何形式的商业用途\N听译：　校对：　时间轴：　二校：　压制：　监制：

复制代码

若字幕与屏幕已有文字／人脸／重要动作冲突，应调整字幕位置；若不能避免，则选“易读”位置，且连续字幕应保持同一位置，不应上下跳动

字幕间隔/时间原则：
字幕开始时间应尽可能贴近音频初始帧
最小持续时间不短于20帧（动漫通常24帧也就是0.8秒左右）
任意两条字幕之间必须至少保留2帧间隔，同时两条字幕之间间隔过小时（如0.45秒以下）可调整为2帧间隔

场景/镜头切换原则：
对白不得跨场景/镜头除非对白也跨场景/镜头（优先保证）
如果对白开始时间在场景/镜头切换点或切换后的半秒内，应将字幕开始时间设为该场景/镜头第一帧
如果对白结束时间在场景/镜头切换点前的半秒内，应将字幕结束时间移至场景/镜头切换点前（至少2帧）
以上请根据实际情况可以额外提前或延长时间，并且以保证实际观感为优先

阅读速率原则：
每秒最多9个中文字符并且每行最多16个中文字符，最多同时出现两行，但极应避免该情况
若用两行，则建议底部重心略偏低（“倒金字塔”形状：上行较短、下行稍长），但避免第一行只有一两字
根据此原则或无马上接的字幕可考虑将字幕延续至少半秒以便阅读（请注意是否存在场景/镜头切换的情况）
长文本的情况下可考虑将前后字幕合并以保证阅读速率

分割原则：

字幕被分割成多个连续的字幕时，请勿使用省略号和破折号
省略号可用于表示暂停（两秒或更长的时间）或突然停顿（被打断等），如在字幕前则表示停顿后开始
字幕不得跨场景/镜头出现，除非对白也跨场景，此时因注意镜头语言和对白是否存在停顿等，可酌情分割
对白：已经一味地爱上了女主
分割：
已经一味地

....爱上了女主

分割需注意：保持文字连贯；不改变语义；不突兀；与其他人一起商议决定；

歌词：
禁止使用斜体或引号标记歌词
可考虑放置于上方或右下角

备忘录：
前置人声分离？
Faster whisper作为预处理打轴给听译/时间轴使用？

第1章：时间轴精修与频谱对齐

Aegisub默认设置下的频谱图能够很好的分辨人声部分，因此本章不做设置上的讲解
频谱图在背景音或音效不复杂的情况下还是能够有效判断人声部分，但复杂情况下只能自求多福，或求助无敌的预处理大人方可解决
频谱图
- 横轴：时间
- 纵轴：频率（低→高）
- 颜色/亮度：音量/能量强弱（越亮/越鲜，能量越高）

人声通常会明显比背景声音要搞，根据此请讲频谱的音量压低到合适范围

浊音（voiced）和清音（unvoiced）的区别在于发声时声带是否振动：浊音对应于振动，而清音对应于不振动。元音（vowels）和辅音（consonants）等音既可以是浊音也可以是清音，它们的产生受声道影响。

基频也叫声带振动频率，afa 音高
男声约在 100–150 Hz，女声约在 200–300 Hz

谐波,平行的亮线,共振峰?辅音?

整体能量范围（含谐波）
≈ 80 Hz – 8 kHz

频谱特征图：

“收”低位，“撕”高位
“图”爆发集中频谱

易混淆频谱:
管弦乐？Alto Saxophone/Tenor Saxophone(谐波多，中低频无衰竭，高频衰竭)
Soprano Saxophone（无低频）
电吉他

时间轴规范
追加找个时间定一下备注的样式和备注放置的规范给时间轴
追加多人分成两个轴，左右两侧的角色放在左右两侧，画面里外的角色放在上下

翻译规范

行 ≤ 16 个中文字符，且最多两行（需避免）
出现在画面且与剧情相关的文字或介绍性等，应译出；其余文本也应经可能译处（多比少好）
若一条字幕中有两人说话：待定，但每行最多一位说话人
粗话／脏话应按等效语气忠实译出（但应备注）
请注意避免过度口语化与过度翻译
主语，量词，单复数，时间，肯定或否定，情绪等应当严格检查，需结合上下文加以判断
歌词不做强制要求，但做出了会更好，有官方翻译优先使用
英文等外来词也应当翻译，除非留着很cool或有必要性
备注可加入*号或注：作为引导
如果不懂请备注或咨询其他翻译然后祈祷无敌的校对大人能够解决
角色口头禅(口癖句)和常用词等应当作为专名处理（参照专名处理规范）
无含义的/纯语气词在不影响内容的情况下应当不翻
非必要禁止使用过度本地化词汇，地域刻板印象，迷因
例如：
“绝绝子”、“YYDS”、“盘它”、“老六”、“鸡你太美”、“重庆必吃榜”

这位翻译，你也不想几年后看到自己写的译文，里面全都是非主流用语吧
神马都是浮云啦~

俚语翻译:
谚语俚语俗语应当查明是否存在公认的翻译，或参考官方小说或漫画的翻译
也可以查明其含义，考虑其功能意义以后替换为中文中的类似典故，
不可直译，意义 > 语气 > 字面
应当尽可能的传达原语气、态度、含义，而不是词面意思
双关暗示需保留其含义
避免使用过度地域化俚语
方言（关西腔/东北腔）不管

数字：
若空间允许，“一”至“十”应用汉字。
使用半角阿拉伯数字（1, 2, 3…），而非全角（１, ２, ３…）。
不要用壹、贰、叁那类大写金融数字；用常用写法（如：五千、四十亿）
货币不要换算成人民币；保留原始货币单位，可备注换算后，但尽量不要，需考虑消费水平等问题

标点符号：
枚举用“、”
问必用问号，全角 “？”；感叹用 “！”。
用全角冒号：“：”或是「」引出引用语或描述内心想法或专属等情况。比如：我问：“你有什么？”
不得使用逗号句号顿号中文引号
省略号请使用全角: ……的一半…

人名与专名处理：
若有官方译名（如角色、演员名）优先使用，如漫画小说如果适用；其次使用公认的译名，如萌娘百科等，没有则音译；
昵称只有在“有特定含义或刻意效果”时翻译
历史／神话人物用通用译名（比如：Santa Claus = 圣诞老人）
外文人名译法：用全角“·”连接（如：威廉·莎士比亚），韩／日名除外

		自动登录	找回密码
密码			立即注册