FFmpeg视频处理入门教程

发表于 2021-06-23 分类于编程技术阅读次数：本文字数： 3.5k 阅读时长 ≈ 13 分钟

FFmpeg 是视频处理最常用的开源软件。

它功能强大，用途广泛，大量用于视频网站和商业软件（比如 Youtube 和 iTunes），也是许多音频和视频格式的标准编码 / 解码实现。

FFmpeg 本身是一个庞大的项目，包含许多组件和库文件，最常用的是它的命令行工具。本文介绍 FFmpeg 命令行如何处理视频，比桌面视频处理软件更简洁高效。

如果你还没安装，可以根据官方文档先完成安装。

¶概念

介绍 FFmpeg 用法之前，需要了解一些视频处理的基本概念。

¶容器

视频文件本身其实是一个容器（container），里面包括了视频和音频，也可能有字幕等其他内容。

常见的容器格式有以下几种。一般来说，视频文件的后缀名反映了它的容器格式。

MP4
MKV
WebM
AVI

下面的命令查看 FFmpeg 支持的容器。

ffmpeg -formats

¶编码格式

视频和音频都需要经过编码，才能保存成文件。不同的编码格式（CODEC），有不同的压缩率，会导致文件大小和清晰度的差异。

常用的视频编码格式如下。

H.262
H.264
H.265

上面的编码格式都是有版权的，但是可以免费使用。此外，还有几种无版权的视频编码格式。

常用的音频编码格式如下。

上面所有这些都是有损的编码格式，编码后会损失一些细节，以换取压缩后较小的文件体积。无损的编码格式压缩出来的文件体积较大，这里就不介绍了。

下面的命令可以查看 FFmpeg 支持的编码格式，视频编码和音频编码都在内。

ffmpeg -codecs

¶编码器

编码器（encoders）是实现某种编码格式的库文件。只有安装了某种格式的编码器，才能实现该格式视频 / 音频的编码和解码。

以下是一些 FFmpeg 内置的视频编码器。

libx264：最流行的开源 H.264 编码器
NVENC：基于 NVIDIA GPU 的 H.264 编码器
libx265：开源的 HEVC 编码器
libvpx：谷歌的 VP8 和 VP9 编码器
libaom：AV1 编码器

音频编码器如下。

libfdk-aac
aac

下面的命令可以查看 FFmpeg 已安装的编码器。

ffmpeg -encoders

¶`FFmpeg` 使用格式

FFmpeg 的命令行参数非常多，可以分成五个部分。

ffmpeg {1} {2} -i {3} {4} {5}

上面命令中，五个部分的参数依次如下。

全局参数
输入文件参数
输入文件
输出文件参数
输出文件

参数太多的时候，为了便于查看，FFmpeg 命令可以写成多行。

ffmpeg  [全局参数]  [输入文件参数]  -i [输入文件]  [输出文件参数]  [输出文件]

下面是一个例子。

ffmpeg  -y \ # 全局参数
-c:a libfdk_aac -c:v libx264 \ # 输入文件参数
-i input.mp4 \ # 输入文件
-c:v libvpx-vp9 -c:a libvorbis \ # 输出文件参数
output.webm # 输出文件

上面的命令将 mp4 文件转成 webm 文件，这两个都是容器格式。输入的 mp4 文件的音频编码格式是 aac，视频编码格式是 H.264；输出的 webm 文件的视频编码格式是 VP9，音频格式是 Vorbis。

如果不指明编码格式，FFmpeg 会自己判断输入文件的编码。因此，上面的命令可以简单写成下面的样子。

ffmpeg -i input.avi output.mp4

¶常用命令行参数

FFmpeg 常用的命令行参数如下。

-c：指定编码器
-c copy：直接复制，不经过重新编码（这样比较快）
-c:v：指定视频编码器
-c:a：指定音频编码器
-i：指定输入文件
-an：去除音频流
-vn：去除视频流
-r：视频帧率
-preset：指定输出的视频质量，会影响文件的生成速度，有以下几个可用的值 ultrafast, superfast, veryfast, faster, fast, medium, slow, slower, veryslow。
-y：不经过确认，输出时直接覆盖同名文件。

¶常见用法

下面介绍 FFmpeg 几种常见用法。

¶查看文件信息

查看视频文件的元信息，比如编码格式和比特率，可以只使用-i参数。

ffmpeg -i input.mp4

上面命令会输出很多冗余信息，加上-hide_banner参数，可以只显示元信息。

ffmpeg -i input.mp4 -hide_banner

¶查看可用设备

ffmpeg -list_devices true -f dshow -i dummy
[dshow @ 000001d3da482240] DirectShow video devices (some may be both video and audio devices)
[dshow @ 000001d3da482240]  "Integrated Camera"
[dshow @ 000001d3da482240]     Alternative name "@device_pnp_\\?\usb#vid_04ca&pid_7070&mi_00#6&2102d5ea&0&0000#{65e8773d-8f56-11d0-a3b9-00a0c9223196}\global"
[dshow @ 000001d3da482240] DirectShow audio devices
[dshow @ 000001d3da482240]  "麦克风阵列 (Realtek(R) Audio)"
[dshow @ 000001d3da482240]     Alternative name "@device_cm_{33D9A762-90C8-11D0-BD43-00A0C911CE86}\wave_{BE0CB07D-AB72-4606-86E9-5F102ACAEF89}"
dummy: Immediate exit requested

¶查看设备使用可选项

ffmpeg -list_options true -f dshow -i video="Integrated Camera"
[dshow @ 000001751d612280] DirectShow video device options (from video devices)
[dshow @ 000001751d612280]  Pin "捕获" (alternative pin name "捕获")
[dshow @ 000001751d612280]   vcodec=mjpeg  min s=1280x720 fps=30 max s=1280x720 fps=30
[dshow @ 000001751d612280]   vcodec=mjpeg  min s=320x180 fps=30 max s=320x180 fps=30
[dshow @ 000001751d612280]   vcodec=mjpeg  min s=320x240 fps=30 max s=320x240 fps=30
[dshow @ 000001751d612280]   vcodec=mjpeg  min s=352x288 fps=30 max s=352x288 fps=30
[dshow @ 000001751d612280]   vcodec=mjpeg  min s=424x240 fps=30 max s=424x240 fps=30
[dshow @ 000001751d612280]   vcodec=mjpeg  min s=640x360 fps=30 max s=640x360 fps=30
[dshow @ 000001751d612280]   vcodec=mjpeg  min s=640x480 fps=30 max s=640x480 fps=30
[dshow @ 000001751d612280]   vcodec=mjpeg  min s=848x480 fps=30 max s=848x480 fps=30
[dshow @ 000001751d612280]   vcodec=mjpeg  min s=960x540 fps=30 max s=960x540 fps=30
[dshow @ 000001751d612280]   pixel_format=yuyv422  min s=1280x720 fps=10 max s=1280x720 fps=10
[dshow @ 000001751d612280]   pixel_format=bgr24  min s=1280x720 fps=10 max s=1280x720 fps=10
[dshow @ 000001751d612280]   pixel_format=yuyv422  min s=320x180 fps=30 max s=320x180 fps=30
[dshow @ 000001751d612280]   pixel_format=bgr24  min s=320x180 fps=30 max s=320x180 fps=30
[dshow @ 000001751d612280]   pixel_format=yuyv422  min s=320x240 fps=30 max s=320x240 fps=30
[dshow @ 000001751d612280]   pixel_format=bgr24  min s=320x240 fps=30 max s=320x240 fps=30
[dshow @ 000001751d612280]   pixel_format=yuyv422  min s=352x288 fps=30 max s=352x288 fps=30
[dshow @ 000001751d612280]   pixel_format=bgr24  min s=352x288 fps=30 max s=352x288 fps=30
[dshow @ 000001751d612280]   pixel_format=yuyv422  min s=424x240 fps=30 max s=424x240 fps=30
[dshow @ 000001751d612280]   pixel_format=bgr24  min s=424x240 fps=30 max s=424x240 fps=30
[dshow @ 000001751d612280]   pixel_format=yuyv422  min s=640x360 fps=30 max s=640x360 fps=30
[dshow @ 000001751d612280]   pixel_format=bgr24  min s=640x360 fps=30 max s=640x360 fps=30
[dshow @ 000001751d612280]   pixel_format=yuyv422  min s=640x480 fps=30 max s=640x480 fps=30
[dshow @ 000001751d612280]   pixel_format=bgr24  min s=640x480 fps=30 max s=640x480 fps=30
[dshow @ 000001751d612280]   pixel_format=yuyv422  min s=848x480 fps=20 max s=848x480 fps=20
[dshow @ 000001751d612280]   pixel_format=bgr24  min s=848x480 fps=20 max s=848x480 fps=20
[dshow @ 000001751d612280]   pixel_format=yuyv422  min s=960x540 fps=15 max s=960x540 fps=15
[dshow @ 000001751d612280]   pixel_format=bgr24  min s=960x540 fps=15 max s=960x540 fps=15

¶录制视频

安装 https://github.com/rdp/screen-capture-recorder-to-video-windows-free

摄像头

# 实时录制摄像头画面 - Windows适用
ffplay -f dshow  -i video="摄像头设备名称"  -r 30  -vcodec libx264

桌面

# 实时录制桌面画面 - Windows适用
ffmpeg -f gdigrab  -i desktop  -f mp4  -preset ultrafast  screen_capture.mp4

¶录制音频

# Windows适用
ffmpeg -f dshow  -i audio="音频设备名称"  audio.aac

¶录制音视频

ffmpeg -f gdigrab -t 30 -framerate 15 -i desktop -f dshow -i audio="音频设备名称" \
 -b:v 3M -pixel_format yuv420p -vcodec libx264 -s 1366x768 -y # 可选，非必须
 video.flv

-f 指定采集数据方式，一般为dshow或gdigrab。
- gdigrab为系统自带，只能录屏幕，没声音；
- dshow需装directX，优点是可以指定多个输入，比如下载安装screen capture recorder后，可将其作为dshow模式下的视频输入，可将virtual-audio-capturer作为dshow模式下的音频输入，实现录屏的同时录音。
-i 指定输入，desktop表示gdigrab采集模式输入全部桌面。dshow模式下自己指定，如：-i video="screen-capture-recorder" -i audio="virtual-audio-capturer"
-t 表示录屏时间，缺省则没有录屏时间限制，会一直录，录到手动停止或强制关闭
-framerate 表示帧率。对屏幕录制来说，一般15帧就够了，太大的话会很占资源，cpu占用率、内存、存储空间占用等都会很高。
-s 表示分辨率
-b:v 表示码率，如：-b:v 3M。大一点清楚，但是占资源，自己权衡吧。
-pixel_format 表示像素格式，如yuv420p等，注意选择不同的像素格式会影响资源占用率和视频质量，自己研究吧。
-vcodec 表示编码方式。libx264表示软编码，编码器的库为x264。你可以选择其他的，不同的编码方式也会影响资源占用率和视频质量，自己研究吧。此外可以用硬件加速，硬编解码有3种常见的方式，例如：-vcodec h264_qsv，即使用集显加速；例如： -vcodec h264_nvenc，即使用N卡加速；例如： -vcodec h264_amf，即使用A卡加速。开启硬件加速的情况下可大大降低CPU的占用率
-y 表示覆盖同名文件
video.flv为输出文件名，格式虽然mp4较为常见，但我建议用flv格式，因为如果中间有录制损坏，mp4整个就播放不了了，但flv能。

¶转换编码格式

转换编码格式（transcoding）指的是，将视频文件从一种编码转成另一种编码。比如转成 H.264 编码，一般使用编码器libx264，所以只需指定输出文件的视频编码器即可。

ffmpeg -i [input.file] -c:v libx264 output.mp4

下面是转成 H.265 编码的写法。

ffmpeg -i [input.file] -c:v libx265 output.mp4

¶转换容器格式

转换容器格式（transmuxing）指的是，将视频文件从一种容器转到另一种容器。下面是 mp4 转 webm 的写法。

ffmpeg -i input.mp4 -c copy output.webm

上面例子中，只是转一下容器，内部的编码格式不变，所以使用-c copy指定直接拷贝，不经过转码，这样比较快。

¶调整码率

码率，即波特率。值越小，转换后的视频越小。
码率就是数据传输时单位时间传送的数据位数,一般我们用的单位是kbps即千位每秒。
码率与体积成正比：码率越大，体积越大；码率越小，体积越小。由于文件体积与取样率是成正比的，所以几乎所有的编码格式都想用最低的码率达到最少的失真，“码率”就是失真度，码率越高越清晰，反之则画面粗糙而且马赛克多。

下面的例子指定码率最小为 964K，最大为 3856K，缓冲区大小为 2000K。

ffmpeg  -i input.mp4  -minrate 964K -maxrate 3856K -bufsize 2000K  output.mp4

-b 输出文件的码率（ffmpeg.exe -i test.MP4 -b 600k output.mp4）

¶调整分辨率

指的是视频的分辨率，常见的分辨率有40962304,19201080,720*576等。

下面是改变视频分辨率（transsizing）的例子，从 1080p 转为 480p 。

ffmpeg  -i input.mp4  -vf scale=480:-1  output.mp4

-s 输出文件的分别率（ffmpeg.exe -i test.MP4 -s 1920*1080 output.mp4）

¶调整帧率

帧率（即视频更新率），就是每秒编码进视频文件的帧数目，是用于测量显示帧数的量度。
测量单位为“每秒显示帧数”（Frame Per Second，FPS，帧率）或“赫兹”，单位用FPS用来描述视频每秒播放多少帧，而单位用赫兹用来描述显示器的画面每秒更新多少次。
常见的帖率有25、30，高清电视有50、60帧。
一般帧率越高，视频画面越流畅。但是人类的眼睛需要每秒至少15帧才能将图像连贯在一起~

下面是改变视频分辨率（transsizing）的例子，从 1080p 转为 480p 。

ffmpeg  -i input.mp4  -vf scale=480:-1  output.mp4

-s 输出文件的分别率（ffmpeg.exe -i test.MP4 -s 1920*1080 output.mp4）

¶提取视频

有时，需要从音视频里面提取视频（demuxing），可以像下面这样写。

ffmpeg -i input.avi -an -c:a copy output.mp4

上面例子中，-vn表示去掉视频，-c:a copy表示不改变音频编码，直接拷贝。

¶提取音频

有时，需要从音视频里面提取音频（demuxing），可以像下面这样写。

ffmpeg -i input.mp4 -vn -c:a copy output.aac

上面例子中，-vn表示去掉视频，-c:a copy表示不改变音频编码，直接拷贝。

¶添加音轨

添加音轨（muxing）指的是，将外部音频加入视频，比如添加背景音乐或旁白。

ffmpeg  -i input.aac -i input.mp4  output.mp4

上面例子中，有音频和视频两个输入文件，FFmpeg 会将它们合成为一个文件。

¶截图

下面的例子是从指定时间开始，连续对 1 秒钟的视频进行截图。

ffmpeg  -y  -i input.mp4  -ss 00:01:24 -t 00:00:01  output_%3d.jpg

如果只需要截一张图，可以指定只截取一帧。

ffmpeg  -ss 01:23:45  -i input  -vframes 1  -q:v 2  output.jpg

上面例子中，-vframes 1指定只截取一帧，-q:v 2表示输出的图片质量，一般是 1 到 5 之间（1 为质量最高）。

¶裁剪

裁剪（cutting）指的是，截取原始视频里面的一个片段，输出为一个新视频。可以指定开始时间（start）和持续时间（duration），也可以指定结束时间（end）。

ffmpeg -ss [start] -i [input] -t [duration] -c copy [output]
ffmpeg -ss [start] -i [input] -to [end] -c copy [output]

下面是实际的例子。

ffmpeg -ss 00:01:50 -i [input] -t 10.5 -c copy [output]
ffmpeg -ss 2.5 -i [input] -to 10 -c copy [output]

上面例子中，-c copy表示不改变音频和视频的编码格式，直接拷贝，这样会快很多。

¶为音频添加封面

有些视频网站只允许上传视频文件。如果要上传音频文件，必须为音频添加封面，将其转为视频，然后上传。

下面命令可以将音频文件，转为带封面的视频文件。

ffmpeg  -loop 1  -i cover.jpg -i input.mp3  -c:v libx264 -c:a aac -b:a 192k -shortest  output.mp4

上面命令中，有两个输入文件，一个是封面图片cover.jpg，另一个是音频文件input.mp3。-loop 1参数表示图片无限循环，-shortest参数表示音频文件结束，输出视频就结束。

¶字幕格式转换

ffmpeg -i test_1280x720_3.srt test_1280x720_3_1.vtt
ffmpeg -i test_1280x720_3.srt test_1280x720_3_1.ass

¶添加硬字幕

ffmpeg -i test_1280x720_3.mkv -vf subtitles=test_1280x720_3.srt out.mp4

¶添加软字幕

ffmpeg -i test_1280x720_3.mp4 -i test_1280x720_3.srt -c copy output.mkv

¶概念

¶容器