FFmpeg视频处理入门教程

FFmpeg 是视频处理最常用的开源软件。

它功能强大,用途广泛,大量用于视频网站和商业软件(比如 Youtube 和 iTunes),也是许多音频和视频格式的标准编码 / 解码实现。

FFmpeg 本身是一个庞大的项目,包含许多组件和库文件,最常用的是它的命令行工具。本文介绍 FFmpeg 命令行如何处理视频,比桌面视频处理软件更简洁高效。

如果你还没安装,可以根据官方文档 先完成安装。

概念

介绍 FFmpeg 用法之前,需要了解一些视频处理的基本概念。

容器

视频文件本身其实是一个容器(container),里面包括了视频和音频,也可能有字幕等其他内容。

常见的容器格式有以下几种。一般来说,视频文件的后缀名反映了它的容器格式。

  • MP4
  • MKV
  • WebM
  • AVI

下面的命令查看 FFmpeg 支持的容器。

ffmpeg -formats

编码格式

视频和音频都需要经过编码,才能保存成文件。不同的编码格式(CODEC),有不同的压缩率,会导致文件大小和清晰度的差异。

常用的视频编码格式如下。

  • H.262
  • H.264
  • H.265

上面的编码格式都是有版权的,但是可以免费使用。此外,还有几种无版权的视频编码格式。

  • VP8
  • VP9
  • AV1

常用的音频编码格式如下。

  • MP3
  • AAC

上面所有这些都是有损的编码格式,编码后会损失一些细节,以换取压缩后较小的文件体积。无损的编码格式压缩出来的文件体积较大,这里就不介绍了。

下面的命令可以查看 FFmpeg 支持的编码格式,视频编码和音频编码都在内。

ffmpeg -codecs

编码器

编码器(encoders)是实现某种编码格式的库文件。只有安装了某种格式的编码器,才能实现该格式视频 / 音频的编码和解码。

以下是一些 FFmpeg 内置的视频编码器。

  • libx264:最流行的开源 H.264 编码器
  • NVENC:基于 NVIDIA GPU 的 H.264 编码器
  • libx265:开源的 HEVC 编码器
  • libvpx:谷歌的 VP8 和 VP9 编码器
  • libaom:AV1 编码器

音频编码器如下。

  • libfdk-aac
  • aac

下面的命令可以查看 FFmpeg 已安装的编码器。

ffmpeg -encoders

FFmpeg 使用格式

FFmpeg 的命令行参数非常多,可以分成五个部分。

ffmpeg {1} {2} -i {3} {4} {5}

上面命令中,五个部分的参数依次如下。

  1. 全局参数
  2. 输入文件参数
  3. 输入文件
  4. 输出文件参数
  5. 输出文件

参数太多的时候,为了便于查看,FFmpeg 命令可以写成多行。

ffmpeg  [全局参数]  [输入文件参数]  -i [输入文件]  [输出文件参数]  [输出文件]

下面是一个例子。

ffmpeg  -y \ # 全局参数
-c:a libfdk_aac -c:v libx264 \ # 输入文件参数
-i input.mp4 \ # 输入文件
-c:v libvpx-vp9 -c:a libvorbis \ # 输出文件参数
output.webm # 输出文件

上面的命令将 mp4 文件转成 webm 文件,这两个都是容器格式。输入的 mp4 文件的音频编码格式是 aac,视频编码格式是 H.264;输出的 webm 文件的视频编码格式是 VP9,音频格式是 Vorbis。

如果不指明编码格式,FFmpeg 会自己判断输入文件的编码。因此,上面的命令可以简单写成下面的样子。

ffmpeg -i input.avi output.mp4

常用命令行参数

FFmpeg 常用的命令行参数如下。

  • -c:指定编码器
  • -c copy:直接复制,不经过重新编码(这样比较快)
  • -c:v:指定视频编码器
  • -c:a:指定音频编码器
  • -i:指定输入文件
  • -an:去除音频流
  • -vn:去除视频流
  • -r:视频帧率
  • -preset:指定输出的视频质量,会影响文件的生成速度,有以下几个可用的值 ultrafast, superfast, veryfast, faster, fast, medium, slow, slower, veryslow
  • -y:不经过确认,输出时直接覆盖同名文件。

常见用法

下面介绍 FFmpeg 几种常见用法。

查看文件信息

查看视频文件的元信息,比如编码格式和比特率,可以只使用-i参数。

ffmpeg -i input.mp4

上面命令会输出很多冗余信息,加上-hide_banner参数,可以只显示元信息。

ffmpeg -i input.mp4 -hide_banner

查看可用设备

ffmpeg -list_devices true -f dshow -i dummy
[dshow @ 000001d3da482240] DirectShow video devices (some may be both video and audio devices)
[dshow @ 000001d3da482240] "Integrated Camera"
[dshow @ 000001d3da482240] Alternative name "@device_pnp_\\?\usb#vid_04ca&pid_7070&mi_00#6&2102d5ea&0&0000#{65e8773d-8f56-11d0-a3b9-00a0c9223196}\global"
[dshow @ 000001d3da482240] DirectShow audio devices
[dshow @ 000001d3da482240] "麦克风阵列 (Realtek(R) Audio)"
[dshow @ 000001d3da482240] Alternative name "@device_cm_{33D9A762-90C8-11D0-BD43-00A0C911CE86}\wave_{BE0CB07D-AB72-4606-86E9-5F102ACAEF89}"
dummy: Immediate exit requested

查看设备使用可选项

ffmpeg -list_options true -f dshow -i video="Integrated Camera"
[dshow @ 000001751d612280] DirectShow video device options (from video devices)
[dshow @ 000001751d612280] Pin "捕获" (alternative pin name "捕获")
[dshow @ 000001751d612280] vcodec=mjpeg min s=1280x720 fps=30 max s=1280x720 fps=30
[dshow @ 000001751d612280] vcodec=mjpeg min s=320x180 fps=30 max s=320x180 fps=30
[dshow @ 000001751d612280] vcodec=mjpeg min s=320x240 fps=30 max s=320x240 fps=30
[dshow @ 000001751d612280] vcodec=mjpeg min s=352x288 fps=30 max s=352x288 fps=30
[dshow @ 000001751d612280] vcodec=mjpeg min s=424x240 fps=30 max s=424x240 fps=30
[dshow @ 000001751d612280] vcodec=mjpeg min s=640x360 fps=30 max s=640x360 fps=30
[dshow @ 000001751d612280] vcodec=mjpeg min s=640x480 fps=30 max s=640x480 fps=30
[dshow @ 000001751d612280] vcodec=mjpeg min s=848x480 fps=30 max s=848x480 fps=30
[dshow @ 000001751d612280] vcodec=mjpeg min s=960x540 fps=30 max s=960x540 fps=30
[dshow @ 000001751d612280] pixel_format=yuyv422 min s=1280x720 fps=10 max s=1280x720 fps=10
[dshow @ 000001751d612280] pixel_format=bgr24 min s=1280x720 fps=10 max s=1280x720 fps=10
[dshow @ 000001751d612280] pixel_format=yuyv422 min s=320x180 fps=30 max s=320x180 fps=30
[dshow @ 000001751d612280] pixel_format=bgr24 min s=320x180 fps=30 max s=320x180 fps=30
[dshow @ 000001751d612280] pixel_format=yuyv422 min s=320x240 fps=30 max s=320x240 fps=30
[dshow @ 000001751d612280] pixel_format=bgr24 min s=320x240 fps=30 max s=320x240 fps=30
[dshow @ 000001751d612280] pixel_format=yuyv422 min s=352x288 fps=30 max s=352x288 fps=30
[dshow @ 000001751d612280] pixel_format=bgr24 min s=352x288 fps=30 max s=352x288 fps=30
[dshow @ 000001751d612280] pixel_format=yuyv422 min s=424x240 fps=30 max s=424x240 fps=30
[dshow @ 000001751d612280] pixel_format=bgr24 min s=424x240 fps=30 max s=424x240 fps=30
[dshow @ 000001751d612280] pixel_format=yuyv422 min s=640x360 fps=30 max s=640x360 fps=30
[dshow @ 000001751d612280] pixel_format=bgr24 min s=640x360 fps=30 max s=640x360 fps=30
[dshow @ 000001751d612280] pixel_format=yuyv422 min s=640x480 fps=30 max s=640x480 fps=30
[dshow @ 000001751d612280] pixel_format=bgr24 min s=640x480 fps=30 max s=640x480 fps=30
[dshow @ 000001751d612280] pixel_format=yuyv422 min s=848x480 fps=20 max s=848x480 fps=20
[dshow @ 000001751d612280] pixel_format=bgr24 min s=848x480 fps=20 max s=848x480 fps=20
[dshow @ 000001751d612280] pixel_format=yuyv422 min s=960x540 fps=15 max s=960x540 fps=15
[dshow @ 000001751d612280] pixel_format=bgr24 min s=960x540 fps=15 max s=960x540 fps=15

录制视频

安装 https://github.com/rdp/screen-capture-recorder-to-video-windows-free

摄像头

# 实时录制摄像头画面 - Windows适用
ffplay -f dshow -i video="摄像头设备名称" -r 30 -vcodec libx264

桌面

# 实时录制桌面画面 - Windows适用
ffmpeg -f gdigrab -i desktop -f mp4 -preset ultrafast screen_capture.mp4

录制音频

# Windows适用
ffmpeg -f dshow -i audio="音频设备名称" audio.aac

录制音视频

ffmpeg -f gdigrab -t 30 -framerate 15 -i desktop -f dshow -i audio="音频设备名称" \
-b:v 3M -pixel_format yuv420p -vcodec libx264 -s 1366x768 -y # 可选,非必须
video.flv
  • -f 指定采集数据方式,一般为dshowgdigrab

    • gdigrab为系统自带,只能录屏幕,没声音;
    • dshow需装directX,优点是可以指定多个输入,比如下载安装screen capture recorder后,可将其作为dshow模式下的视频输入,可将virtual-audio-capturer作为dshow模式下的音频输入,实现录屏的同时录音。
  • -i 指定输入,desktop表示gdigrab采集模式输入全部桌面。dshow模式下自己指定,如:-i video="screen-capture-recorder" -i audio="virtual-audio-capturer"

  • -t 表示录屏时间,缺省则没有录屏时间限制,会一直录,录到手动停止或强制关闭

  • -framerate 表示帧率。对屏幕录制来说,一般15帧就够了,太大的话会很占资源,cpu占用率、内存、存储空间占用等都会很高。

  • -s 表示分辨率

  • -b:v 表示码率,如:-b:v 3M。大一点清楚,但是占资源,自己权衡吧。

  • -pixel_format 表示像素格式,如yuv420p等,注意选择不同的像素格式会影响资源占用率和视频质量,自己研究吧。

  • -vcodec 表示编码方式。libx264表示软编码,编码器的库为x264。你可以选择其他的,不同的编码方式也会影响资源占用率和视频质量,自己研究吧。此外可以用硬件加速,硬编解码有3种常见的方式,例如:-vcodec h264_qsv,即使用集显加速;例如: -vcodec h264_nvenc,即使用N卡加速;例如: -vcodec h264_amf,即使用A卡加速。开启硬件加速的情况下可大大降低CPU的占用率

  • -y 表示覆盖同名文件

  • video.flv为输出文件名,格式虽然mp4较为常见,但我建议用flv格式,因为如果中间有录制损坏,mp4整个就播放不了了,但flv能。

转换编码格式

转换编码格式(transcoding)指的是, 将视频文件从一种编码转成另一种编码。比如转成 H.264 编码,一般使用编码器libx264,所以只需指定输出文件的视频编码器即可。

ffmpeg -i [input.file] -c:v libx264 output.mp4

下面是转成 H.265 编码的写法。

ffmpeg -i [input.file] -c:v libx265 output.mp4

转换容器格式

转换容器格式(transmuxing)指的是,将视频文件从一种容器转到另一种容器。下面是 mp4 转 webm 的写法。

ffmpeg -i input.mp4 -c copy output.webm

上面例子中,只是转一下容器,内部的编码格式不变,所以使用-c copy指定直接拷贝,不经过转码,这样比较快。

调整码率

码率,即波特率。值越小,转换后的视频越小。

码率就是数据传输时单位时间传送的数据位数,一般我们用的单位是kbps即千位每秒。

码率与体积成正比:码率越大,体积越大;码率越小,体积越小。由于文件体积与取样率是成正比的,所以几乎所有的编码格式都想用最低的码率达到最少的失真,“码率”就是失真度,码率越高越清晰,反之则画面粗糙而且马赛克多。

下面的例子指定码率最小为 964K,最大为 3856K,缓冲区大小为 2000K。

ffmpeg  -i input.mp4  -minrate 964K -maxrate 3856K -bufsize 2000K  output.mp4

-b 输出文件的码率(ffmpeg.exe -i test.MP4 -b 600k output.mp4

调整分辨率

指的是视频的分辨率,常见的分辨率有40962304,19201080,720*576等。

下面是改变视频分辨率(transsizing)的例子,从 1080p 转为 480p 。

ffmpeg  -i input.mp4  -vf scale=480:-1  output.mp4

-s 输出文件的分别率(ffmpeg.exe -i test.MP4 -s 1920*1080 output.mp4

调整帧率

帧率(即视频更新率),就是每秒编码进视频文件的帧数目,是用于测量显示帧数的量度。

测量单位为“每秒显示帧数”(Frame Per Second,FPS,帧率)或“赫兹”,单位用FPS用来描述视频每秒播放多少帧,而单位用赫兹用来描述显示器的画面每秒更新多少次。

常见的帖率有25、30,高清电视有50、60帧。

一般帧率越高,视频画面越流畅。但是人类的眼睛需要每秒至少15帧才能将图像连贯在一起~

下面是改变视频分辨率(transsizing)的例子,从 1080p 转为 480p 。

ffmpeg  -i input.mp4  -vf scale=480:-1  output.mp4

-s 输出文件的分别率(ffmpeg.exe -i test.MP4 -s 1920*1080 output.mp4

提取视频

有时,需要从音视频里面提取视频(demuxing),可以像下面这样写。

ffmpeg -i input.avi -an -c:a copy output.mp4

上面例子中,-vn表示去掉视频,-c:a copy表示不改变音频编码,直接拷贝。

提取音频

有时,需要从音视频里面提取音频(demuxing),可以像下面这样写。

ffmpeg -i input.mp4 -vn -c:a copy output.aac

上面例子中,-vn表示去掉视频,-c:a copy表示不改变音频编码,直接拷贝。

添加音轨

添加音轨(muxing)指的是,将外部音频加入视频,比如添加背景音乐或旁白。

ffmpeg  -i input.aac -i input.mp4  output.mp4

上面例子中,有音频和视频两个输入文件,FFmpeg 会将它们合成为一个文件。

截图

下面的例子是从指定时间开始,连续对 1 秒钟的视频进行截图。

ffmpeg  -y  -i input.mp4  -ss 00:01:24 -t 00:00:01  output_%3d.jpg

如果只需要截一张图,可以指定只截取一帧。

ffmpeg  -ss 01:23:45  -i input  -vframes 1  -q:v 2  output.jpg

上面例子中,-vframes 1指定只截取一帧,-q:v 2表示输出的图片质量,一般是 1 到 5 之间(1 为质量最高)。

裁剪

裁剪(cutting)指的是,截取原始视频里面的一个片段,输出为一个新视频。可以指定开始时间(start)和持续时间(duration),也可以指定结束时间(end)。

ffmpeg -ss [start] -i [input] -t [duration] -c copy [output]
ffmpeg -ss [start] -i [input] -to [end] -c copy [output]

下面是实际的例子。

ffmpeg -ss 00:01:50 -i [input] -t 10.5 -c copy [output]
ffmpeg -ss 2.5 -i [input] -to 10 -c copy [output]

上面例子中,-c copy表示不改变音频和视频的编码格式,直接拷贝,这样会快很多。

为音频添加封面

有些视频网站只允许上传视频文件。如果要上传音频文件,必须为音频添加封面,将其转为视频,然后上传。

下面命令可以将音频文件,转为带封面的视频文件。

ffmpeg  -loop 1  -i cover.jpg -i input.mp3  -c:v libx264 -c:a aac -b:a 192k -shortest  output.mp4

上面命令中,有两个输入文件,一个是封面图片cover.jpg,另一个是音频文件input.mp3-loop 1参数表示图片无限循环,-shortest参数表示音频文件结束,输出视频就结束。

字幕格式转换

ffmpeg -i test_1280x720_3.srt test_1280x720_3_1.vtt
ffmpeg -i test_1280x720_3.srt test_1280x720_3_1.ass

添加硬字幕

ffmpeg -i test_1280x720_3.mkv -vf subtitles=test_1280x720_3.srt out.mp4

添加软字幕

ffmpeg -i test_1280x720_3.mp4 -i test_1280x720_3.srt -c copy output.mkv

参考链接