跳转至

Welcome

arduino-cli 使用

esp32中,使用了arduino-cli来编译和上传代码。这里记录下arduino-cli操作arduino nano的方法和问题

编译

说也非常奇怪,Linux的java GUI版本arduino编译提示找不到头文件'SoftwareSerial.h', 这个库是arduino自带的。但是不使用GUI的编译按钮而用GUI的输出中的命令编译又正常。

这是从GUI的IDE的编译上传的输出日志,得到的编译上传命令, 手动执行却正常。

cd ~/Arduino
BUILD_PATH=$(mktemp -d)
arduino-builder -verbose -compile -hardware /usr/share/arduino/hardware -tools /usr/share/arduino/hardware/tools/avr -libraries /
./Arduino/libraries  -build-cache ./arduino_cache -build-path $BUILD_PATH  -fqbn=arduino:avr:uno  -prefs=build.warn_data_percentage=75 ./TestSerial/TestSerial.ino
avrdude -C/etc/avrdude.conf -v -patmega328p -carduino -P/dev/ttyUSB0 -b115200 -D -Uflash:w:${BUILD_PATH}/TestSerial.ino.hex:i 

用arduino-cli编译也正常

arduino-cli compile --fqbn  arduino:avr:nano   TestSerial 

上传失败

但是用arduino-cli编译正常,上传失败,提示

arduino-cli upload --fqbn arduino:avr:uno --port /dev/ttyUSB0 TestSerial                                                                                                            
avrdude: error at /etc/avrdude.conf:402: syntax error                                                                                                                                           
avrdude: error reading system wide configuration file "/etc/avrdude.conf"                                                                                                                       
Failed uploading: uploading error: exit status 1   

后来用verbos输出对比GUI版本的命令,发现两个命令用的avrdude不一样。 一个是/usr/bin/avrdude, 一个是$HOME/.arduino15/packages/arduino/tools/avrdude/6.3.0-arduino17/bin/avrdude。两个的版本不一样, 而后者使用了前者的配置文件 /etc/avrdude.conf。所以出现syntax error

arduino-cli upload -v  --fqbn arduino:avr:uno --port /dev/ttyUSB0 TestSerial                                                                                                        
"/home/jimery/.arduino15/packages/arduino/tools/avrdude/6.3.0-arduino17/bin/avrdude" "-C/etc/avrdude.conf" -v -V -patmega328p -carduino "-P/dev/ttyUSB0" -b115200 -D "-Uflash:w:/home/jimery/.ca
che/arduino/sketches/57AA4FA906132DC236F48CCE34943FA0/TestSerial.ino.hex:i"                                                                                                                     

avrdude: Version 6.3-20190619                                                                                                                                                                   
         Copyright (c) 2000-2005 Brian Dean, http://www.bdmicro.com/                                                                                                                            
         Copyright (c) 2007-2014 Joerg Wunsch                                                   

         System wide configuration file is "/etc/avrdude.conf"                                                                                                                                  
avrdude: error at /etc/avrdude.conf:402: syntax error                                                                                                                                           
avrdude: error reading system wide configuration file "/etc/avrdude.conf"                                                                                                                       
Failed uploading: uploading error: exit status 1 

最后全部卸载了GUI包括avrdude, 再将$HOME目录的avrdude配置复制到/etc/avrdude.conf, 问题解决了。

玩转ESP32

ESP32的生态比较好,类似arduino, 但是集成了wifi和蓝牙,有的甚至集成了gps,功能很强大而且便宜。最近淘宝买了一个ESP32-USB-Geek, 带一个LCD屏幕和几个扩展接口,还有闪存口可以读写。

esp32-usb-geek.png.png

编译烧录

ESP32 有3种方式: 官方的idf, mpy, arduino。

官方工具

官方的idf分vscode插件和python脚本, vscode中没有成功,不过idf.py可以编译和烧录。

根据官方文档写的下载安装idf,解压后执行脚本。安装脚本依赖python-venv, 而我最常用vituralenv

bash v5.3.1/esp-idf/install.sh

进入淘宝店例子, 用cmake管理的。 在跟目录执行

idf.py set-target esp32-s3

这种方式支持非常复杂的配置

idf.py menuconfig

编译刷入

idf.py build

idf.py -p /dev/ttyACM0 flash

官方的方式最能了解物理设备了。看日志发现他生成了bin文件,并从0位置刷入bin文件。

mpy thonny ide

最好用pip安装最新的。 将python上传到esp后,点运行就可以了,还能在REPL中仿真调试,非常方便。

arduino

arduino ide gui版本编译失败,而且因为是Linux版是用java写的,操作非常慢。改用arduio-cli脚本成功, 官方文档也说了arduino-cli非常强大。这里说脚本使用方法。

初始化配置
  1. 首先下载压缩包,解压到PATH目录下。

  2. 初始化配置, arduino-cli config init 可以生成配置文件'~/.arduino15/arduino-cli.yaml'。

  3. 修改配置文件, 根据淘宝老板说的,ESP32的板子要从另外第三方源中, 因为这个源是githubcontent需要梯子才能访问,修改成如下

$ cat ~/.arduino15/arduino-cli.yaml

board_manager:

additional_urls: ['https://raw.githubusercontent.com/espressif/arduino-esp32/gh-pages/package_esp32_index.json']



network:

proxy: 'socks5://ip:port'
安装板子库和依赖库

当没有下载板子时,查看连接的设备会显示Unknown

$ arduino-cli board list

Port Protocol Type Board Name FQBN Core

/dev/ttyACM0 serial Serial Port (USB) Unknown

显示搜索所有板子(包括在添加的第三方源里的), 这里搜索ESP32核心板, 淘宝老板说,我的开发板叫 ESP32S3 Dev Module

$ arduino-cli board listall ESP32S3 Dev Module

ESP32S3 Dev Module esp32:esp32:esp32s3

安装板子module, 比较大要等待一会。 tips: 板子的包叫module, 软件依赖库叫library

$ arduino-cli core install esp32:esp32

搜索已安装的安装核心板

$ arduino-cli core search esp32

ID Version Name

arduino:esp32 2.0.18-arduino.5 Arduino ESP32 Boards

esp32:esp32 3.0.7 esp32
编译

编译淘宝店的例子LCD_Button,要在LCD_Button外面执行

arduino-cli compile --fqbn esp32:esp32:esp32s3 LCD_Button

上传到板子

arduino-cli upload -p /dev/ttyACM0 --fqbn esp32:esp32:esp32s3 LCD_Button

有时候失败了,要按住Boot键插入电脑再松开,就能正常上传。

esptool.py v4.6

Serial port /dev/ttyACM0

Connecting...

Traceback (most recent call last):

...

OSError: [Errno 71] Protocol error

Failed uploading: uploading error: exit status 1

看这个日志,原来arduino也是调用的官方的idf工具的esptool脚本。 重新插入USB, 再次查看已连接的开发板就不会显示Unknown了

$ arduino-cli board list

Port Protocol Type Board Name FQBN Core

/dev/ttyACM0 serial Serial Port (USB) ESP32 Family Device esp32:esp32:esp32_family esp32:esp32

连接串口UART

烧录了淘宝店给的串口收发例子,代码非常简单, 然后用我的USB转ttl工具测试成功。

import machine



uart = machine.UART(1, baudrate=115200, tx=machine.Pin(43), rx=machine.Pin(44))



def send_data(data):

uart.write(data)



def receive_data():

if uart.any():

data = uart.read()

print("Received data:",data)




while True:

send_data("Hello UART")

receive_data()

然而这里是不对的, 串口转TTL和ESP的USB都要连接到电脑上。单连一个都是进了mpy的repl。

usb-ttl-esp32-uart.png.png

起因

一直苦恼现在的手机没有3.5mm耳机孔,最近突然想到用airplay将音乐投到有耳机孔的电脑上听,发现有很多基于Linux的实现

用 wpasupplicant 管理wifi连接

用树莓派管理wifi连接的方法有 : * 通过配置文件/etc/wpa_supplicant/wpa_supplicant.conf * raspi-config * 其它工具iwctl nmtui等

后来发现配置文件管理wifi的优先级不生效,不能选择网络,当然可以用nmtui很方便,不过要安装新包。后来发现了wpa_cli工具很方便,来自安装包wpasupplicant

wpa_cli

先要选择网络接口,树莓派就是wlan0。 * 查看可用网络 wpa_cli -i wlan0 list_networks 这个命令会打印可用网络的id和名称 * 选择某个网络 wpa_cli -i wlan0 select_networks <网络id>

wpa_cli 还有交互模式

参考

https://superuser.com/a/759153

pve中给windows扩容

当初创建windows时给的40G硬盘,就一个分区,后来装了一些软件,发现不够用了,就第一次扩容,然后加了另一个分区。后来有些东西必须放在C盘里,这次扩容就比较复杂些。

第一次扩容

pve的web界面点击硬盘的resize可以修改硬盘大小,这个硬盘实际上是一个lvm块设备,而对于虚拟机Windows而言就是硬盘变大了。

硬盘加大后,进入windows磁盘管理,发现Windows已经有3个区:efi,C盘,恢复分区。为了方便直接加了一个D盘。

备注:pve的虚拟机安装在块设备上,而qemu是用文件(raw or qcow2),所以qemu的虚拟机可以复制移动,不过pve支持异地部署。

第二次扩容

这次扩容是为了增加C盘大小,而C盘后面有恢复分区和D分区。不得不在gparted 中执行: 1. 删除D分区 2. 移动恢复分区到磁盘末尾 3. 拓展C盘大小。 gparted操作很方便,不过windows启动不成功,通过windows安装iso修复之后正常了,恢复分区也还在。

virtual vnc 可视化打开gparted

因为pve没有连接显示器,只能用虚拟vnc,远程连接到pve桌面。

安装tigervnc服务端

pve只需要安装服务端,tigervnc-standalone-server。本地电脑安装客户端,选择很多例如 remmina。

启动

创建密码后启动vnc 服务端失败,提示没有桌面。原因是没有安装桌面环境更没有启动桌面,好在tigervnc 支持指定可视化进程(xVNC就不支持这种方式)。

tigervncserver -xstartup /usr/sbin/gparted  --  /dev/dm-15

这里直接给的gparted可执行文件路径和参数,--表示后面的参数是给gparted的,不是给tigervncserver的,/dev/dm-15是要操作的windows磁盘,也能在gparted界面里面再选。

remmina设置窗口大小

tigervncserver默认启动1024x768的窗口,当内容多时不方便。重新启动

tigervncserver -geometry 1920x1080 -xstartup /usr/sbin/gparted  --  /dev/dm-15

但是重新连接发现窗口还是很小,以为参数不生效。后来发现这时候窗口右下角可以拖动,手动拖成满屏

gparted问题

启动gparted后出现没有光标,后面按了鼠标右键就恢复X光标了。arch wiki里面有解决办法

替换招行的账单中发现vim和sed区别

在vim中 1. :%s/\n/,/g 2. :% s/\t,\t,\t,\t,/\r/g 用sed: cat bill.txt| sed -z 's/\n/,/g' | sed 's/\t,\t,\t,\t,/\n/g'

可见

  1. vim中匹配换行符用\n, 而替换用\r。替换成\n在vim中显示成^@
  2. sed 中的换行符统一用\n,这比vim好,但sed 中不能直接用\n匹配,还得加上 -z 参数。

进位位和溢出位(carry bit/overflow bit)

这两个标志位是运算器(alu)的组成部分,因为运算器在执行加法时,要关注两个问题:是否进位超了;是否溢出了。这两个问题很相似,但有区别。

加法和减法

对于减法而言,实际是将减数翻转,然后执行加法。即:

1 - 1 = 1 + (-1)

运算器做减法时要比较两数的绝对值大小再进行减法,符号设置成大的数的符号,例如

2 - 1 => 2 - 1 = 1 => 符号位设置成2的符号位
1 - 2 => 2 - 1 = 1 => 符号位设置成1的符号位

数字在内存中存放的是“补码”形式,补码很多好处,对于正数而言,源码、反码、补码的二进制形式相同。补码统一了+0和-0的形式,而且补码适合做减法运算。

+0/-0
原码: 0000 0000/ 1000 0000
反码: 0000 0000/ 1111 1111 正数不变,负数的符号位不变,其它位取反
补码: 0000 0000/10000 0000 正数不变,负数先转反码再加1,进位位丢掉后相同

进位标志位

进位位用来标志两数相加产生的进位超过了位数,例如 1+1 = 10,要多一位,如果运算器是8位的,执行 11111111+1的运算,就要进位,且超过了位数,这时候进位位就会置1。

判断方法 Carry = (Result >> n) & 1

溢出标志位

溢出位只针对有符号数的运算,有符号数的第一位表示正负,0代表正,1代表负,其它位表示值。当值的部分想加产生进位时,导致符号位覆盖。

判断方法(就8位而言) Overflow = (Result [7bit] XOR Op1[7bit] XOR Op2[7bit])

溢出位置1时,虽然符号为不正确,但其值是正确的(包含符号位)。

参考

源码/反码/补码 进位位/溢出位

firefox manual add search engine

  1. Open a new tab and type about:config in the address bar
  2. In the search box type: browser.urlbar.update2.engineAliasRefresh
  3. Click on the little + symbol on the right. This is what it should look like after you pressed it: boolean true value after pressing plus sign
  4. Go to firefox Settings → Search. Or enter this in the address bar: about:preferences#search
  5. In the "Search Shortcuts" section you should notice a new "add" button.

参考

https://superuser.com/questions/7327/how-to-add-a-custom-search-engine-to-firefox

streaming h264 with rtp

这里记录了使用ffmpeg来发送h264的rtp流,主要问题是处理pps和sps的发送,看了非常多的文档和例子包括gptchat,直到用gdb跟ffmpeg才找到解决办法。

背景

公司的有个发送视频彩铃的业务,需要向终端发送h264。开始想法是创建ffmpeg进程来发送,不过发现进程太好资源并发上不去。后来用写代码来多线程发送。

sdp协商转码问题

sdp协商结果会有不同的分辨率、等级、质量之类的参数(pps/sps),为了避免转码,提前制作了不同参数的视频。不过后来发现只要正确发送pps/sps,终端都能正确解码,不是必须按sdp里的视频参数。

用ffmpeg发送

开始直接使用命令ffmpeg发送,发现终端不能解码。对比正常的rtp流发现缺少了pps/sps。

ffmpeg -i video.mp4 -an -c:v copy -f rtp rtp://ip:port
一番搜索发现ffmpeg将pps/sps等参数写到sdp中(out-of-band),还用base64编码了。
a=fmtp:96 packetization-mode=1; sprop-parameter-sets=Z2QAKKzRAHgCJ+XAWoCAgKAAAAMAIAAAB4HjBiJA,aOvvLA==; profile-level-id=640028

ffplay等播放软件会解析sdp,载入pps/sps,所以正确解码,但是sip场景下只能通过rtp来发送sps/pps(in-band)。 后来发现用ffmpeg的'bit stream filter'能解决问题

ffmpeg -i video.mp4 -an -c:v copy -bsf h264_mp4toannexb -f rtp rtp://ip:port

即使不转码,使用ffmpeg进程发送视频,在两核的系统中大概只能发送十几路。

代码实现发送

基于ffmpeg的示例代码'doc/example/remux.c', 将原来写文件改为rtp即可。因为还没有用到'h264_mp4toannexb',还不会发送pps和sps。

关键问题就是如何使用这个bsf

网上看到的例子包括用gptchat生成的例子,都是类似下面的步骤。

# 搜索bsf
av_bsf_get_by_name("h264_mp4toannexb")
# 创建bsf的上下文
av_bsf_alloc(bsf, &bsf_ctx)
# 从输入的format上下文中复制编码参数
avcodec_parameters_copy(bsf_ctx->par_in, input_ctx->streams[video_stream_idx]->codecpar)
# 初始化bsf上下文
av_bsf_init(bsf_ctx)
# 读入packet
av_read_frame(input_ctx, &pkt)
# 送到bsf中处理
av_bsf_send_packet(bsf_ctx, pkt)
# 取出处理后的pkt
av_bsf_receive_packet(bsf_ctx, pkt)
# 发送rtp

抓包发现还是没有发送PPS/SPS, 而且第一个NALU是SEI,并且是坏的(Malformed)。调试发现bsf确实成功将SEI从AVCC转换成了AnnexB形式,也在SEI后追加了PPS和SPS。

(gdb) x/150bx pkt->data
0x5555556da310: 0x00    0x00    0x00    0x01    0x06    0x05    0x2e    0xdc
0x5555556da318: 0x45    0xe9    0xbd    0xe6    0xd9    0x48    0xb7    0x96
0x5555556da320: 0x2c    0xd8    0x20    0xd9    0x23    0xee    0xef    0x78
0x5555556da328: 0x32    0x36    0x34    0x20    0x2d    0x20    0x63    0x6f
0x5555556da330: 0x72    0x65    0x20    0x31    0x35    0x35    0x20    0x72
0x5555556da338: 0x32    0x39    0x30    0x31    0x20    0x37    0x64    0x30
0x5555556da340: 0x66    0x66    0x32    0x32    0x00    0x80    0x00    0x00
0x5555556da348: 0x00    0x01    0x67    0x64    0x00    0x28    0xac    0xd1
0x5555556da350: 0x00    0x78    0x02    0x27    0xe5    0xc0    0x5a    0x80
0x5555556da358: 0x80    0x80    0xa0    0x00    0x00    0x03    0x00    0x20
0x5555556da360: 0x00    0x00    0x07    0x81    0xe3    0x06    0x22    0x40
0x5555556da368: 0x00    0x00    0x00    0x01    0x68    0xeb    0xef    0x2c
0x5555556da370: 0x00    0x00    0x01    0x65    0x88    0x84    0x02    0xff
0x5555556da378: 0x91    0x3c    0x4a    0x51    0x5b    0xfd    0x02    0x3f
0x5555556da380: 0xc1    0x67    0x8d    0xc0    0x94    0x98    0xee    0x7d
0x5555556da388: 0x43    0x23    0xc0    0x4f    0xf7    0x56    0x37    0xfc
0x5555556da390: 0xf1    0xf3    0xd3    0x83    0x03    0xa9    0x6d    0xd2
0x5555556da398: 0x07    0xcf    0x19    0xa2    0x1e    0x29    0x64    0xfe
0x5555556da3a0: 0x1f    0x8e    0xd6    0x71    0x5f    0x33
0x00 0x00 0x00 0x01是annexb格式的起始码,第一个NALU是0x06(SEI),第二个NALU是0x07(SPS),第三个是0x08(PPS)。问题出在rtp打包的ff_rtp_send_h264_hevc。这里判断出s->nal_length_size不是0而是4, 所以还是以AVCC格式的首四个字节代表长度来解析pkt,而这是pkt是annexB格式了,前四个字节就是0x00, 0x00, 0x00, 0x01。所以打包错误。 问题怎么使rtp按annexB来打包,为什么nal_length_size是4不是0。

void ff_rtp_send_h264_hevc(AVFormatContext *s1, const uint8_t *buf1, int size)
{
    const uint8_t *r, *end = buf1 + size;
    RTPMuxContext *s = s1->priv_data;

    s->timestamp = s->cur_timestamp;
    s->buf_ptr   = s->buf;
    if (s->nal_length_size)
        r = ff_avc_mp4_find_startcode(buf1, end, s->nal_length_size) ? buf1 : end;
    else
        r = ff_avc_find_startcode(buf1, end);

找到初始化rtp的初始化函数rtp_write_header,发现设置nal_length_size的地方,原来判断extradata,如果第一个字节是1,则按avcc打包。

    case AV_CODEC_ID_H264:
        /* check for H.264 MP4 syntax */
        if (st->codecpar->extradata_size > 4 && st->codecpar->extradata[0] == 1) {
            s->nal_length_size = (st->codecpar->extradata[4] & 0x03) + 1;
        }
        break;
而当前的extradata是类似avcc的(又不同于AVCC, 因为多一个header),第一个字节等于1,而通过调试ffmpeg_g到这里时,extradata是annexB格式,即首4个字节是0x00,0x00,0x00,0x01。关于extradata格式的问题,从开始我就发现刚初始化时,extradata就是0x01开头,那么问题ffmpeg_g的extradata什么时候变的,再次调试发现,bsf初始化跟上面的不同。在ffmpeg_g中bsf初始化在fftools/ffmpeg_mux.c文件中:
# fftools/ffmpeg_mux.c
static int bsf_init(MuxStream *ms)
{
    OutputStream *ost = &ms->ost;
    AVBSFContext *ctx = ms->bsf_ctx;
    int ret;

    if (!ctx)
        return avcodec_parameters_copy(ost->st->codecpar, ost->par_in);

    ret = avcodec_parameters_copy(ctx->par_in, ost->par_in);
    if (ret < 0)
        return ret;

    ctx->time_base_in = ost->st->time_base;

    ret = av_bsf_init(ctx);
    if (ret < 0) {
        av_log(ms, AV_LOG_ERROR, "Error initializing bitstream filter: %s\n",
               ctx->filter->name);
        return ret;
    }

    ret = avcodec_parameters_copy(ost->st->codecpar, ctx->par_out);
    if (ret < 0)
        return ret;
    ost->st->time_base = ctx->time_base_out;

    ms->bsf_pkt = av_packet_alloc();
    if (!ms->bsf_pkt)
        return AVERROR(ENOMEM);

    return 0;
}
发现,ffmpeg的bsf初始化多一个步骤,将bsf的par_out拷贝到输出AVstream中。而这par_out中的extradata就是我们要的annexB格式!
ret = avcodec_parameters_copy(ost->st->codecpar, ctx->par_out);

问题找到答案了,1是初始化rtp muxer前先初始化bsf,2是初始化bsf后将par_out拷贝回rtp muxer,再初始化rtp muxer。

正确例子

基于ffmpeg的doc/example/remux.c 删除了错误处理。只关心h264,所以输入输出都只处理index=0的包。

int main(int argc, char **argv) {
  const AVOutputFormat *ofmt = NULL;
  AVFormatContext *ifmt_ctx = NULL, *ofmt_ctx = NULL;
  AVPacket *pkt = NULL;
  const char *in_filename, *out_filename;
  int ret = 0;
  in_filename = "video.mp4";
  out_filename = "rtp://127.0.0.1:10020";
  pkt = av_packet_alloc();
  ret = avformat_open_input(&ifmt_ctx, in_filename, 0, 0);
  ret = avformat_find_stream_info(ifmt_ctx, 0);
  av_dump_format(ifmt_ctx, 0, in_filename, 0);

  // 创建输出rtp上下文,不初始化
  avformat_alloc_output_context2(&ofmt_ctx, NULL, "rtp", out_filename);
  // 初始化bsf
  const AVBitStreamFilter *bsf_stream_filter =
      av_bsf_get_by_name("h264_mp4toannexb");
  AVBSFContext *bsf_ctx = NULL;
  ret = av_bsf_alloc(bsf_stream_filter, &bsf_ctx);
  ret =
      avcodec_parameters_copy(bsf_ctx->par_in, ifmt_ctx->streams[0]->codecpar);
  ret = av_bsf_init(bsf_ctx);

  ofmt = ofmt_ctx->oformat;
  AVStream *out_stream = avformat_new_stream(ofmt_ctx, NULL);
  // 关键在这!! 原来是从ifmt_ctx的stream中拷贝codecpar,改成从bsf中拷贝
  // ret = avcodec_parameters_copy(out_stream->codecpar, in_codecpar);
  ret = avcodec_parameters_copy(out_stream->codecpar, bsf_ctx->par_out);
  out_stream->codecpar->codec_tag = 0;
  av_dump_format(ofmt_ctx, 0, out_filename, 1);
  if (!(ofmt->flags & AVFMT_NOFILE)) {
    ret = avio_open(&ofmt_ctx->pb, out_filename, AVIO_FLAG_WRITE);
  }
  // 初始化bsf后再初始化rtp
  ret = avformat_write_header(ofmt_ctx, NULL);

  while (1) {
    AVStream *in_stream, *out_stream;
    ret = av_read_frame(ifmt_ctx, pkt);
    if (pkt->stream_index != 0) {
      continue;
    }
    in_stream = ifmt_ctx->streams[pkt->stream_index];
    out_stream = ofmt_ctx->streams[pkt->stream_index];
    log_packet(ifmt_ctx, pkt, "in");

    av_bsf_send_packet(bsf_ctx, pkt);
    av_bsf_receive_packet(bsf_ctx, pkt);
    /* copy packet */
    av_packet_rescale_ts(pkt, in_stream->time_base, out_stream->time_base);
    pkt->pos = -1;
    log_packet(ofmt_ctx, pkt, "out");
    ret = av_interleaved_write_frame(ofmt_ctx, pkt);
  }

  av_write_trailer(ofmt_ctx);
}

h264_mp4toannexb

这个bsf将从mp4文件中读取的avcc格式的packet转换成annexb格式的packet。调试发现第一个读出来的包是SEI一个I帧,通过bsf处理后,会在SEI后面追加上PPS和SPS信息。而读取mp4文件时,sps/pps在extradata中。

相关知识

这些知识反复看来看去,总也不能贯穿起来,直到问题解决才算明白。

NALU

NALU是真正用来保存h264视频信息的,包括I帧,P/B帧,PPS,SEI,SPS等。NALU由两部分组成:头(1字节)和payload,头中包含nalu的类型。h264规范只定义了NALU本身单元,但没有定义怎么保存NALU单元,所以有了两种格式保存NALU,AVCC和AnnexB。

NALU类型

NAL unit type的值和说明,类型后面跟payload。详细参见在Rec. ITU-T H.264文件的63页,这里展示常用的 * 5,Coded slice of an IDR picture (I帧) * 6,Supplemental enhancement information (SEI) * 7,Sequence parameter set (SPS) * 8,Picture parameter set (PPS) * 24,Single-Time Aggregation Packet(STAP-A)

从抓包看到SPS算上payload的长度为30,PPS算上payload的长度为4。不知道长度是不是固定的。

STAP-A

STAP-A是多个NALU的聚合(Aggregation),即这个NALU的payload里是多个NALU。STAP-A类型的NAL用来发送PPS/SPS/SEI等多种聚合。因为这些单元都很小。STRAP-A类型的header也是一个字节,但是payload里面有多个NALU,并且每个NALU前面用2字节来表示这个NALU的大小。

|STAP-A header|NALU-1 size|NALU-1|NALU-2 size|NALU-2|

NALU-1中又有header和payload。

AVCC和AnnexB

上面说了规范没有定义怎么保存NALU,所以有了这两个格式,他们两是平等关系,只有保存的格式不同而已。AVCC用来保存,annexB用来流传输。 * AVCC用1~4个字节来表示NALU的长度,长度后面是NALU。读取方法是先读长度,再读取NALU。再读下一个长度,再读下一个NALU... * 而annexb用0x00,0x00,0x00,0x01或者0x00,0x00,0x01的起始码(start code)来分隔不同的NALU,所以方法是先读起始码,再一直读,直到发现下一个起始码,表示这个NALU结束,下一个NALU开始。

ffmpeg使用中发现,AVCC一般用4字节表示NALU的长度,具体多少字节,在ffmpeg的extradata中有定义。annexB也是用4字节的起始码,也就是0x00,0x00,0x00,0x01。

Fragmentation Units (FUs) 分片

FU就是网络分片,因为I帧是一个完整的图片,所以非常大,为了保证udp不丢包,所以要分次发送。 第一个分片的FU的头设置了Start bit, 最后一个分片的FU头设置了END bit。分片是在rtp muxer中完成,注意ffmpeg中一个packet可以包含多个音频帧,但是只包含一个帧,直到发送rtp之前,一个packet总是完整的一帧视频(I/P/B)。 对于比较小的packet,例如聚合了PPS/SPS等信息的STAP-A包,不需要分片。

extradata

上面很多次提到ffmpeg的extradata, 就是AVCodecParameters.extradata,它的长度是AVCodecParameters.extradata_size。在读取mp4文件的时候,ffmpeg会自动填充,在解码rtp的时候可能就需要手动填充了。extradata的比特位如下,首先是6字节的头,然后是多个SPS类型的NALU(2字节的长度分割多个NALU),再然后是PPS类型的NALU个数,最后是PPS类型的多个NALU(2字节的长度分割多个NALU)。

bits    
8   version ( always 0x01 )
8   avc profile ( sps[0][1] )
8   avc compatibility ( sps[0][2] )
8   avc level ( sps[0][3] )
6   reserved ( all bits on )
2   NALULengthSizeMinusOne
3   reserved ( all bits on )
5   number of SPS NALUs (usually 1)

repeated once per SPS:
  16         SPS size
  variable   SPS NALU data

8   number of PPS NALUs (usually 1)

repeated once per PPS:
  16       PPS size
  variable PPS NALU data

里面包含了一个或多个PPS/SPS(NALU),但保存的格式,既不是AVCC也不是AnnexB。因为上面可知AVCC用14个字节表示NALU的长度,AnnexB用34字节的起始码,而extradata是有一个6字节的header,里面有个字段叫NALULengthSizeMinusOne就是定义了AVCC使用多少个字节来表示NALU的长度。如果NALULengthSizeMinusOne等于0,那么AVCC用1字节表示NALU的长度。通常就是用4字节。

extradata例子
(gdb) x /150bx fmt_ctx->streams[0]->codecpar->extradata
0x55555571d9c0: 0x01    0x64    0x00    0x28    0xff    0xe1    0x00    0x1e
0x55555571d9c8: 0x67    0x64    0x00    0x28    0xac    0xd1    0x00    0x78
0x55555571d9d0: 0x02    0x27    0xe5    0xc0    0x5a    0x80    0x80    0x80
0x55555571d9d8: 0xa0    0x00    0x00    0x03    0x00    0x20    0x00    0x00
0x55555571d9e0: 0x07    0x81    0xe3    0x06    0x22    0x40    0x01    0x00
0x55555571d9e8: 0x04    0x68    0xeb    0xef    0x2c    0x00    0x00    0x00
0x55555571d9f0: 0x00    0x00    0x00    0x00    0x00    0x00    0x00    0x00
0x55555571d9f8: 0x00    0x00    0x00    0x00    0x00    0x00    0x00    0x00
0x55555571da00: 0x00    0x00    0x00    0x00    0x00    0x00    0x00    0x00
0x55555571da08: 0x00    0x00    0x00    0x00    0x00    0x00    0x00    0x00
0x55555571da10: 0x00    0x00    0x00    0x00    0x00    0x00    0x00    0x00
0x55555571da18: 0x00    0x00    0x00    0x00    0x00    0x00    0x00    0x00
0x55555571da20: 0x00    0x00    0x00    0x00    0x00    0x00    0x00    0x00
0x55555571da28: 0x00    0x00    0x00    0x00    0x00    0x00    0x00    0x00
0x55555571da30: 0x00    0x00    0x00    0x00    0x00    0x00    0x00    0x00
0x55555571da38: 0xc1    0x00    0x00    0x00    0x00    0x00    0x00    0x00
0x55555571da40: 0x9d    0xad    0x00    0x00    0x50    0x55    0x00    0x00
0x55555571da48: 0xfa    0x19    0xc4    0x92    0x40    0xa0    0xdc    0xba
0x55555571da50: 0x00    0x00    0x00    0x00    0x00    0x00
  • 第5字节0xff,二进制为:1111 1111, 后2位表示NALULengthSizeMinusOne=3,所以ffmpeg用4字节表示NALU的大小(AVCC格式)。
  • 第6字节0xe1,二进制为:1110 0001,后5位表示SPS的个数=1,所以只有一个SPS。
  • 第7,8字节表示SPS的长度,0x00,0x1e,二进制为:0000 0000, 0001 1110,所以SPS长度为30。
  • 跳过30个字节,0x01,二进制为:0000 0001, 表示有1个PPS。
  • 后面的2个字节,0x00,0x04,二进制为:0000,0004,表示PPS的长度为4个字节。
NALU头的解析

NALU头是1字节,第一位F bit, 后两位NRI bit, 后五位表示NALU的type。

SPS的头是0x67,而进制为: 01100111,所以type值正好是7。 PPS的头是0x68,而进制为: 01101000,所以type值正好是8。

对比wireshark解析结果可以确认上面的理解正确,可见extradata就是6个字节的header加多个AVCC格式的NALU。

创建extradata

rtp解码时,需要手动生成extradata。创建AVCC格式的extradata

write(0x1);  // version
write(sps[0].data[1]); // profile
write(sps[0].data[2]); // compatibility
write(sps[0].data[3]); // level
write(0xFC | 3); // reserved (6 bits), NULA length size - 1 (2 bits)
write(0xE0 | 1); // reserved (3 bits), num of SPS (5 bits)
write_word(sps[0].size); // 2 bytes for length of SPS
for(size_t i=0 ; i < sps[0].size ; ++i)
  write(sps[0].data[i]); // data of SPS

write(&b, pps.size());  // num of PPS
for(size_t i=0 ; i < pps.size() ; ++i) {
  write_word(pps[i].size);  // 2 bytes for length of PPS
  for(size_t j=0 ; j < pps[i].size ; ++j)
    write(pps[i].data[j]);  // data of PPS
}

创建annexB格式的extradata

write(0x00)
write(0x00)
write(0x00)
write(0x01)
for each byte b in SPS
  write(b)

for each PPS p in PPS_array
  write(0x00)
  write(0x00)
  write(0x00)
  write(0x01)
  for each byte b in p
    write(b)

wireshark解析

从wiresshark对比用bsf和不用bsf的抓包发现,SEI包的内容没有变化,是不是可以不需要转成annexb,直接将PPS/SPS直接拷贝到packet中发出去呢?

参考

https://membrane.stream/learn/h264/3 https://github.com/cisco/openh264/issues/2501#issuecomment-231340268 https://stackoverflow.com/questions/17667002/how-to-add-sps-pps-read-from-mp4-file-information-to-every-idr-frame https://stackoverflow.com/questions/24884827/possible-locations-for-sequence-picture-parameter-sets-for-h-264-stream https://aviadr1.blogspot.com/2010/05/h264-extradata-partially-explained-for.html

ffmpeg notes

笔记本的笔记整理和誊抄

主要是关于ffmpeg的知识总结

FFmpeg

读法"F-F-M-派格", 由三个可执行文件组成"ffmpeg/ffplay/ffprobe"。

ffmpeg

  • 支持的容器 ffmpeg -muxers 分为Demuxing和Muxing(D/E)封装和解封装,支持Muxing肯定支持Demuxing。
  • 支持的编码 ffmpeg -codecs 分为解码和编码(decoder/encoder),支持编码一般能支持解码。
  • 容器帮助信息 ffmpeg -h muxer=mp4 ffmpeg -h demuxer=mp4 加上-h full查看更多信息
  • 编码帮助信息 ffmpeg -h encoder=h264 ffmpeg -h decoder=h264 加上-h full查看更多信息
  • 支持的滤镜 ffmpeg -filters 这里的滤镜不是PS等图片编辑软件里面的滤镜,而应该称做特效,支持视频和音频还有字幕。

当转码或转容器格式时,-map参数用来手动选择流,参数格式 -map n:m:x 其中n表示选择第n个输入,m代表第n个输入中的第m个流,而x表示第n个输入中的第m个流的第x个通道。当没有-map参数时,ffmpeg会根据容器类型自动选择合适的流。-map还能用来选择filtergraph中的滤镜输出。

filter 滤镜

分为 filtergraph filterchain 和 filter * filtergraph 是包含很多个filter的有向图,每两个滤镜之间都可以有多个连接。 * filter 分为source filter, sink filter, filter,其中source filter没有输入端,sink filter没有输出端。

多个filter用","来连接,形成filterchain,而多个chain用";"来连接,形成fitergraph。

简单滤镜格式参数格式 -f:v 或 -f:a [输入流或标记名]滤镜参数[临时标记名];(重复n个)。复杂滤镜格式 -filter_complex overlay滤镜用来设置显示层次,例如[overlay]filter 将输入显示在另一个上面。

加速

使用滤镜来加速播放

加速视频

使用setpts来加速视频 -f:v setpts=0.5*PTS, 注意:1调整范围[0.25,4],越小越快,从加速4倍到减速4倍。2若只是调整视频则将音频关掉。3对视频加速时,如果不想丢帧,则使用-r参数调整输出的FPS。

加速音频

最简单的方法是调整采样率,但这样会改变音色,一般使用对原音进行重采样。 -f:a atempo:2.0。范围 [0.5,2.0],若要4倍加速,使用滤镜组合 -f:a atempo=2.0,atempo=2

同时加速音频和视频

可以用 -filter_complex "[0:v]setpts=0.5*PTS[v];[0:a]atempo=2.0[a]" -map [v] -map [a] 。也可以组合使用上面的两个滤镜。

视频裁剪

-ss 选项seek,从开头跳过一段片长,参数两种形式 00:00:00或者秒数。-ss设置在输入对象和输出对象上有不同效果。 * -ss 指定在输入时,不仅可以用于复制,也可以用于转码。并且都是基于关键帧来寻找位置,默认启用选项“frame_accurate" * -ss 指定在输出时,源文件依旧会每帧都要解码并丢弃,知道跳过指定的时间所以要等待。但是-SS用在输出时,最大的优点是当使用滤镜时,其timestamp不会重置0,这个在录制字幕时有用,不需要修改字幕的时间戳。

在裁剪时有两个选项 frame_accurate_seek 和 -noaccurate_seek 区别, 后者会使用附近的关键帧。
-ss -t 与 -ss -to的区别,-ss 10 -t 20表示截取10s~30s的视频,而 -ss 10 -to 20 表示截取10s~20s的视频。

截取视频不准确问题: * 当使用-ss和-c:copy时,由于ffmpeg强制使用I帧,所以可能调整起始时间到负值,即提前于ss设置的时间 * 例如 -ss 157 但直到159时才有I帧,它会有2秒的时间只有声音没有画面。

编译问题
  • 编译ffmpeg支持h265, 因为h265库是用c++写的,所以编译ffmpeg时要加上额外库-lstdc++
  • 如果pc文件不在标准路径,需要修改环境变量export PKG_CONFIG_PATH=$PKG_CONFIG_PATH:"pc文件路径"
  • 如果链接到了动态库,可以使用enable-rpath设置运行时找库路径

ffplay 播放媒体文件

  • 在视频中插入字幕 ffplay -f:v "subtitle=input.srt" input.mp4
  • 音频可视化 ffplay -showmode 1 input.mp3 默认是0, 用傅立叶变换显示声音的频率频谱,处理时长差不多是1s。
  • 视频显示运动方向 ffplay -flags2 +export_mvs -vf codecview=mv=pf -i input.mp4

ffplay 指定视频显示大小,当播放原始视频时如input.h264,用-video_size来指定视频大小,而非设置播放器显示大小。如果要控制播放器显示大小用 scale/resize滤镜。

-s 选项,当用在输入选项时,可以替代video_size。当用在输出选项时,可以替代scale滤镜,但只能于filtergraph最后的filter,若想作用在filtergraph其它位置,则必须显示使用scale。

时间戳 PTS/DTS

PTS是显示时间戳, presentation timestamp 指表示渲染的时间点,而DTS是Decode timestamp,解码时间戳,表示解码时间点。因为视频的B帧要等待下一个I帧,所以B帧会先保存在缓冲区。 在ffplay和ffmpeg 播放/转码视频时,控制台显示了tbn,tbc,tbr, 这些都是timebase,也叫时间精度。每次处理后当前的时间戳会增加一个timebase。 * tbn: timebase of AVstream, 表示从容器中读取的timestamp的增加一次timebase。 * tbc: timebase of codec, 表示某个流的对应的编码采用的时间基,每次解码都增加一次timebase。 50tbc时,1S有50帧。 * tbr: 一帧的timebase,是预估值。

ffprobe 查看媒体文件信息

视频分析软件除了ffprobe还有 mp4info。

直播

视频直播技术里, HLS和DASH等分片技术比较流行。

rtp流

rtp是通信语音行业的常用协议,可以发送视频和语音之一,不可以同时发送视频和语音,语音也只支持单通道(对于PCM类型的语言而言,而rtp支持OPUS发送多通道)。rtp有多流同步机制,接收终端可以将多个rtp流合并,支持类似webrtc的会议模式,rtp也能支持5G的视频通话。

rtp的sdp

在建立rtp连接之前,两个终端要协商一个两边都支持的视频和语音编码,否则无法建立。 sdp则描述了ip/端口/媒体编码相关的信息,这些不能通过rtp协议来传送(in-band)。

clockrate 时钟频率

sdp中的a属性有clok

ffmpeg发送接收rtp

rtp对于ffmpeg而言是一种容器,与其它的mp4/avi类似,代码实现也同样在libavformat里。只是不同在于前着是写文件,rtp容器则是发送网络包。例如读取mp4文件并发送音频的命令ffmpeg -i input.mp4 -vn -ac 1 -f rtp rtp://ip:port-vn表示不发送视频,-ac 1表示合并音频多通道为单通道。

常见分辨率

640x480(480p)分辨率比4:3 1280x720(720p HD) 1920x1080(1080p FHD) 3840x2160(4k UHD)

h264

I/P/B 三种类型的帧: * I帧, Index frame, 是完整的一幅图片,不依赖其它帧就能解码显示。 * P帧, Delta frame, 是向前帧,依赖I帧来解码。只有运动的对象,而没有背景信息。 * B帧, Bidirectional pridict picture, B帧则依赖P帧和下一个I帧来解码I->P->B->I,最节省字节。 所以视频种的B帧越多,视频文件的体积越小,而解码的复杂度越高。

ffmpeg转码h264的命令,ffmpeg -i input.mp4 -av sample-rate -crf {17~23} -b:v video-bitrate -r frame-rate -profile {baseline|main|high} * -av 指定sample rate采样率 * -crf 指定视频质量 * -b:v video bitrate 视频的比特率 * -b:a audio bitrate 音频的比特率 * -r frame rate 指定帧率 * -profile 指定视频的档次 * -level 指定视频等级

使用baseline prfile时,不会包含B帧,当使用实时流媒体直播时,采用baseline编码相对main和high相对可靠,但加入B帧可以减小比特率。

视频格式P/I

p代表progressive代表逐行扫描,I代表interlaced 隔行扫描,但是一旦视频损坏时,视频几乎无法观看。

音视频同步

音频和视频都是独立的线程处理,主要通过各自PTS来同步,但实际上音视频大部分情况是不同步的,偶尔是同步的。当音频和视频时间误差超过阈值时,就会去重同步。重同步主要是调整视频,因为人眼对视频的敏感度不如对音频的敏感度。

ffmpeg播放h264时,限制比特率(bps,bit per second)

视频的比特率分为两个码率,CBR恒定比特率,VBR波动比特率。互联网视频多为VBR。如果想用CBR,-b:v 设置编码比特率,但这里设定的平均值,不能很好控制最大和最小码率。要控制最大最小比特率,需要组合使用 -b:v,maxrate,minrate。另外还要设置buff打小-bufsize。例如:

ffmpeg -i input.avi -bo 15M -minrate 0.5M -maxrate 0.5M -bufsize 1M out.mkv
bufsize 说明,如果不使用bufsize,其变化范围将比我们的预期大很多。当设置bufsize很大时浮动范围比较大,设置太小时,会导致视频质量降低。最合适的大小时-b:v的大小一半,然后逐渐增加bufsize,直到bitrate变化比较明显时,这是质量最高而且比较恒定的大小。

通过比特率来计算文件大小:

视频大小 = 比特率 * time_in_second / 8 未压缩音频大小 = 采样率 * 采样深度 * channel数 * time_in_second / 8 压缩音频文件大小 = 比特率 * time_in_second /8

图片

alpha 通道是RGB通道外的一个通道,用来表示像素的透明度,是另一个维度。 * 当使用16bit的位图时,对于每个像素5bit表示红,5bite表示绿,5表示蓝,最后一个bit表示alpha。所以这时只有1/0选择,所以只有透明和不透明的。 * 当使用32bit的位图时,8bit来表示alpha通道,就有0~255个值表示不同程度的透明。而alpha的值不直接表示透明度而是通过与RGB三个通道的值相乘,这样得道了显示的值。

高频洗劫低频轮廓 outline

在傅里叶边换中,用不同频率相位的正弦波,可以模拟出各种类型的信号。其中高频信号越高,还原效果越好。

Avframe 存储一帧解码后的像素数据,Avpacket 存储一帧压缩的数据。

音频pcm

  • 采样:是将音频模拟信号定时取值,得到一个离散序列。为了能将离散序列恢复成为模拟信号供播放器播放,采样频率要是声音频率的至少两倍。所以若要采样1k频率的声音,需要用2k采样率。
  • 采样深度:单个采样的储存长度。
  • 音频帧:单位时间里的多个采样。

数学

差分和微分 difference equation / differential equation

差分是离散,各个连续项之间不存在其它元素。例如1,2,3,4,5 不存在1.1,1.2,1.3。而微分是连续的,1和2之间可以有1.1,1.11,1.12,1.2等。总结是差分是微分的离散化。

信号和系统

离散傅里叶边换 DFT discret fourier transform,傅里叶变换出来的结果是复数=X+YI,I^2=-1。 谐波是什么,为何傅里叶变换要复数,因为表示波的方法要用到频率和相位还有振幅。 复数模等于振幅 e^(jwb) = cos(wb) + isin(wb)

波的表示方法: y=Asin(B(x+C)), A振幅,B频率,C相位。