大模型 ASR 语音识别过程分析

Apr 16, 2026

Qwen3 在2026年初开源了ASR语音识别模型，据官方称是state-of-the-art效果，引起Redis作者antirez的注意，他用C语言重写了语音识别推理的代码[1]，这个项目第三方依赖很少，通过它可以方便地理解大模型语音识别的过程。

下面是在CPU上测试一段12.76s的音频文件离线识别的耗时分布，可以大致了解各阶段的消耗占比。

Phase	Time	%
Tokenizer load (vocab.json)	76ms	1.4%
Mel spectrogram (1276 frames)	30ms	0.5%
Encoder (166 tokens)	2370ms	42.6%
Prefill (181 tokens into KV cache)	2352ms	42.2%
Decode (21 tokens, 34.3ms/tok)	720ms	12.9%
Overhead	~20ms	0.4%

Real-time factor: 5.57s / 12.76s = 0.44

涉及代码中的主要函数

qwen_transcribe_audio
  transcribe_segment
    qwen_mel_spectrogram
    qwen_encoder_forward
    qwen_decoder_prefill
    qwen_decoder_forward

source: https://sourcegraph.com/r/github.com/antirez/qwen-asr@main/-/blob/qwen_asr.c?L590

下面将介绍以上运行过程，标题后面的百分比是耗时占比，有的细节没有展开说，只记录了要点，主要是我的笔记，重点讲解大模型 Transformer 架构。

1. 音频预处理(PCM变换为频谱) 1%

过程：预加重、分帧、加窗；短时FFT；Mel滤波。

分帧：每帧25ms，为防止割裂保持平滑性，取帧时与前后帧边界重叠，窗口每次移动10ms，所以 100 frames/s。

机器学习模型评价指标整理

May 14, 2025

如何量化机器学习的模型性能？本文整理了机器学习模型性能度量指标，主要是我对这些指标的一些思考。这里说的“性能”指模型泛化（即预测）能力 performance，不是指在机器上运行消耗资源的多少。

1. recall & precision

最常见的指标有recall（召回率，查全率），precision（查准率）。“召回”一词来自制造业，比如某款汽车售卖到市场上后发现有安全问题需要回收，关心有没有把所有有问题的汽车都找到回收了，以及有没有误回收[1]。

另外还有准确率、精确率的叫法，各个地方翻译得不一样，中文的“博大精深”，在这里增加了不必要的麻烦，比如accuracy网络上大多称准确率，周志华《机器学习》书中称为“精度”，而网络上是将precision称为精确率。精确率、准确率本身也不够见名知义，本文将用英文单词叙述。我读研时是做程序静态分析的，用工具查找程序缺陷，在这个领域用的指标是漏报率（false negative rate）和误报率（false discovery rate，注意不叫 false positive rate），漏报率就是1-recall，误报率是1-precision，这两个名称能够见名知义。

维基百科上这张图总结得很全[2]，红框中是常用的指标。

WebRTC 浏览器端如何抓取和解密 SRTP

Jun 27, 2024

WebRTC 默认使用加密协议 SRTP 传输数据，抓包时看不到明文，不便于排查问题。

一种方法是下载开发版浏览器关闭加密选项，需要通讯的对端支持；

另一种方法是打开浏览器的 debug 选项，dump SRTP 解密后的 RTP 数据，下面先介绍这种方法。

1. dump RTP 明文

以 Windows 为例，关闭所有浏览器实例后，cmd下使用下面的选项打开浏览器，浏览器路径换成你的。

"C:\Program Files\Google\Chrome\Application\chrome.exe" --enable-logging --v=1 --force-fieldtrials=WebRTC-Debugging-RtpDump/Enabled/

其他平台打开日志的方法类似，详见 https://support.google.com/chrome/a/answer/6271282#zippy=%2Cwindows%2Cmac%2Clinux （移动平台待补充），Windows上的日志路径是 %LOCALAPPDATA%\Google\Chrome\User Data，也可以使用环境变量 CHROME_LOG_FILE 或选项例如 --log-file="C:\\tmp\\testchrome.log" 指定。Windows上cmd和PowerShell语法不同，上面的命令是在cmd下运行的。
打开试验性选项RTP dump （来源 https://source.chromium.org/chromium/chromium/src/+/main:third_party/webrtc/g3doc/field-trials.md ，浏览器所有选项文档 https://peter.sh/experiments/chromium-command-line-switches/ ）。

字符编码小结

Jun 3, 2023

记得几年前有次需要写个简单的脚本，开始用的Python碰到中文编码问题，而且Python2和3规则不同，折腾了之后改用Ruby分分钟就搞定了，感觉Ruby的开发效率更高，几乎没有“令人惊讶”的设计；Python以缩进表示层级有时也带来不便，其他语言可以用clang-format自动格式化，也能保持风格的一致。

Python在AI的生态很好，最近写这块程序碰到bytes和str转换时字符编码的问题，平常也时常碰到乱码的困惑，比如打开文件或者浏览网页乱码，尝试换一下编码就ok了，但是没有深究原理。这次彻底把字符编码弄清楚了。

下面说下常见的编码，ASCII, latin-1, Unicode, UTF-8(UTF-16/32)，这几种在Python中常见。

WebRTC TURN 协议源码分析

Mar 6, 2023

WebRTC 是2011年谷歌开源的媒体框架，可以在浏览器中进行实时音视频通信，它是为P2P通信设计的，开发者也可以自己搭建服务器作为通信的一端。在下面这些网络条件限制严格的场景下不能直接建立通信，需要借助中转服务器TURN（Traversal Using Relays around NAT）转发。

一端是对称型NAT，另一端是端口限制锥形NAT或者也是对称型NAT，无法建立P2P。这个工具可以检测自己网络的NAT类型 https://github.com/aarant/pynat
对网络出口限制严格的环境，比如银行、政府单位，要求访问的外网IP地址需要加到其网关白名单。可以独立部署TURN服务器，将TURN的公网IP地址加到白名单。
对安全要求极端严格的防火墙，不允许UDP通信，甚至只允许TLS over 443端口的流量。（来源 https://security.stackexchange.com/a/196330 ）

TURN 流程分析

协议分为三部分

在TURN服务器上创建传输资源，称为 allocation
indication 方式传输数据
channel 方式传输数据

要注意的是，这两种传输数据的方式是并列关系。三部分的流程时序图如下（可右键打开，放大查看文本格式），client参考WebRTC代码，server参考pion/turn代码。

【转】RTMP 协议规范

Nov 29, 2021

由于RTMP规范不在RFC官网上，为方便查看，转自 https://github.com/melpon/rfc/blob/master/rtmp.md，同 Adobe 官方标准 https://www.adobe.com/content/dam/acom/en/devnet/rtmp/pdf/rtmp_specification_1.0.pdf

Copyright Adobe Systems Incorporated                    H. Parmar, Ed.
                                                    M. Thornburgh, Ed.
                                                                 Adobe
                                                     December 21, 2012

Adobe’s Real Time Messaging Protocol

Abstract

This memo describes Adobe’s Real Time Messaging Protocol (RTMP), an application-level protocol designed for multiplexing and packetizing multimedia transport streams (such as audio, video, and interactive content) over a suitable transport protocol (such as TCP).

水垢

Sep 20, 2021

电水壶用了大半年，某天早晨起床后倒杯水，看到水中有一些杂质，开始以为是水质有问题，后来看了水壶中飘着一层薄膜状的东西，是烧水之后才出现的，水壶底和内壁上有一些刮痕状的东西，应该是水垢。回顾起中学化学的知识，查了一些资料，对水垢的来龙去脉做下记录，以后可以更好地处理生活上的问题。

水垢形成的主要过程

1, 空气中的$\ce{CO2}$与水结合形成$\ce{H2CO3}$，落到地面。

\[\ce{CO_2 +H_2O -> H_{2}CO_3}\]

Justme0 的博客

撷英采华，以备不需