Justme0 的博客

撷英采华,以备不需

机器学习模型评价指标整理

如何量化机器学习的模型性能?本文整理了机器学习模型性能度量指标,主要是我对这些指标的一些思考。这里说的“性能”指模型泛化(即预测)能力 performance,不是指在机器上运行消耗资源的多少。

1. recall & precision

最常见的指标有recall(召回率,查全率),precision(查准率)。“召回”一词来自制造业,比如某款汽车售卖到市场上后发现有安全问题需要回收,关心有没有把所有有问题的汽车都找到回收了,以及有没有误回收[1]。

另外还有准确率、精确率的叫法,各个地方翻译得不一样,中文的“博大精深”,在这里增加了不必要的麻烦,比如accuracy网络上大多称准确率,周志华《机器学习》书中称为“精度”,而网络上是将precision称为精确率。精确率、准确率本身也不够见名知义,本文将用英文单词叙述。我读研时是做程序静态分析的,用工具查找程序缺陷,在这个领域用的指标是漏报率(false negative rate)和误报率(false discovery rate,注意不叫 false positive rate),漏报率就是1-recall,误报率是1-precision,这两个名称能够见名知义。

维基百科上这张图总结得很全[2],红框中是常用的指标。

image.png

WebRTC 浏览器端如何抓取和解密 SRTP

WebRTC 默认使用加密协议 SRTP 传输数据,抓包时看不到明文,不便于排查问题。

一种方法是下载开发版浏览器关闭加密选项,需要通讯的对端支持;

另一种方法是打开浏览器的 debug 选项,dump SRTP 解密后的 RTP 数据,下面先介绍这种方法。

1. dump RTP 明文

以 Windows 为例,关闭所有浏览器实例后,cmd下使用下面的选项打开浏览器,浏览器路径换成你的。

"C:\Program Files\Google\Chrome\Application\chrome.exe" --enable-logging --v=1 --force-fieldtrials=WebRTC-Debugging-RtpDump/Enabled/

字符编码小结

记得几年前有次需要写个简单的脚本,开始用的Python碰到中文编码问题,而且Python2和3规则不同,折腾了之后改用Ruby分分钟就搞定了,感觉Ruby的开发效率更高,几乎没有“令人惊讶”的设计;Python以缩进表示层级有时也带来不便,其他语言可以用clang-format自动格式化,也能保持风格的一致。

Python在AI的生态很好,最近写这块程序碰到bytesstr转换时字符编码的问题,平常也时常碰到乱码的困惑,比如打开文件或者浏览网页乱码,尝试换一下编码就ok了,但是没有深究原理。这次彻底把字符编码弄清楚了。

下面说下常见的编码,ASCII, latin-1, Unicode, UTF-8(UTF-16/32),这几种在Python中常见。

WebRTC TURN 协议源码分析

WebRTC 是2011年谷歌开源的媒体框架,可以在浏览器中进行实时音视频通信,它是为P2P通信设计的,开发者也可以自己搭建服务器作为通信的一端。在下面这些网络条件限制严格的场景下不能直接建立通信,需要借助中转服务器TURN(Traversal Using Relays around NAT)转发。

  1. 一端是对称型NAT,另一端是端口限制锥形NAT或者也是对称型NAT,无法建立P2P。这个工具可以检测自己网络的NAT类型 https://github.com/aarant/pynat
  2. 对网络出口限制严格的环境,比如银行、政府单位,要求访问的外网IP地址需要加到其网关白名单。可以独立部署TURN服务器,将TURN的公网IP地址加到白名单。
  3. 对安全要求极端严格的防火墙,不允许UDP通信,甚至只允许TLS over 443端口的流量。(来源 https://security.stackexchange.com/a/196330

TURN 流程分析

协议分为三部分

  1. 在TURN服务器上创建传输资源,称为 allocation
  2. indication 方式传输数据
  3. channel 方式传输数据

要注意的是,这两种传输数据的方式是并列关系。三部分的流程时序图如下(可右键打开,放大查看文本格式),client参考WebRTC代码,server参考pion/turn代码。

【转】RTMP 协议规范

由于RTMP规范不在RFC官网上,为方便查看,转自 https://github.com/melpon/rfc/blob/master/rtmp.md,同 Adobe 官方标准 https://www.adobe.com/content/dam/acom/en/devnet/rtmp/pdf/rtmp_specification_1.0.pdf

Copyright Adobe Systems Incorporated                    H. Parmar, Ed.
                                                    M. Thornburgh, Ed.
                                                                 Adobe
                                                     December 21, 2012

Adobe’s Real Time Messaging Protocol

Abstract

This memo describes Adobe’s Real Time Messaging Protocol (RTMP), an application-level protocol designed for multiplexing and packetizing multimedia transport streams (such as audio, video, and interactive content) over a suitable transport protocol (such as TCP).

水垢

电水壶用了大半年,某天早晨起床后倒杯水,看到水中有一些杂质,开始以为是水质有问题,后来看了水壶中飘着一层薄膜状的东西,是烧水之后才出现的,水壶底和内壁上有一些刮痕状的东西,应该是水垢。回顾起中学化学的知识,查了一些资料,对水垢的来龙去脉做下记录,以后可以更好地处理生活上的问题。

水垢形成的主要过程

1, 空气中的$\ce{CO2}$与水结合形成$\ce{H2CO3}$,落到地面。

\[\ce{CO_2 +H_2O -> H_{2}CO_3}\]

建党100周年感想 —— 中国近现代史漫谈

今年是共产党建党一百周年,清明节去了趟毛主席纪念堂瞻仰伟人,献了三束白菊花,从毛主席侧边经过,过道大概离他两米距离,他安详地躺在玻璃水晶棺内,头发还是黑色的,身长比印象中小些。那会天安门广场就在紧锣密鼓地布置七一建党100周年纪念场地了。