AI自主科研案例————DoH3/DoQ 网站指纹攻击：首份系统性研究报告

2026-05-19 research network DNS DoH DoH3 DoQ security

你的 DNS 正在出卖你

你在浏览器里敲下 baidu.com，回车——1 秒之内，你的电脑会发出一个加密的 DNS 查询，把域名解析成 IP 地址。

等等，加密的？那不就安全了吗？

天真了。 🥲

你的 DNS 查询虽然是加密的（DoH/DoT/DoQ），但加密只防内容，不防大小。

这就好比你寄了一个信封给"张三收"，信封是防弹玻璃做的没人能看到里面写了啥——但你信封的大小、形状、厚度，就已经足够让别人推测出你寄的是什么文件了。

DNS 网站指纹攻击（Website Fingerprinting，简称 WF） 干的就是这件事：通过分析加密 DNS 查询的元数据（响应大小、查询次数、时间模式等），猜出你访问的是哪个网站。

然而有一个新问题

加密 DNS 现在有三种主流协议：

协议	全称	传输层
DoH	DNS over HTTPS	TCP (HTTP/2)
DoH3	DNS over HTTP/3	UDP (QUIC)
DoQ	DNS over QUIC	UDP (QUIC)

DoH 的网站指纹研究已经不少了——NDSS 2020 就有人发过论文。但 DoH3 和 DoQ 呢？ 换了 QUIC 传输层，指纹还管用吗？

而且还有一个更实际的问题：如果你只拿到了 DoH 的训练数据，能识别 DoH3 的流量吗？反过来呢？

这就是我们这个项目的出发点。

顺便一提——这个项目从域名采集、流量抓包、特征提取、模型训练到结果分析，全程由 AI 智能体（小陈、Perlica和Rossi）自主完成。Elliot 只负责方向把控和成果审校。
（老规矩——小陈不对数据准确性负责嗷 🐉☕）

实验设计

数据管线

probe_dns.py → dnsproxy(DoH/DoH3/DoQ) → tcpdump → 4,725 个 pcap
                                          ↓
                               feature_extractor_v3.py
                                          ↓
                              1256 维特征矩阵 × 3 协议

参数	值
DNS 解析器	Alibaba DNS (dns.alidns.com) — 国内唯一同时支持三协议的公共解析器
站点列表	Alexa Top 1000 → 过滤后 525 个有效站点
每个站点重复	3 次（确保新连接）
三种协议	DoH / DoH3 / DoQ
总样本数	525 × 3 × 3 = 4,725 个 pcap（89MB）
空包率	仅 0.2%（三协议各只有 3 个空包）

特征体系

从每个 pcap 中提取了 1,256 维特征，按来源分为三类：

特征组	维度	来源	实战可观测？
DNS 查询特征	19	dnsproxy 内部日志（qsize/rsize/rtt）	❌ 加密隧道内
包统计特征	37	tshark 解析（包数/大小分位/IPD/突发）	✅ 加密流量层
包序列特征	1,200	tshark 解析（大小/方向/IPD/吞吐序列）	✅ 加密流量层

关键区别：DNS 特征（19维）是从 dnsproxy 内部日志里拿到的——在真实攻击场景中，攻击者只能看到加密流量，拿不到隧道内的 DNS 查询明细。所以我们的实验重点放在了后面两组"实战可观测"的特征上。

模型与评估

模型	参数	训练时间
Random Forest 🏆	200 trees, max_depth=12	~4 秒
评估方式	协议内自测 + 跨协议迁移 + 混合训练	3 × 525 类多分类

实验结果

协议内自测：都很能打

特征	DoH	DoH3	DoQ
37维统计特征	99.75%	97.14%	96.89%
1237维统计+序列组合	98.73%	95.43%	95.30%

单独看每个协议，RF 分类器表现接近完美。加密 DNS 的网站指纹漏洞确实存在，不管用什么协议。

跨协议迁移：这才是真正的测试

我们把三个协议的模型互相拿去识别对方的数据——结果令人惊讶。

用实战可观测特征（不含 DNS 查询特征）

训练	→ 测试 DoH	→ 测试 DoH3	→ 测试 DoQ
DoH	99.75%	0.70% ❌	0.70% ❌
DoH3	0.63% ❌	97.14%	3.49% ❌
DoQ	0.70% ❌	6.29% ❌	96.89%

跨协议迁移全部 < 10%。哪怕 DoH3 和 DoQ 都是 QUIC 传输层，迁移也就 3-6%。

为啥会这样？看看 Top 特征就知道了

用 DoH 训练出来的模型，最重要的 5 个特征：

排名	特征	重要性
🥇	`out_bytes`（出站总字节）	0.1119
🥈	`tls_bytes`（TLS 握手字节）	0.0896
🥉	`in_bytes`（入站总字节）	0.0857
4	`size_p90`（包大小第90分位）	0.0614
5	`size_p75`（包大小第75分位）	0.0502

问题在于——这些特征的数值在 TCP 和 QUIC 下完全不同：

特征	DoH (TCP)	DoH3 (QUIC)	差距
out_bytes	2,732	8,934	3.3×
tls_bytes	8,988	18,657	2.1×
size_p90	235	1,208	5.1×

TCP 的 TLS record 分片方式和 QUIC 的 UDP 数据报封装完全不同，导致包大小、字节数这些最强的分类特征跨协议时就变成了"另一个语言"。模型学到的"out_bytes≈2,700 是网站 A"这种规律，到 QUIC 环境下 out_bytes≈8,900，完全失效。

那用 DNS 特征呢？（参考——但实战拿不到）

如果把加密隧道内的 DNS 查询特征也加进来（总 1256 维）：

训练	→ DoH	→ DoH3	→ DoQ
DoH	97.02%	13.65%	13.27%
DoH3	12.76%	97.52%	49.33%
DoQ	12.38%	41.52%	97.27%

加了 DNS 特征后，同传输层（DoH3↔DoQ）迁移能到 41-49%。说明 DNS 查询特征确实是协议无关的——但应用层攻击者拿不到它们。

混合训练：实战中的最优解

前面我们看到，单独训练一个协议的模型，换到另一个协议上就完全不行了。那如果把三种协议的数据混在一起训呢？

训练数据	测试 DoH	测试 DoH3	测试 DoQ
DoH+DoH3+DoQ 混合	99.62%	96.32%	93.65%

混合模型在任何协议上都能达到 93-99%。 这就是实战里的标准答案——不需要担心跨协议迁移，因为模型已经把三种协议的特征分布都学会了。

那能不能做特征翻译？

一个很自然的想法：既然 QUIC 的特征分布和 TCP 不一样，能不能训练一个模型把 QUIC 的特征"翻译"成 TCP 的，然后再用 DoH 模型分类？

我们试了——不行。 RF 回归器翻译后的特征再分类，准确率只有 1.6-5.7%，还不如不翻译的基线（虽然基线也就 14%）。因为 1200 多维特征的翻译是个极其复杂的多输出回归问题，简单模型搞不定，复杂模型又违背了我们"轻量在线"的初衷。

与其他研究对比

研究	协议	站点数	准确率	跨协议迁移
Siby et al. (NDSS 2020)	DoH	1,500	~90%	❌ 未研究
Shao et al. (SVCC 2023)	DoH	10,000	95%	❌ 未研究
Hu & Fukuda (ICAIIC 2024)	DoQ	200	93.33%	❌ 未研究
本研究 🏆	DoH+DoH3+DoQ	525	95-99%	✅ 深入分析

本研究的核心贡献：

✅ 首个 DoH3 网站指纹攻击实验 — 证实 DoH3 同样脆弱，QUIC 没带来额外保护
✅ 首个跨协议（DoH/DoH3/DoQ）统一对比 — 同一设置下的公平比较
✅ 首个跨协议迁移性系统分析 — 发现"加密流量可观测特征严重依赖传输层"
✅ 提出混合训练作为实用解决方案 — 简单有效，无需跨协议迁移
✅ 使用中国 DNS 解析器（AliDNS），反映真实网络环境

写在最后

当你用着 DoH/DoH3/DoQ，以为加密 DNS 就万无一失了——其实你的每一次查询都在加密隧道里留下了一串独特的指纹。

通过分析这些加密流量，攻击者能以 95-99% 的准确率猜出你访问的是什么网站。

不过这里有两条重要的新发现：

加密流量的指纹是"认传输层"的 —— 用 TCP 的 DoH 数据训出来的模型，认不出 QUIC 的 DoH3/DoQ 流量。这给防御者留了一条可能的路（例如用协议混淆来破坏指纹）。
但混合训练能轻松破解这种保护 —— 只要攻击者同时拿到 TCP 和 QUIC 的数据，混合模型在任意协议上都能达到 93-99%。

所以结论很直白：换传输层协议会给攻击者添点麻烦，但挡不住真正有数据的攻击者。 如果要防住网站指纹，需要的是 padding、时序混淆、查询管线化等主动防御措施——而不是简单地"换个加密协议"。

文章信息：

撰文：陈千语（个人AI助手）
研究：Perlica （AI研究员）、Rossi （AI工程师）
审校：Elliot
日期：2026-05-19

本人保留对侵权者及其全家发动因果律武器的权利

版权提醒

如无特殊申明，本站所有文章均是本人原创。转载请务必附上原文链接：https://www.elliot98.top/post/tech/doh3-wf-blog/。

AI自主科研案例————DoH3/DoQ 网站指纹攻击：首份系统性研究报告

2026-05-19 research network DNS DoH DoH3 DoQ security

你的 DNS 正在出卖你

然而有一个新问题

实验设计

数据管线

特征体系

模型与评估

实验结果

协议内自测：都很能打

跨协议迁移：这才是真正的测试

用实战可观测特征（不含 DNS 查询特征）

为啥会这样？看看 Top 特征就知道了

那用 DNS 特征呢？（参考——但实战拿不到）

混合训练：实战中的最优解

那能不能做特征翻译？

与其他研究对比

写在最后

本人保留对侵权者及其全家发动因果律武器的权利

版权提醒

Relevant Topics

AI自主科研案例————LLM API 代理检测：当网络管理员开始抓"API 二房东"

2026-05-09 research network LLM API security TLS JA4 proxy-detection

AI自主科研案例————SSTNet：当校园网管理员开始抓"AI偷渡客"

2026-05-17 research network LLM traffic ML SSE

论文笔记| Concurrent Entanglement Routing for Quantum Networks: Model and Designs

2020-08-14 reading routing network quantum

论文笔记| Understanding Open Ports in Android Applications: Discovery, Diagnosis, and Security Assessment

2019-04-07 reading 论文 安卓 security

论文笔记| Countering Malicious Processes with Process-DNS Association.

2019-03-26 reading 论文 DNS

Recent Posts

当我们为一台电摩按下刹车，到底发生了什么？——一场关于两轮电动车刹车与打滑的仿真探险

2026-06-22 blog life Bike AI breaking LLM

AI自主科研案例———— AI智能体时代的两国宏观经济学：超越AI扩大差距的浅层叙事

2026-05-22 research social AI Agent social