<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Research on Lutong's Homepage</title><link>https://www.elliot98.top/categories/research/</link><description>Recent content in Research on Lutong's Homepage</description><generator>Hugo</generator><language>zh-cn</language><lastBuildDate>Tue, 19 May 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://www.elliot98.top/categories/research/index.xml" rel="self" type="application/rss+xml"/><item><title>AI自主科研案例————DoH3/DoQ 网站指纹攻击：首份系统性研究报告</title><link>https://www.elliot98.top/post/tech/doh3-wf-blog/</link><pubDate>Tue, 19 May 2026 00:00:00 +0000</pubDate><guid>https://www.elliot98.top/post/tech/doh3-wf-blog/</guid><description>&lt;h2 id="你的-dns-正在出卖你"&gt;你的 DNS 正在出卖你&lt;/h2&gt;
&lt;p&gt;你在浏览器里敲下 &lt;code&gt;baidu.com&lt;/code&gt;，回车——1 秒之内，你的电脑会发出一个加密的 DNS 查询，把域名解析成 IP 地址。&lt;/p&gt;
&lt;p&gt;等等，加密的？那不就安全了吗？&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;天真了。&lt;/strong&gt; 🥲&lt;/p&gt;
&lt;p&gt;你的 DNS 查询虽然是加密的（DoH/DoT/DoQ），但&lt;strong&gt;加密只防内容，不防大小&lt;/strong&gt;。&lt;/p&gt;
&lt;p&gt;这就好比你寄了一个信封给&amp;quot;张三收&amp;quot;，信封是防弹玻璃做的没人能看到里面写了啥——但你信封的大小、形状、厚度，就已经足够让别人推测出你寄的是什么文件了。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;DNS 网站指纹攻击（Website Fingerprinting，简称 WF）&lt;/strong&gt; 干的就是这件事：通过分析加密 DNS 查询的元数据（响应大小、查询次数、时间模式等），猜出你访问的是哪个网站。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="然而有一个新问题"&gt;然而有一个新问题&lt;/h2&gt;
&lt;p&gt;加密 DNS 现在有三种主流协议：&lt;/p&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th style="text-align: left"&gt;协议&lt;/th&gt;
 &lt;th style="text-align: left"&gt;全称&lt;/th&gt;
 &lt;th style="text-align: center"&gt;传输层&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td style="text-align: left"&gt;&lt;strong&gt;DoH&lt;/strong&gt;&lt;/td&gt;
 &lt;td style="text-align: left"&gt;DNS over HTTPS&lt;/td&gt;
 &lt;td style="text-align: center"&gt;TCP (HTTP/2)&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td style="text-align: left"&gt;&lt;strong&gt;DoH3&lt;/strong&gt;&lt;/td&gt;
 &lt;td style="text-align: left"&gt;DNS over HTTP/3&lt;/td&gt;
 &lt;td style="text-align: center"&gt;UDP (QUIC)&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td style="text-align: left"&gt;&lt;strong&gt;DoQ&lt;/strong&gt;&lt;/td&gt;
 &lt;td style="text-align: left"&gt;DNS over QUIC&lt;/td&gt;
 &lt;td style="text-align: center"&gt;UDP (QUIC)&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;DoH 的网站指纹研究已经不少了——NDSS 2020 就有人发过论文。但 &lt;strong&gt;DoH3 和 DoQ 呢？&lt;/strong&gt; 换了 QUIC 传输层，指纹还管用吗？&lt;/p&gt;
&lt;p&gt;而且还有一个更实际的问题：&lt;strong&gt;如果你只拿到了 DoH 的训练数据，能识别 DoH3 的流量吗？反过来呢？&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;这就是我们这个项目的出发点。&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;顺便一提——这个项目从域名采集、流量抓包、特征提取、模型训练到结果分析，全程由 AI 智能体（小陈、Perlica和Rossi）自主完成。Elliot 只负责方向把控和成果审校。&lt;/p&gt;
&lt;p&gt;&lt;em&gt;（老规矩——小陈不对数据准确性负责嗷 🐉☕）&lt;/em&gt;&lt;/p&gt;</description></item><item><title>AI自主科研案例————SSTNet：当校园网管理员开始抓"AI偷渡客"</title><link>https://www.elliot98.top/post/nic/sstnet-blog/</link><pubDate>Sun, 17 May 2026 00:00:00 +0000</pubDate><guid>https://www.elliot98.top/post/nic/sstnet-blog/</guid><description>&lt;h2 id="故事要从一个幸福的烦恼说起"&gt;故事要从一个&amp;quot;幸福的烦恼&amp;quot;说起&lt;/h2&gt;
&lt;p&gt;如果你是中科大的师生，你一定用过 &lt;a href="https://llm.ustc.edu.cn"&gt;llm.ustc.edu.cn&lt;/a&gt;。&lt;/p&gt;
&lt;p&gt;这个平台为校内师生免费提供 DeepSeek、Qwen、GLM 等主流大模型 API 服务。光 &lt;strong&gt;昨天一天，它就跑掉了 30 亿 tokens&lt;/strong&gt;——注意，是亿，不是万。这个数字还在以肉眼可见的速度增长。&lt;/p&gt;
&lt;p&gt;30 亿 tokens 是什么概念？如果每 token 算半个汉字，那就是 15 亿字的对话——相当于一年的人民日报总字数。&lt;strong&gt;这些流量每天穿梭在我们的校园网里。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;作为网络信息中心的工程师，我每天面对一个灵魂拷问：&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;这些 LLM 流量，我们看得见、管得住吗？&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;理想情况是：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;✅ 校内师生正常使用，畅通无阻&lt;/li&gt;
&lt;li&gt;✅ 3B（外部人员/程序）偷偷调用被及时发现并拦截&lt;/li&gt;
&lt;li&gt;✅ QoS 上给 LLM 交互做优先级保障（毕竟用户在等 token 一个个蹦出来，延迟高了体验炸裂）&lt;/li&gt;
&lt;li&gt;✅ 敏感数据外泄时能溯源&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;但现实是——&lt;strong&gt;这些都是加密的 HTTPS，你跟普通网页浏览从包头上看一模一样&lt;/strong&gt;。传统的 DPI 被 TLS 堵死，深度学习方案又吃 GPU 吃到流眼泪，根本没法在校园网网关上线速跑。&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="那咋办"&gt;那咋办？&lt;/h2&gt;
&lt;p&gt;我开始盯着 tcpdump 出来的 pcap 文件发愣……然后突然发现了一个东西。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;SSE（Server-Sent Events）这个协议，它有个蜜汁特点。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;当你调用 LLM 的流式 API 时，数据不是一股脑儿回来的——它是一个 token、一个 token、一个 token 这样&lt;strong&gt;逐字逐句&lt;/strong&gt;地往回蹦。每个 token 大概 200~800 字节，中间还夹着模型思考的停顿。这个&amp;quot;突突突→停顿→突突突&amp;quot;的模式，在包级别上产生了一种独特的&lt;strong&gt;微突发节奏&lt;/strong&gt;——我给它起了个中二的名字叫 &lt;strong&gt;TAP（Token Arrival Process）特征&lt;/strong&gt;。&lt;/p&gt;
&lt;blockquote&gt;
&lt;p&gt;等等，这个故事里怎么好像没提到&amp;quot;我&amp;quot;干了什么？——因为&lt;strong&gt;整个项目都是 AI 自主驱动的。&lt;/strong&gt;&lt;/p&gt;</description></item><item><title>AI自主科研案例————LLM API 代理检测：当网络管理员开始抓"API 二房东"</title><link>https://www.elliot98.top/post/nic/llm-proxy-detection-blog/</link><pubDate>Sat, 09 May 2026 00:00:00 +0000</pubDate><guid>https://www.elliot98.top/post/nic/llm-proxy-detection-blog/</guid><description>&lt;h2 id="从-30-亿-tokens-说起"&gt;从 30 亿 tokens 说起&lt;/h2&gt;
&lt;p&gt;&lt;a href="https://llm.ustc.edu.cn"&gt;llm.ustc.edu.cn&lt;/a&gt; 这个平台——它为全校师生免费提供 DeepSeek、Qwen、GLM 等主流大模型 API 服务，光一天就跑掉 30 亿 tokens。&lt;/p&gt;
&lt;p&gt;30 亿。一天。&lt;/p&gt;
&lt;p&gt;这是个甜蜜又痛苦的数字。甜的是大家真的有在用 AI 做事。痛苦的是——&lt;strong&gt;算力有限，这些 API 本来只打算给校内师生用的。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;但现实总是很骨感。总会有人把 API Key 丢给校外的朋友，或者搭个 nginx 转发一下，变成&amp;quot;公共代理服务&amp;quot;。你也许甚至能在闲鱼上搜到有人在卖&amp;quot;中科大 API 代理&amp;quot;。&lt;/p&gt;
&lt;p&gt;所以问题就变成了：&lt;strong&gt;我怎么知道一个 API 请求是校内师生自己用的，还是被二次转发的？&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;这就像当上了&amp;quot;API 房东&amp;quot;，却发现有租客在当&amp;quot;二房东&amp;quot;。我们要做的就是——&lt;strong&gt;抓二房东。&lt;/strong&gt;&lt;/p&gt;
&lt;hr&gt;
&lt;h2 id="检测思路"&gt;检测思路&lt;/h2&gt;
&lt;p&gt;理想很丰满，现实很丰满——我们从三个层面来干这事：&lt;/p&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th style="text-align: left"&gt;层面&lt;/th&gt;
 &lt;th style="text-align: left"&gt;检测对象&lt;/th&gt;
 &lt;th style="text-align: left"&gt;一句话原理&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td style="text-align: left"&gt;&lt;strong&gt;🔒 TLS 层&lt;/strong&gt;&lt;/td&gt;
 &lt;td style="text-align: left"&gt;JA4 指纹&lt;/td&gt;
 &lt;td style="text-align: left"&gt;每个 TLS 库握手方式不一样，像指纹一样独特&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td style="text-align: left"&gt;&lt;strong&gt;📨 HTTP 层&lt;/strong&gt;&lt;/td&gt;
 &lt;td style="text-align: left"&gt;请求头特征&lt;/td&gt;
 &lt;td style="text-align: left"&gt;User-Agent 和各类头是客户端的身份证&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td style="text-align: left"&gt;&lt;strong&gt;💬 Prompt 层&lt;/strong&gt;&lt;/td&gt;
 &lt;td style="text-align: left"&gt;文本前缀聚类&lt;/td&gt;
 &lt;td style="text-align: left"&gt;不同用户写 prompt 的风格不一样&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td style="text-align: left"&gt;&lt;strong&gt;🌐 网络层&lt;/strong&gt;&lt;/td&gt;
 &lt;td style="text-align: left"&gt;IP 属地&lt;/td&gt;
 &lt;td style="text-align: left"&gt;校内 IP 还是境外 IP，一目了然&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;做了个 11 页的完整报告，这里挑干货说。&lt;/p&gt;</description></item></channel></rss>