国	ALLOW	BLOCK
US	245,979	-
VN	149,191	-
CN	-	54,830 (geo-block-cn ヒット)
JP	30,750	-
HK	27,766	-
ID	19,535	-
DE	18,810	-
IN	18,169	-
SG	-	17,034 (geo-block-sg ヒット)
BR	16,350	-

host	uri	国	reqs (3h)
ld.example.jp	/sparql	VN	89,437
ld.example.jp	/snorql/	US	32,850
ld.example.jp	/sparql	US	23,350
ld.example.jp	/snorql/	VN	23,518
ld.example.jp	/sparql	HK	16,302
ld.example.jp	/snorql/	HK	4,116
ld.example.jp	/sparql	ID	9,354
ld.example.jp	/snorql/	ID	2,765

戦略	効果	副作用
個別 Geo Block を国数増やす	△ 永続的に追いかけ続ける	運用コスト
AWS WAF Bot Control (managed, 有料)	◎ 自動	$100+/月、誤検知のチューニング
Linked Data endpoint だけ閉じる	△ メイン site に pivot される	限定的
default-deny + 先進国 allowlist	◎ 未来の pivot に強い	許可外国の正規ユーザーが弾かれる

ASN	組織
AS132203	Tencent Cloud (international 向け、RIPE 登録は中国法人)
AS133478	Tencent Cloud Computing (Beijing)（本土寄り、IPv6 は Singapore 含む）
AS45090	Tencent China (本土)
AS45102	Alibaba (international)
AS37963	Alibaba China（一部 Singapore prefix 含む）

ASN	RIPE 上の announced prefix
AS132203 (Tencent)	1,547 件
AS133478 (Tencent)	8 件
AS45102 (Alibaba)	514 件

確度	クラウド	ASN	理由
高	Hetzner (DE)	AS24940	欧州最安、DE は allowlist 内
高	OVH (FR)	AS16276	同上
中	DigitalOcean (US)	AS14061	US allowlist 内、$5/月 droplet
中	Vultr (US/DE/多リージョン)	AS20473	即時デプロイ、安価、scraping 常連
中	Oracle Cloud	AS31898	無料枠悪用、scraping 専用に近い
低	Akamai Connected Cloud (旧 Linode)	AS63949	AP 中心、グローバル分散

ASN	集約後 prefix 数
Tencent (AS132203 + AS133478)	~340
Alibaba (AS45102)	~5
Oracle Cloud (AS31898)	~200
Vultr (AS20473)	~1,500 (多リージョンで /24 細分化が多い)
単独 IP (元からある scraper)	3
合計	2,058

Priority	Rule	Action
0	geo-allowlist (NOT in 45 countries)	Block
5	block-aggressive-scrapers (IPSet, Tencent + Alibaba CIDRs)	Block
6	block-attacker-ja3 (JA3 fingerprint)	Block
7	block-bot-uas (UA regex)	Block
10	AWSManagedRulesCommonRuleSet	Count override 一部
20	AWSManagedRulesKnownBadInputsRuleSet	Block
30	AWSManagedRulesAmazonIpReputationList	Block
100	rate-limit-per-ip (5,000/5min)	Block

プラン	対 bot 機能
Free	Bot Fight Mode (basic) — クラウドホスト由来の単純な bot や headless browser に挑戦を発行
Pro	Super Bot Fight Mode — ML スコアで自動 bot を弾く、verified bot (Googlebot/Bingbot) は維持
Business	Super Bot Fight Mode（sophisticated bot 検知を含む高度版）
Enterprise	Full Bot Management、JA4 fingerprint、ASN scoring、custom rules

観点	AWS WAF (現行)	Cloudflare Pro
月額目安 (今回規模)	基本的な WAF 料金のみ	Pro プラン料金（公式参照）
Tencent/Alibaba 対処	自分で IPSet 構築 (今日やった)	デフォルトで効く
細かい挙動制御	完全に手動 (CIDR / Country / UA / JA3 / rate)	Pro は ML 任せ、Business 以上で custom rule
WAF + CDN 統合	CloudFront との結合度高い	Cloudflare 自身が CDN
移行コスト	-	DNS 切替、SSL 再構成、origin protection 設計、既存 IPSet/WebACL の捨て、CloudFront 関連の rewrite
管理 UI の透明性	全 rule が見える	"Bot Fight Mode" のスコアリングは block-box

ASN	RADB	RIPE Stat
AS132203 (Tencent)	15,047 件	1,547 件
AS133478 (Tencent)	543 件	8 件
AS45102 (Alibaba)	50,955 件	514 件

TL;DR

前回からの 1 週間

GA4 リアルタイムでの兆候

WAF ログで詳細を確認 — GA4 の 100 倍の規模

標的の特定: 攻撃の正体は LOD のメタデータ全件吸い取り

発信元の 3 パターン

(1) HK: Tencent Cloud HK のクラウド IP 集中型

(2) VN: 完全分散 residential 型

(3) ID: Telkom Indonesia の単一 /16

場当たり Geo Block の限界

default-deny + 45 カ国 allowlist への切り替え

WAF rule の構造

適用ハマりどころ

残った課題: allowlist 内の "クラウド IP" 経由

Tencent / Alibaba CIDR を IPSet に追加 — でも漏れた

学び: 観測ベース IPSet は構造的に漏れる

ASN-based pull が正解

Oracle Cloud + Vultr の予防追加 (96% 防御へ)

適用後の IPSet

「これで完全？」 — いや、構造的に無理

残る穴

1. 他クラウド事業者

2. ASN の新規取得

3. Residential proxy 業者

4. 未来の新興クラウド

完全性のスペクトル

適用後の Web ACL 構成

余談: Cloudflare ならデフォルトで弾けたのか

Cloudflare の bot 対策階層

それでも AWS から Cloudflare に乗り換えるべきか?

結論: 「Cloudflare ならデフォルト」は半分正解、半分嘘

ちなみに有償 AWS WAF Bot Control はどうか

反省: スクレイパーは「行儀の悪さ」を選んでいる

我々ができる「行儀の良い対応」

学び (前回の追補)

1. 「Block で止まった」は短期記憶。pivot を必ず警戒する

2. WAF メトリクスと GA4 は両方必要

3. 個別 Block の限界と default-deny への切り替え判断

4. 「観測 IP を IPSet に手で列挙する」は構造的に漏れる

5. allowlist にも漏れはある — クラウド IP 経由 + 商用 proxy

6. LOD endpoint は守りより「正しい代替路の提供」

まとめ

付録 A: WAF ログの調べ方 (Logs Insights クエリ集)

国別 Allowed/Blocked 一覧

特定国の中身

/sparql の発信元

Block 発火ルールの内訳

付録 B: ASN announced prefix の取得

⚠️ ソース選択が重要 — RADB ではなく RIPE Stat を使う

集約

Python で aggregate

付録 C: WAF IPSet の更新コマンド

関連記事

ボットスクレイピングをAWS WAFで止めた記録 — Geo block・JA3 fingerprint・UA blockまで段階的に

外部組織管理のサブドメインを Cloudflare Workers に向ける — AWS CloudFront + WAF を前段に挟んだ記録

既存リバースプロキシのオリジンに CloudFront + WAF を後付けする実践パターン

コメント