WebPitaの「Google系AIのWeb訪問判別方法」
Googleは、AI用途専用の完全な識別情報を公開していません。
そのため、Google系AIアクセスの判定には一定の誤差が含まれます。
WebPitaでは、Google公式IPレンジ、User-Agent、Refererを組み合わせ、AI関連アクセス群として分類しています。
また、観測対象ログは、HTTPステータスが(200,206,304)であり、拡張子がhtml、php、pdfのファイル、及びフォルダへのアクセスに限定しています。
1.User-Agentのみで判定しない理由
WebPitaでは、Google系AI User-Agentに一致したアクセスであっても、その全てをAI関連アクセスとして扱っているわけではありません。
実際の観測では、Google系AI User-Agentに一致し、HTTPステータスやURI条件を満たしたアクセスであっても、WebPitaの判定条件を通過する件数は53.6%〜69.4%となったケースが確認されています。
これは、User-AgentのみでAIアクセスと断定せず、Google公式IPレンジ、Referer、アクセス対象ファイル、接続挙動などを組み合わせて、AI関連アクセスの可能性が高いものだけを分類しているためです。
このようにWebPitaでは、単純なUser-Agent一致ではなく、複数条件による絞り込みを行うことで、偽装アクセスやAI関連性の低いアクセスを除外しています。
・WebPitaの「Google系AIのWeb訪問判別方法」で判別した結果
以下は、WebPitaが実際のWebアクセスログに対してGoogle系AI User-Agent判定を行った結果です。
The following are the results of WebPita's Google AI User-Agent analysis applied to actual web access logs.
| site | 観測期間 Observation Period |
観測対象ログ件数 Total Target Logs |
Google系AI UA一致のログ件数 Google AI UA Matched Logs |
判定通過数件数 Verified AI Accesse |
% |
|---|---|---|---|---|---|
| A(法人サイト) | 2026-05-05 - 2026-05-13 | 3,062 | 599 | 321 | 53.6% |
| B(写真投稿サイト) | 2026-05-05 - 2026-05-13 | 2,406 | 294 | 204 | 69.4% |
English Summary
WebPita's Methodology for Verifying Google AI Web Visits
Since Google does not publish a fully dedicated, definitive identification dataset exclusively for AI-related traffic, determining genuine AI crawler access inherently involves a certain margin of error. To overcome this, WebPita filters and classifies AI-related traffic by cross-referencing three key data points: Google Official IP Ranges, User-Agent (UA) strings, and Referer headers.
Furthermore, to ensure data integrity, the target logs for this observation are strictly limited to successful page views—specifically HTTP statuses 200, 206, and 304, for files with .html, .php, or .pdf extensions, as well as directory URLs.
1. Why User-Agent Alone is Insufficient
WebPita does not classify an access as an AI visit based solely on a matching Google AI User-Agent. In actual observations, even when an access matches a Google AI UA and satisfies the specific HTTP status and URI criteria, the percentage of requests that successfully pass WebPita's comprehensive verification conditions was found to range from 53.6% to 69.4%.
This indicates that relying solely on User-Agent strings is insufficient to confirm genuine AI access. By combining UA criteria with Google’s official IP ranges, referers, target file types, and connection behavior, WebPita effectively isolates high-probability AI-related traffic while eliminating spoofed requests and low-relevance non-AI access.
2.User-AgentとGoogle公式IPレンジの組み合わせによる判定
WebPitaでは、以下のUser-AgentとGoogle公式IPレンジ分類の組み合わせを、AI関連アクセスとして1次分類しています。
| User-Agent | 判定対象のGoogle公式IPレンジ Target Google Official IP Ranges |
|---|---|
| Google Web Preview | Google Public IP Ranges User-initiated Fetchers |
| google-agent | GoogleProducer Google Public IP Ranges User-triggered Fetchers Google User-triggered Agents |
| Gemini | GoogleProducer Google Public IP Ranges User-triggered Fetchers Google User-triggered Agents |
| google-lens | Google Public IP Ranges User-initiated Fetchers User-triggered Fetchers Google |
| GoogleOther | Google Public IP Ranges User-triggered Fetchers Google |
| GoogleOther-Image | Google Public IP Ranges User-triggered Fetchers Google |
| GoogleOther-Video | Google Public IP Ranges User-triggered Fetchers Google |
| GoogleProducer | GoogleProducer Google Public IP Ranges User-triggered Fetchers Google |
| Google-Extended | Google Public IP Ranges User-triggered Fetchers Google |
| Google-Read-Aloud | Google Public IP Ranges User-initiated Fetchers User-triggered Fetchers Google |
| GSA | Google Public IP Ranges User-initiated Fetchers User-triggered Fetchers Google |
| Google-CloudVertexBot | GoogleProducer Google Public IP Ranges User-initiated Fetchers User-triggered Fetchers Google User-triggered Agents |
| Google-NotebookLM | Google Public IP Ranges User-initiated Fetchers User-triggered Fetchers Google |
3.Referer判定
Refererが空白の場合は、User-AgentとGoogle公式IPレンジの組み合わせによる判定を継続します。
Refererが存在する場合は、Google系Refererであることを確認します。
Google系Refererではない場合は、AI関連アクセスではないものとして除外します。
これにより、Google系User-Agentを名乗るだけの偽装アクセスや、Google系AIアクセスとは関係のないRefererを持つアクセスを除外します。
4.観測対象ログ
WebPitaでは、AIが実際に参照した可能性のあるページアクセスを分析するため、観測対象を以下に限定しています。
- HTTPステータスが(200,206,304)のアクセス
- html、php、pdfファイルへのアクセス
- フォルダURLへのアクセス
画像、CSS、JavaScript、リダイレクト、404エラーなどは、原則としてAI関連ページ訪問の分析対象から除外しています。
5.補足事項
Googleは、AI関連アクセスの仕様、User-Agent、IPレンジ分類を継続的に変更しています。
そのためWebPitaでは、Google公式IPレンジ情報の更新状況や実際の観測ログをもとに、判定ロジックを継続的に見直しています。
本判定は、GoogleがAI専用の完全な識別情報を公開していない前提での観測ベース判定です。
そのため、AIアクセスを完全に断定するものではなく、AI関連アクセスの可能性が高いアクセス群を分類するための判定方法です。