WebPita Labo


2026-05-25

ChatGPT-UserのPDFアクセス観測結果

WebPitaの観測結果

観測期間:2026-05-05 ~ 2026-05-23


OpenAI系PDFアクセスの約91%がChatGPT-Userによるものだった

OpenAI系PDFアクセス合計:3,725件
項目(Item) 全体アクセス(Total) PDFへのアクセス(PDF) PDF比率(PDF Ratio)
ChatGPT-User(ChatGPT内取得) 9,067件 3,387件 約37.4%
GPTBot(学習系) 13,125件 181件 約1.4%
OAI-SearchBot(検索用途) 1,729件 157件 約9.1%
OpenAI系PDFアクセス合計 3,725件

ChatGPT-UserのPDFアクセス比率は約37.4%だった。
一方で、GPTBotのPDFアクセス比率は約1.4%、OAI-SearchBotは約9.1%だった。
実に、OpenAI系PDFアクセスの約91%がChatGPT-Userによるものだった。

ChatGPT-UserはPDFを多く取得している

今回の観測では、ChatGPT-UserのPDFアクセス比率が突出する結果だった。
一方で、GPTBotおよびOAI-SearchBotのPDFアクセス比率は少なかった。


なお、今回の観測は単一サイトの結果であり、複数サイトを観測した結果ではない。
観測対象サイトは、業界動向や国策情報などの情報発信が多く、HTMLページはもちろんPDF資料も多数掲載している法人サイトである。
そのため、今回の結果には、こうしたサイト特性が影響している可能性がある。

PDFはAIにとって扱いやすい資料なのか

PDFは、しっかりした章立てと構造化された内容で記載されていることが多く、
報告書、説明資料、制度資料、仕様書などでは、数値、表、定義、参考資料なども含めて整理されているケースが多い。

一方、HTMLページでは、キャッチコピーや概要説明を中心とした構成が散見される。
そのためAIは、PDFを詳細資料として参照している可能性がある。

仮説

今回の観測結果から、ChatGPTは「HTMLで情報の存在を把握し、PDFで詳細情報を取得する」という動きをしている可能性がある。

この仮説がGoogle GeminiやGoogle AI Overviewsにも当てはまる場合、PDF資料を適切に掲載しているWebサイトは、AI Overviewsで参照・表示される確率が高くなる可能性がある。

ただし、現時点ではGeminiやGoogle AI OverviewsのアクセスをChatGPT-Userのように明確に分離して観測することは難しい。
そのため、この仮説については今後の継続観測が必要である。

PDF掲載に関する示唆

AIに参照されやすいPDFを意識する場合、単にPDFを置くだけではなく、HTMLページとの関係を明確にすることが重要と考えられる。

  • 正式公開用のPDFだけを掲載する
  • 内容が分かるPDFファイル名にする
  • HTMLページにPDFの概要を掲載する
  • HTML本文内からPDFへのリンクを明確に設置する
  • sitemap.xmlに重要PDFを掲載する
  • 古いPDFや重複PDFを整理する

PDFは人間向けの閲覧資料であると同時に、AIが参照する資料にもなり得る。
AI時代のWebサイトでは、HTMLページとPDF資料を分けて考えるのではなく、両者を一体の情報構造として設計する必要がある。

観測条件

本データは、WebPitaによるアクセスログ観測から抽出したものです。

WebPitaでは、OpenAI公開情報およびアクセスログをもとに、ChatGPT関連アクセスの観測を行っている。

  • OpenAI公開IPレンジ
  • User-Agent
  • Request URI
  • PDF抽出条件:Request URI に .pdf を含むアクセス
  • GPTBot、OAI-SearchBot、ChatGPT-User、ChatGPT Actions、Visit_From_GPTの分類

観測対象ログ

AIまたはAI経由ユーザーによる「ページ閲覧」に近いアクセスを中心に解析している。

  • HTTPステータスが 200 / 206 / 304 のアクセス
  • html / php / pdf ファイルおよびフォルダURLへのアクセス
  • 観測除外対象:画像ファイル、CSS、JavaScript、リダイレクトアクセス、404エラー

観測条件の詳細は以下に記載をしている。

WebPitaでのChatGPT関連アクセス判定方法
ChatGPTからの送客および送客後遷移の判定について

まとめ

今回の観測は1サイトのみの観測であり情報量は十分ではない。
したがって仮説を裏付けるには弱く継続観測および複数サイトでの観測が必要なのは言うまでもない。


しかし、観測サイト特有の状況だとしてもPDFアクセスがChatGPT-Userへ極端に偏っていた点は興味深い観測結果だった。

AIアクセス解析ツールで何が見えるのか?

WebPita AI Console for ChatGPT