1. 結論
現時点で、一般的なWebサーバーのアクセスログから「Microsoft Copilotの訪問」を直接判定する確実な方法は確認できない。
Copilot専用のUser-Agentや、Copilot専用の公開IP帯域は確認できないため、アクセスログ上で「Copilotが来た」と断定することは難しい。
WebPitaでは、Microsoft Copilot関連の外部Web利用について、次のように整理する。
- Copilot専用UAによる訪問:確認できない
- Copilot専用IP帯域による訪問:確認できない
- 外部Web情報の取得:Bing検索サービスを経由する可能性が高い
- サイト側で観測できるもの:Bingbot、Bing系アクセス、またはユーザー自身のブラウザ訪問
したがって、アクセスログ上で「Copilot」と名乗るUser-Agentがあったとしても、それだけでMicrosoft Copilotの訪問とは判定しない。
WebPitaでは、そのようなアクセスは「Copilot偽装候補」または「未確認UA」として扱うのが妥当と考える。
2. Copilotは専用クローラーとして観測しにくい
ChatGPTには GPTBot や ChatGPT-User、Googleには Googlebot や関連するクローラー情報など、比較的観測しやすいUser-Agentや公開情報が存在する。
一方、Microsoft Copilotについては、外部Webサイトを巡回するための「Copilot専用クローラー」は確認できない。
Microsoftの説明では、CopilotがWeb情報を利用する場合、ユーザーの入力内容から検索クエリを生成し、Bing検索サービスへ送信する仕組みが示されている。
つまり、Copilotが外部サイトへ直接アクセスしてページを読みに来る、というよりも、Bing検索サービスを通じてWeb情報を取得・参照していると考える方が自然である。
このため、Webサイト側のアクセスログには、Copilotそのものではなく、BingbotやBing関連のアクセスとして現れる可能性が高い。
3. Copilotの外部情報利用は「学習」と「検索」を分けて考える必要がある
Copilotについて考えるときは、次の2つを分ける必要がある。
1)モデルの事前学習
これは、Copilotが回答に利用する大規模言語モデルが作られる前に行われる学習である。
一般的には公開データ、ライセンスデータ、その他の学習用データなどが使われる。
この事前学習は、ユーザーがチャットしている最中に、その場でWebサイトへアクセスして更新されるものではない。
2)Bing検索サービスによるWeb参照
Copilotが最新情報や外部情報を必要とする場合、Bing検索サービスを利用する。
この場合、CopilotはユーザーのプロンプトをそのままBingへ送るのではなく、必要な検索語句を生成し、その検索クエリをBing検索サービスへ送信する。
その結果として得られたWeb情報をもとに、Copilotの回答が作られる。
この仕組みであれば、Webサイト側のログに「Copilot」というUser-Agentが残らないことは自然である。
4. Copilot専用User-Agentは確認できない
現時点で、WebPitaがCopilot判定に使える公式User-Agentは確認できない。
そのため、以下のようなUser-AgentだけでCopilot訪問と判定することはできない。
- Copilot
- Microsoft-Copilot
- CopilotBot
- Bing-Copilot
- MS-Copilot
これらの文字列を名乗るアクセスがあったとしても、公式に確認できない限り、Copilot確定とは扱わない。
WebPitaでは、次のように分類するのが安全である。
| 観測対象 | 判定 |
|---|---|
| bingbot | Bingの公式クローラー候補 |
| BingPreview | Bing関連のプレビュー・取得候補 |
| Copilotを名乗るUA | Copilot偽装候補または未確認UA |
| ユーザーの通常ブラウザ | Copilotからのリンククリックによる訪問候補 |
5. Copilotチャットからの訪問について
Copilotの回答中に、外部サイトへのリンクが表示されることがある。
このリンクをユーザーがクリックした場合、Webサイト側のログには、Copilotではなくユーザーのブラウザによるアクセスとして記録される。
この場合、アクセス元やURLパラメータにより、Copilot経由の訪問らしい痕跡が残る可能性がある。
例:
utm_source=copilot.com
utm_medium=referral
utm_campaign=bing_copilot
ただし、このようなUTMパラメータが付与されていたとしても、それはCopilot本体がWebサイトへアクセスしたことを意味しない。
実際にアクセスしているのは、リンクをクリックしたユーザーのブラウザである。
したがって、WebPitaではこれを「Copilot本体の訪問」ではなく、「Copilot経由のユーザー訪問候補」として扱う。
6. WebPitaでの判定方針
WebPitaでは、Microsoft Copilot関連のアクセスを次のように扱う。
Copilot確定とはしないもの
- User-Agentに
Copilotと書かれているだけのアクセス - Microsoft系IPから来ているだけのアクセス
- BingbotではないMicrosoft関連アクセス
- UTMに
copilot.comが含まれるユーザー訪問
Copilot関連候補として見るもの
- Bingbotによるクロール
- BingPreviewなどのBing関連UA
- Bing検索結果やCopilot Searchからの流入
utm_source=copilot.com等が付いたユーザー訪問
判定名の例
Bing / Copilot関連候補
または、
Copilot経由ユーザー訪問候補
とする。
Copilot確定 という判定名は使わない方がよい。
7. Copilotだけをrobots.txtで禁止することはできるのか
Webサイト運営者がMicrosoft CopilotによるWeb利用を制御したい場合、現時点では「Copilotだけを禁止する」ための公式User-Agentや専用のrobots.txt指定は確認できない。
Copilotが外部Web情報を利用する場合、その取得経路はCopilot専用クローラーではなく、Bing検索サービスやBingの検索インデックスを経由する形になる。
そのため、Webサイト側で巡回を拒否する場合は、実質的にはBingbotを禁止することになる。
User-agent: bingbot
Disallow: /
ただし、この指定はCopilotだけを拒否するものではない。 Bingbotの巡回そのものを拒否するため、Bing検索への掲載や更新にも影響する可能性がある。
Bingの公式説明でも、robots.txtは検索エンジンのクローラーに対して、クロールしてほしくないディレクトリやファイルを指定するための仕組みと説明されている。 つまり、robots.txtでBingbotを拒否することは、CopilotだけでなくBing検索側のクロール制御にもなる。
したがって、WebPitaでは次のように整理する。
- Copilot専用のrobots.txt指定は確認できない
- Copilotだけを禁止してBing検索だけを許可する方法は確認できない
- Copilotへの利用を避けたい場合、実質的にはBingbotの制御になる
- Bingbotを拒否すると、Bing検索への掲載や更新にも影響する可能性がある
つまり、Microsoft CopilotのWeb利用制御は、現時点では「Copilotを直接止める」のではなく、「Bingによるクロールやインデックス利用をどう扱うか」という問題として考える必要がある。
8. まとめ
Microsoft Copilotは、ChatGPTやGeminiのように、Webサイト側から専用Botとして観測しやすい存在ではない。
Copilotが外部Web情報を扱う場合、Bing検索サービスを経由する仕組みが中心であり、WebサーバーのアクセスログにはCopilot専用の痕跡が残りにくい。
そのため、WebPitaでは次のように整理する。
- Copilot専用UAは確認できない
- Copilot専用IP帯域は確認できない
- Copilot本体のWeb訪問はアクセスログから直接判定できない
- BingbotやBing系アクセスはCopilotに利用される可能性がある
- Copilotからのリンククリックはユーザーのブラウザ訪問として記録される
Copilotを名乗るUAは、公式確認できない限り偽装候補または未確認UAとして扱う
結論として、Microsoft Copilotは「Copilotそのものをログで見つける」のではなく、「Bing経由の検索・参照」と「ユーザークリックによる流入」を分けて観測する必要がある。