Blog

Jakie boty śledzić, by ocenić swoją widoczność w LLM-ach?

Paradygmat publicznych dużych modeli językowych radykalnie zmienia kwestie widoczności w internecie. Niezależnie od tego, czy chodzi o wyszukiwanie informacji, tworzenie treści, czy nawet ocenę ruchu webowego, ważne jest zrozumienie, które roboty indeksujące zbierają Twoje treści, w jakim celu i jakie to może mieć skutki dla Twojej obecności w odpowiedziach generowanych przez LLM-y (Large Language Models). W tym artykule przedstawiamy mapę głównych botów, na które warto zwrócić uwagę.

Dlaczego śledzić boty LLM w swoich logach?

Tradycyjnie, śledzenie crawlery (Googlebot, Bingbot…) ograniczało się do klasycznego pozycjonowania. Dziś większość duże modele językowe (GPT-4, Claude, Cohere, Mistral itp.) ma swoje własne robot indeksujący do zasilania swoich korpusów treningowych, baz wiedzy lub wzbogacania odpowiedzi w czasie rzeczywistym.

Istnieją dwie główne kategorie botów :

  • Te boty zbierające zaprojektowane do trenowania : masowo przeszukują sieć, aby wydobywać surowe teksty, tworzyć korpusy danych i zasilać kolejne wersje modeli.
  • Te boty zbierające w czasie rzeczywistym : podczas zapytania użytkownika niektóre modele używają agentów, które wyszukują w sieci kilka istotnych źródeł i włączają fragmenty lub cytaty do odpowiedzi.

Śledzenie tych botów w Twoich logach pozwala:

  • Sprawdzić, czy Twoje treści są uwzględniane przez LLM-y, zarówno do treningu, jak i do generowania natychmiastowych odpowiedzi.
  • Zmierzyć rzeczywisty wpływ Twojej strategii treści na Twoją widoczność w ChatGPT (OpenAI), Gemini (Google), Copilot (Microsoft), Claude (Anthropic) itp.
  • Dostosować zarządzanie treściami : zezwolić lub zablokować te boty w zależności od tego, czy preferujesz cytowanie, ruch czy ochronę własnych materiałów.

1. Boty treningowe modeli generatywnych

Te roboty przeszukują sieć, aby zasilić korpusy treningowe LLM-ów. Jeśli udostępnisz dostęp do swoich treści, mogą one znaleźć się, czasem słowo w słowo, w kolejnej aktualizacji modelu.

Oto pełna lista botów treningowych, które warto uważnie śledzić:

AI2Bot

  • Operator : Allen Institute for AI (AI2), non-profitowy instytut badawczy
  • Misja : Zbieranie publicznie dostępnych danych internetowych w celu zasilenia badań i rozwoju otwartych modeli językowych. AI2Bot stosuje podejście oparte na przejrzystości i etyce przy pozyskiwaniu danych dla SI.
  • Identyfikacja : Mozilla/5.0 (kompatybilny; AI2Bot; +https://allenai.org/policies/ai2bot)
  • Przestrzeganie robots.txt : Tak
  • Strategia : Właściciele stron mogą łatwo kontrolować dostęp tego bota za pomocą pliku robots.txt. Jeśli zależy Państwu na widoczności w otwartym ekosystemie SI, pozwólcie mu indeksować. Dla treści wrażliwych lub własnościowych należy go zablokować.
  • Do zapamiętania : AI2Bot jest kluczowym uczestnikiem w tworzeniu otwartych korpusów, z wyraźnie deklarowaną polityką przejrzystości.

AI2Bot-Dolma

  • Operator : Instytut Allena ds. Sztucznej Inteligencji
  • Misja : Specjalnie przeznaczony do budowy korpusu Dolma, otwartego zestawu danych używanego do trenowania modeli takich jak OLMo. Bot indeksuje publicznie dostępne treści sieciowe, kładąc nacisk na etykę i przejrzyste dokumentowanie źródeł.
  • Identyfikacja : Mozilla/5.0 (kompatybilny; AI2Bot-Dolma; +https://allenai.org/crawler)
  • Przestrzeganie robots.txt : Tak
  • Strategia : Podobnie jak w przypadku AI2Bot, kontrola jest prosta poprzez plik robots.txt. Preferować, jeśli chcecie Państwo przyczynić się do badań otwartych; blokować, jeśli Wasze treści są wrażliwe.
  • Do zapamiętania : AI2Bot-Dolma wyraźnie celuje w badania akademickie i open science, co może mieć wpływ na przepustowość w zależności od objętości indeksowanych danych.

Anthropic-ai

  • Operator : Anthropic
  • Misja : Crawl do treningu modeli Claude. Anthropic kładzie nacisk na bezpieczeństwo i dopasowanie modeli, ale szczegóły praktyk zbierania danych są mniej przejrzyste niż u innych podmiotów.
  • Identyfikacja : Mozilla/5.0 (zgodny; anthropic-ai; +https://www.anthropic.com)
  • Przestrzeganie robots.txt : Tak
  • Strategia : Zalecany nadzór, zwłaszcza dla treści własnościowych.
  • Do zapamiętania : Zachowanie bywa nieprzejrzyste — uważaj na narażenie swoich treści na tego bota.

Applebot-Extended

  • Operator : Apple
  • Misja : Zbieranie danych do treningu podstawowych modeli Apple (IA generatywna, Siri, Spotlight). Ten bot rozszerza zbieranie danych poza klasyczną indeksację dla wyszukiwarki.
  • Identyfikacja : Mozilla/5.0 (Macintosh; Intel Mac OS X) AppleWebKit/605.1.15 (KHTML, jak Gecko) Wersja/15.0 Applebot-Extended/1.0
  • Przestrzeganie robots.txt : Tak
  • Strategia : Zablokować, jeśli chcesz wykluczyć swoje treści z treningu modeli AI Apple.
  • Do zapamiętania : Applebot-Extended działa podobnie do Google-Extended, z możliwością szczegółowej kontroli przez robots.txt.

Bytespider

  • Operator : Bytedance (TikTok, Douyin)
  • Misja : Masowe crawlowanie tekstów i mediów do treningu chińskich modeli. Bytespider słynie ze swojej intensywności i częstego niestosowania się do robots.txt.
  • Identyfikacja : Zmienny user-agent, często ukrywany, agresywne zachowanie.
  • Przestrzeganie robots.txt : Nie, lub w sposób niekonsekwentny
  • Strategia : Zalecane blokowanie dla wszystkich witryn, szczególnie przez firewall lub filtrowanie po user-agent.
  • Do zapamiętania : Bytespider jest jednym z najbardziej inwazyjnych botów, mającym znaczący wpływ na przepustowość i bezpieczeństwo treści.

CCBot

  • Operator : Fundacja Common Crawl
  • Misja : Tworzy korpus Common Crawl, wykorzystywany przez wiele projektów AI na świecie.
  • Identyfikacja : CCBot/2.0 (https://commoncrawl.org/faq/)
  • Przestrzeganie robots.txt : Tak
  • Strategia : Pozwolić na crawl, jeśli chcesz szerokiej widoczności w otwartym ekosystemie AI; zablokować dla treści wrażliwych.
  • Do zapamiętania : CCBot zasila jeden z najczęściej używanych zbiorów danych do badań w dziedzinie AI.

ClaudeBot

  • Operator : Anthropic
  • Misja : Zbiera dane do trenowania modeli Claude, jako uzupełnienie Anthropic-ai.
  • Identyfikacja : User-agent nieoficjalnie udokumentowany (należy monitorować w logach)
  • Przestrzeganie robots.txt : Zmienny, zachowanie mało przejrzyste
  • Strategia : Zalecane monitorowanie i blokowanie treści wrażliwych.
  • Do zapamiętania : Niewiele przejrzystości, uważaj na eksponowanie swoich treści.

Cohere-ai

  • Operator : Cohere
  • Misja : Crawluje w celu trenowania modeli językowych Cohere, specjalizującej się w AI dla przedsiębiorstw.
  • Identyfikacja : Cohere-ai (szczegół techniczny nieoficjalny)
  • Przestrzeganie robots.txt : Tak
  • Strategia : Zablokować, jeśli obawiasz się ponownego wykorzystania swoich treści w modelach komercyjnych.
  • Do zapamiętania : Cohere celuje w szczególności w firmy, z logiką potencjalnego ponownego wykorzystania w B2B.

Google-Extended

  • Operator : Google
  • Misja : Umożliwia sprawdzenie, czy twoje treści są wykorzystywane do trenowania Barda, Gemini itp., niezależnie od klasycznej indeksacji.
  • Identyfikacja : Google-Extended (token dodany do Googlebota)
  • Przestrzeganie robots.txt : Tak
  • Strategia : Nowy mechanizm kontroli, który można wykorzystać do precyzyjnego zarządzania widocznością w generatywnej SI Google.
  • Do zapamiętania : Google-Extended oferuje niespotykaną granularność widoczności w modelach językowych Google.

GPTBot

  • Operator : OpenAI
  • Misja : Zbieranie danych do trenowania modeli GPT (ChatGPT, GPT-4 itp.).
  • Identyfikacja : Mozilla/5.0 (zgodny; GPTBot/1.0; +https://openai.com/gptbot)
  • Przestrzeganie robots.txt : Tak
  • Strategia : Zablokować, jeśli nie chcesz, aby twoje treści zasilały kolejne wersje ChatGPT.
  • Do zapamiętania : GPTBot jest jednym z najbardziej aktywnych i najszerzej monitorowanych botów w ekosystemie SI.

ImagesiftBot

  • Operator : Castle Global (Hive)
  • Misja : Zbieranie obrazów do indeksacji i automatycznej analizy wizualnej.
  • Identyfikacja : Mozilla/5.0 (zgodny; ImagesiftBot; +imagesift.com)
  • Przestrzeganie robots.txt : Nie
  • Strategia : Zalecane zablokowanie w celu ochrony obrazów własnościowych, np. za pomocą zapory.
  • Do zapamiętania : Intruzywne zachowanie, potencjalny wpływ na przepustowość i bezpieczeństwo zasobów.

img2dataset

  • Operator : Społeczność open source
  • Misja : Narzędzie do masowego zbierania obrazów do tworzenia zbiorów danych do widzenia komputerowego.
  • Identyfikacja : Zmienny, często nieidentyfikowany jako klasyczny user-agent
  • Przestrzeganie robots.txt : Zmienna
  • Strategia : Zalecane monitorowanie i blokowanie treści wrażliwych.
  • Do zapamiętania : Używany w projektach open source, ale mało przejrzysty w kwestii praktyk zbierania danych.

meta-zewnętrzny-agent

  • Operator : Meta (Facebook)
  • Misja : Zbieranie danych do trenowania modeli Meta (LLaMA itp.).
  • Identyfikacja : meta-externalagent (szczegół techniczny nieoficjalny)
  • Przestrzeganie robots.txt : Tak
  • Strategia : Do zablokowania, jeśli nie chcesz, by Twoje treści zasilały modele Meta.
  • Do zapamiętania : Meta jest kluczowym graczem w generatywnej sztucznej inteligencji, z polityką redakcyjną wartą obserwacji.

Omgili

  • Operator : Omgili
  • Misja : Zbieranie forów i dyskusji do analiz lingwistycznych i tworzenia korpusów konwersacyjnych.
  • Identyfikacja : Omgili (szczegół techniczny nieoficjalny)
  • Przestrzeganie robots.txt : Tak
  • Strategia : Do zablokowania, jeśli chcesz chronić prywatne wymiany na swoich forach.
  • Do zapamiętania : Specjalizowany w treściach konwersacyjnych, rzadko obecny w klasycznych logach.

2. Boty dostępu w czasie rzeczywistym do natychmiastowych odpowiedzi

Ci agenci nie zbierają danych w celu treningu, lecz aby dostarczać użytkownikowi zaktualizowane odpowiedzi w czasie rzeczywistym. Ich zachowanie jest bardziej selektywne: zbierają tylko to, co istotne do odpowiedzi na zadane pytanie, a następnie wprowadzają tę informację do odpowiedzi LLM-a, często z cytatem.

Amazonbot

  • Operator : Amazon.com, Inc.
  • Misja : Crawler sieciowy przeznaczony do zbierania publicznie dostępnych danych, wykorzystywanych do ulepszania produktów i usług Amazon (np.: Alexa, rekomendacje produktów) oraz do rozwoju modeli uczenia maszynowego i rozwiązań AI.
  • Identyfikacja : User-agent: warianty oparte na Amazonbot (oficjalna dokumentacja techniczna dotycząca user-agentów Amazon)
  • Przestrzeganie robots.txt : Tak
  • Strategia : Zezwolić, aby zwiększyć widoczność na platformach Amazon i Alexa / Zablokować, jeśli chcesz ograniczyć dostęp do swoich danych dla zastosowań AI Amazonu
  • Do zapamiętania : Amazonbot łączy klasyczną indeksację, wyszukiwanie głosowe i generowanie odpowiedzi przez własnościowe systemy AI

Applebot

  • Operator : Apple Inc.
  • Misja : Crawler używany do zasilania wyszukiwań Siri i Spotlight oraz do wzbogacania modeli rozumienia języka naturalnego Apple
  • Identyfikacja : warianty Applebot (szczegóły i polityka dostępu udokumentowane przez Apple)
  • Przestrzeganie robots.txt : Tak
  • Strategia : Dostosować dostęp w zależności od typu treści, do którego skierowane są usługi Apple
  • Do zapamiętania : Preferowany kanał integracji dla widoczności w narzędziach wyszukiwania dostępnych publicznie w ekosystemie Apple.

ChatGPT-Użytkownik

  • Operator : OpenAI
  • Misja : Agent używany, gdy w ChatGPT jest włączona funkcja „Browse with Bing”. Rola pobierającego na żywo: pobiera kilka stron z pierwszych wyników Bing. Przekazuje istotne fragmenty do dużego modelu językowego, aby włączyć je do odpowiedzi.
  • Identyfikacja : Użytkownik ChatGPT
  • Przestrzeganie robots.txt : Tak
  • Strategia : Aby pojawiać się w odpowiedziach ChatGPT z funkcją nawigacji, trzeba być dobrze wypozycjonowanym w Bing i oferować uporządkowane treści z jasnym podsumowaniem.
  • Do zapamiętania : Prawdziwy most SEO do widoczności w generatywnej SI OpenAI.

Claude-Web

  • Operator : Anthropic
  • Misja : Agent pobierający dla funkcji przeglądania stron modeli Claude, pobiera fragmenty ze strony na żywo, aby zbudować odpowiedź osadzoną w kontekście.
  • Identyfikacja : Claude-Web
  • Przestrzeganie robots.txt : Tak
  • Strategia : Optymalizuj strukturę i zwięzłość swoich treści, aby zmaksymalizować cytowanie w Claude.
  • Do zapamiętania : Silny filar widoczności dla zapytań bieżących wydarzeń obsługiwanych przez Claude.

Diffbot

  • Operator : Diffbot
  • Misja : Strukturalne i zautomatyzowane wydobywanie danych z publicznych stron internetowych, wykorzystywane przez niektóre LLM/AI do bezpośredniego przetwarzania sformatowanych treści (artykuły, karty produktów itp.)
  • Identyfikacja : Diffbot 
  • Przestrzeganie robots.txt : Tak
  • Strategia : Otworzyć, aby wzmocnić ustrukturyzowane udostępnianie swoich danych (zaawansowane SEO) i zablokować w przypadku treści wrażliwych lub niestrukturalnych.
  • Do zapamiętania : Preferowany crawler do automatycznej strukturyzacji sieci.

DuckAssistBot

  • Operator : DuckDuckGo
  • Misja : Agent pobierający dla DuckAssist, asystenta AI i funkcji natychmiastowych odpowiedzi wyszukiwarki DuckDuckGo, wykorzystuje treści internetowe do odpowiadania na zapytania w języku naturalnym.
  • Identyfikacja : DuckAssistBot
  • Przestrzeganie robots.txt : Tak
  • Strategia : Skupia się na krótkich, uporządkowanych treściach zoptymalizowanych pod kątem cytowania.
  • Do zapamiętania : Może zwiększyć widoczność w jednej z alternatywnych wyszukiwarek najbardziej dbających o prywatność internauty.

MistralAI-Użytkownik

  • Operator : Mistral AI
  • Misja : Pobieranie stron internetowych na żądanie w czasie rzeczywistym, aby dostarczać cytaty do ich modeli
  • Identyfikacja : MistralAI-User
  • Przestrzeganie robots.txt : Tak
  • Strategia : Aby pojawiać się w odpowiedziach natychmiastowych, postaw na treści faktograficzne, dobrze zoptymalizowane pod klasyczne wyszukiwarki.
  • Do zapamiętania : Nacisk na różnorodność źródeł i przejrzystość cytowań.

OAI-BotSzukający

  • Operator : OpenAI
  • Misja : Fetcher dla funkcji Search, używany do dostarczania zaktualizowanych odpowiedzi w niektórych produktach OpenAI.
  • Identyfikacja : OAI-SearchBot
  • Przestrzeganie robots.txt : Tak
  • Strategia : Podobnie do ChatGPT-User: priorytet dla treści jednocześnie bogatych, zwięzłych i dobrze wypozycjonowanych.
  • Do zapamiętania : Kluczowy agent wybierający faktualnie aktualizowane odpowiedzi w ChatGPT i Copilot.

Perplexity-Użytkownik

  • Operator : Perplexity AI
  • Misja : Crawler w czasie rzeczywistym, wybiera szerokie spektrum źródeł internetowych, aby dostarczać odpowiedzi kontekstowe z wyraźnym źródłowaniem
  • Identyfikacja : Perplexity-User
  • Przestrzeganie robots.txt : Tak
  • Strategia : Celuj w zwięzłość, gęstość informacyjną, obecność TL;DR i ustrukturyzowanych metadanych.
  • Do zapamiętania : Podkreślanie źródeł i cytowań, wielka szansa dla branded content i rozpoznawalności.

PerplexityBot

  • Operator : Perplexity AI
  • Misja : Ogólny crawler zbierający dane w czasie rzeczywistym i wsadowo, aby zasilać konwersacyjny silnik wyszukiwania
  • Identyfikacja : PerplexityBot
  • Przestrzeganie robots.txt : Tak
  • Strategia : Pozwól mu indeksować, aby zmaksymalizować swoją obecność w wynikach proponowanych przez Perplexity.
  • Do zapamiętania : PerplexityBot wpływa zarówno na bazę danych indeksacji, jak i na jakość odpowiedzi dla użytkowników.

Jak właściwie zorganizować monitoring?

  • Analizuj regularnie swoje logi aby identyfikować wizyty tych konkretnych botów.
  • Skonfiguruj swój robots.txt świadomie: zezwól lub zablokuj zgodnie z celami.
  • Dostosuj strukturę swoich treści aby zmaksymalizować ekstrakcję lub zminimalizować wyciek informacji.
  • Śledź ewolucję user-agentów : lista szybko się zmienia wraz z pojawianiem się nowych modeli.
  • Potwierdź obecność swoich treści w odpowiedziach generowanych przez LLM-y (okresowe testy, monitorowanie cytowań).

Artykuł „Jakie boty śledzić, by ocenić swoją widoczność w LLM-ach?” został opublikowany na stronie Abondance.