Paradygmat publicznych dużych modeli językowych radykalnie zmienia kwestie widoczności w internecie. Niezależnie od tego, czy chodzi o wyszukiwanie informacji, tworzenie treści, czy nawet ocenę ruchu webowego, ważne jest zrozumienie, które roboty indeksujące zbierają Twoje treści, w jakim celu i jakie to może mieć skutki dla Twojej obecności w odpowiedziach generowanych przez LLM-y (Large Language Models). W tym artykule przedstawiamy mapę głównych botów, na które warto zwrócić uwagę.
Dlaczego śledzić boty LLM w swoich logach?
Tradycyjnie, śledzenie crawlery (Googlebot, Bingbot…) ograniczało się do klasycznego pozycjonowania. Dziś większość duże modele językowe (GPT-4, Claude, Cohere, Mistral itp.) ma swoje własne robot indeksujący do zasilania swoich korpusów treningowych, baz wiedzy lub wzbogacania odpowiedzi w czasie rzeczywistym.
Istnieją dwie główne kategorie botów :
- Te boty zbierające zaprojektowane do trenowania : masowo przeszukują sieć, aby wydobywać surowe teksty, tworzyć korpusy danych i zasilać kolejne wersje modeli.
- Te boty zbierające w czasie rzeczywistym : podczas zapytania użytkownika niektóre modele używają agentów, które wyszukują w sieci kilka istotnych źródeł i włączają fragmenty lub cytaty do odpowiedzi.
Śledzenie tych botów w Twoich logach pozwala:
- Sprawdzić, czy Twoje treści są uwzględniane przez LLM-y, zarówno do treningu, jak i do generowania natychmiastowych odpowiedzi.
- Zmierzyć rzeczywisty wpływ Twojej strategii treści na Twoją widoczność w ChatGPT (OpenAI), Gemini (Google), Copilot (Microsoft), Claude (Anthropic) itp.
- Dostosować zarządzanie treściami : zezwolić lub zablokować te boty w zależności od tego, czy preferujesz cytowanie, ruch czy ochronę własnych materiałów.
1. Boty treningowe modeli generatywnych
Te roboty przeszukują sieć, aby zasilić korpusy treningowe LLM-ów. Jeśli udostępnisz dostęp do swoich treści, mogą one znaleźć się, czasem słowo w słowo, w kolejnej aktualizacji modelu.
Oto pełna lista botów treningowych, które warto uważnie śledzić:
AI2Bot
- Operator : Allen Institute for AI (AI2), non-profitowy instytut badawczy
- Misja : Zbieranie publicznie dostępnych danych internetowych w celu zasilenia badań i rozwoju otwartych modeli językowych. AI2Bot stosuje podejście oparte na przejrzystości i etyce przy pozyskiwaniu danych dla SI.
- Identyfikacja : Mozilla/5.0 (kompatybilny; AI2Bot; +https://allenai.org/policies/ai2bot)
- Przestrzeganie robots.txt : Tak
- Strategia : Właściciele stron mogą łatwo kontrolować dostęp tego bota za pomocą pliku robots.txt. Jeśli zależy Państwu na widoczności w otwartym ekosystemie SI, pozwólcie mu indeksować. Dla treści wrażliwych lub własnościowych należy go zablokować.
- Do zapamiętania : AI2Bot jest kluczowym uczestnikiem w tworzeniu otwartych korpusów, z wyraźnie deklarowaną polityką przejrzystości.
AI2Bot-Dolma
- Operator : Instytut Allena ds. Sztucznej Inteligencji
- Misja : Specjalnie przeznaczony do budowy korpusu Dolma, otwartego zestawu danych używanego do trenowania modeli takich jak OLMo. Bot indeksuje publicznie dostępne treści sieciowe, kładąc nacisk na etykę i przejrzyste dokumentowanie źródeł.
- Identyfikacja : Mozilla/5.0 (kompatybilny; AI2Bot-Dolma; +https://allenai.org/crawler)
- Przestrzeganie robots.txt : Tak
- Strategia : Podobnie jak w przypadku AI2Bot, kontrola jest prosta poprzez plik robots.txt. Preferować, jeśli chcecie Państwo przyczynić się do badań otwartych; blokować, jeśli Wasze treści są wrażliwe.
- Do zapamiętania : AI2Bot-Dolma wyraźnie celuje w badania akademickie i open science, co może mieć wpływ na przepustowość w zależności od objętości indeksowanych danych.
Anthropic-ai
- Operator : Anthropic
- Misja : Crawl do treningu modeli Claude. Anthropic kładzie nacisk na bezpieczeństwo i dopasowanie modeli, ale szczegóły praktyk zbierania danych są mniej przejrzyste niż u innych podmiotów.
- Identyfikacja : Mozilla/5.0 (zgodny; anthropic-ai; +https://www.anthropic.com)
- Przestrzeganie robots.txt : Tak
- Strategia : Zalecany nadzór, zwłaszcza dla treści własnościowych.
- Do zapamiętania : Zachowanie bywa nieprzejrzyste — uważaj na narażenie swoich treści na tego bota.
Applebot-Extended
- Operator : Apple
- Misja : Zbieranie danych do treningu podstawowych modeli Apple (IA generatywna, Siri, Spotlight). Ten bot rozszerza zbieranie danych poza klasyczną indeksację dla wyszukiwarki.
- Identyfikacja : Mozilla/5.0 (Macintosh; Intel Mac OS X) AppleWebKit/605.1.15 (KHTML, jak Gecko) Wersja/15.0 Applebot-Extended/1.0
- Przestrzeganie robots.txt : Tak
- Strategia : Zablokować, jeśli chcesz wykluczyć swoje treści z treningu modeli AI Apple.
- Do zapamiętania : Applebot-Extended działa podobnie do Google-Extended, z możliwością szczegółowej kontroli przez robots.txt.
Bytespider
- Operator : Bytedance (TikTok, Douyin)
- Misja : Masowe crawlowanie tekstów i mediów do treningu chińskich modeli. Bytespider słynie ze swojej intensywności i częstego niestosowania się do robots.txt.
- Identyfikacja : Zmienny user-agent, często ukrywany, agresywne zachowanie.
- Przestrzeganie robots.txt : Nie, lub w sposób niekonsekwentny
- Strategia : Zalecane blokowanie dla wszystkich witryn, szczególnie przez firewall lub filtrowanie po user-agent.
- Do zapamiętania : Bytespider jest jednym z najbardziej inwazyjnych botów, mającym znaczący wpływ na przepustowość i bezpieczeństwo treści.
CCBot
- Operator : Fundacja Common Crawl
- Misja : Tworzy korpus Common Crawl, wykorzystywany przez wiele projektów AI na świecie.
- Identyfikacja : CCBot/2.0 (https://commoncrawl.org/faq/)
- Przestrzeganie robots.txt : Tak
- Strategia : Pozwolić na crawl, jeśli chcesz szerokiej widoczności w otwartym ekosystemie AI; zablokować dla treści wrażliwych.
- Do zapamiętania : CCBot zasila jeden z najczęściej używanych zbiorów danych do badań w dziedzinie AI.
ClaudeBot
- Operator : Anthropic
- Misja : Zbiera dane do trenowania modeli Claude, jako uzupełnienie Anthropic-ai.
- Identyfikacja : User-agent nieoficjalnie udokumentowany (należy monitorować w logach)
- Przestrzeganie robots.txt : Zmienny, zachowanie mało przejrzyste
- Strategia : Zalecane monitorowanie i blokowanie treści wrażliwych.
- Do zapamiętania : Niewiele przejrzystości, uważaj na eksponowanie swoich treści.
Cohere-ai
- Operator : Cohere
- Misja : Crawluje w celu trenowania modeli językowych Cohere, specjalizującej się w AI dla przedsiębiorstw.
- Identyfikacja :
Cohere-ai(szczegół techniczny nieoficjalny) - Przestrzeganie robots.txt : Tak
- Strategia : Zablokować, jeśli obawiasz się ponownego wykorzystania swoich treści w modelach komercyjnych.
- Do zapamiętania : Cohere celuje w szczególności w firmy, z logiką potencjalnego ponownego wykorzystania w B2B.
Google-Extended
- Operator : Google
- Misja : Umożliwia sprawdzenie, czy twoje treści są wykorzystywane do trenowania Barda, Gemini itp., niezależnie od klasycznej indeksacji.
- Identyfikacja :
Google-Extended(token dodany do Googlebota) - Przestrzeganie robots.txt : Tak
- Strategia : Nowy mechanizm kontroli, który można wykorzystać do precyzyjnego zarządzania widocznością w generatywnej SI Google.
- Do zapamiętania : Google-Extended oferuje niespotykaną granularność widoczności w modelach językowych Google.
GPTBot
- Operator : OpenAI
- Misja : Zbieranie danych do trenowania modeli GPT (ChatGPT, GPT-4 itp.).
- Identyfikacja : Mozilla/5.0 (zgodny; GPTBot/1.0; +https://openai.com/gptbot)
- Przestrzeganie robots.txt : Tak
- Strategia : Zablokować, jeśli nie chcesz, aby twoje treści zasilały kolejne wersje ChatGPT.
- Do zapamiętania : GPTBot jest jednym z najbardziej aktywnych i najszerzej monitorowanych botów w ekosystemie SI.
ImagesiftBot
- Operator : Castle Global (Hive)
- Misja : Zbieranie obrazów do indeksacji i automatycznej analizy wizualnej.
- Identyfikacja : Mozilla/5.0 (zgodny; ImagesiftBot; +imagesift.com)
- Przestrzeganie robots.txt : Nie
- Strategia : Zalecane zablokowanie w celu ochrony obrazów własnościowych, np. za pomocą zapory.
- Do zapamiętania : Intruzywne zachowanie, potencjalny wpływ na przepustowość i bezpieczeństwo zasobów.
img2dataset
- Operator : Społeczność open source
- Misja : Narzędzie do masowego zbierania obrazów do tworzenia zbiorów danych do widzenia komputerowego.
- Identyfikacja : Zmienny, często nieidentyfikowany jako klasyczny user-agent
- Przestrzeganie robots.txt : Zmienna
- Strategia : Zalecane monitorowanie i blokowanie treści wrażliwych.
- Do zapamiętania : Używany w projektach open source, ale mało przejrzysty w kwestii praktyk zbierania danych.
meta-zewnętrzny-agent
- Operator : Meta (Facebook)
- Misja : Zbieranie danych do trenowania modeli Meta (LLaMA itp.).
- Identyfikacja : meta-externalagent (szczegół techniczny nieoficjalny)
- Przestrzeganie robots.txt : Tak
- Strategia : Do zablokowania, jeśli nie chcesz, by Twoje treści zasilały modele Meta.
- Do zapamiętania : Meta jest kluczowym graczem w generatywnej sztucznej inteligencji, z polityką redakcyjną wartą obserwacji.
Omgili
- Operator : Omgili
- Misja : Zbieranie forów i dyskusji do analiz lingwistycznych i tworzenia korpusów konwersacyjnych.
- Identyfikacja :
Omgili(szczegół techniczny nieoficjalny) - Przestrzeganie robots.txt : Tak
- Strategia : Do zablokowania, jeśli chcesz chronić prywatne wymiany na swoich forach.
- Do zapamiętania : Specjalizowany w treściach konwersacyjnych, rzadko obecny w klasycznych logach.
2. Boty dostępu w czasie rzeczywistym do natychmiastowych odpowiedzi
Ci agenci nie zbierają danych w celu treningu, lecz aby dostarczać użytkownikowi zaktualizowane odpowiedzi w czasie rzeczywistym. Ich zachowanie jest bardziej selektywne: zbierają tylko to, co istotne do odpowiedzi na zadane pytanie, a następnie wprowadzają tę informację do odpowiedzi LLM-a, często z cytatem.
Amazonbot
- Operator : Amazon.com, Inc.
- Misja : Crawler sieciowy przeznaczony do zbierania publicznie dostępnych danych, wykorzystywanych do ulepszania produktów i usług Amazon (np.: Alexa, rekomendacje produktów) oraz do rozwoju modeli uczenia maszynowego i rozwiązań AI.
- Identyfikacja : User-agent: warianty oparte na Amazonbot (oficjalna dokumentacja techniczna dotycząca user-agentów Amazon)
- Przestrzeganie robots.txt : Tak
- Strategia : Zezwolić, aby zwiększyć widoczność na platformach Amazon i Alexa / Zablokować, jeśli chcesz ograniczyć dostęp do swoich danych dla zastosowań AI Amazonu
- Do zapamiętania : Amazonbot łączy klasyczną indeksację, wyszukiwanie głosowe i generowanie odpowiedzi przez własnościowe systemy AI
Applebot
- Operator : Apple Inc.
- Misja : Crawler używany do zasilania wyszukiwań Siri i Spotlight oraz do wzbogacania modeli rozumienia języka naturalnego Apple
- Identyfikacja : warianty Applebot (szczegóły i polityka dostępu udokumentowane przez Apple)
- Przestrzeganie robots.txt : Tak
- Strategia : Dostosować dostęp w zależności od typu treści, do którego skierowane są usługi Apple
- Do zapamiętania : Preferowany kanał integracji dla widoczności w narzędziach wyszukiwania dostępnych publicznie w ekosystemie Apple.
ChatGPT-Użytkownik
- Operator : OpenAI
- Misja : Agent używany, gdy w ChatGPT jest włączona funkcja „Browse with Bing”. Rola pobierającego na żywo: pobiera kilka stron z pierwszych wyników Bing. Przekazuje istotne fragmenty do dużego modelu językowego, aby włączyć je do odpowiedzi.
- Identyfikacja : Użytkownik ChatGPT
- Przestrzeganie robots.txt : Tak
- Strategia : Aby pojawiać się w odpowiedziach ChatGPT z funkcją nawigacji, trzeba być dobrze wypozycjonowanym w Bing i oferować uporządkowane treści z jasnym podsumowaniem.
- Do zapamiętania : Prawdziwy most SEO do widoczności w generatywnej SI OpenAI.
Claude-Web
- Operator : Anthropic
- Misja : Agent pobierający dla funkcji przeglądania stron modeli Claude, pobiera fragmenty ze strony na żywo, aby zbudować odpowiedź osadzoną w kontekście.
- Identyfikacja : Claude-Web
- Przestrzeganie robots.txt : Tak
- Strategia : Optymalizuj strukturę i zwięzłość swoich treści, aby zmaksymalizować cytowanie w Claude.
- Do zapamiętania : Silny filar widoczności dla zapytań bieżących wydarzeń obsługiwanych przez Claude.
Diffbot
- Operator : Diffbot
- Misja : Strukturalne i zautomatyzowane wydobywanie danych z publicznych stron internetowych, wykorzystywane przez niektóre LLM/AI do bezpośredniego przetwarzania sformatowanych treści (artykuły, karty produktów itp.)
- Identyfikacja : Diffbot
- Przestrzeganie robots.txt : Tak
- Strategia : Otworzyć, aby wzmocnić ustrukturyzowane udostępnianie swoich danych (zaawansowane SEO) i zablokować w przypadku treści wrażliwych lub niestrukturalnych.
- Do zapamiętania : Preferowany crawler do automatycznej strukturyzacji sieci.
DuckAssistBot
- Operator : DuckDuckGo
- Misja : Agent pobierający dla DuckAssist, asystenta AI i funkcji natychmiastowych odpowiedzi wyszukiwarki DuckDuckGo, wykorzystuje treści internetowe do odpowiadania na zapytania w języku naturalnym.
- Identyfikacja : DuckAssistBot
- Przestrzeganie robots.txt : Tak
- Strategia : Skupia się na krótkich, uporządkowanych treściach zoptymalizowanych pod kątem cytowania.
- Do zapamiętania : Może zwiększyć widoczność w jednej z alternatywnych wyszukiwarek najbardziej dbających o prywatność internauty.
MistralAI-Użytkownik
- Operator : Mistral AI
- Misja : Pobieranie stron internetowych na żądanie w czasie rzeczywistym, aby dostarczać cytaty do ich modeli
- Identyfikacja : MistralAI-User
- Przestrzeganie robots.txt : Tak
- Strategia : Aby pojawiać się w odpowiedziach natychmiastowych, postaw na treści faktograficzne, dobrze zoptymalizowane pod klasyczne wyszukiwarki.
- Do zapamiętania : Nacisk na różnorodność źródeł i przejrzystość cytowań.
OAI-BotSzukający
- Operator : OpenAI
- Misja : Fetcher dla funkcji Search, używany do dostarczania zaktualizowanych odpowiedzi w niektórych produktach OpenAI.
- Identyfikacja : OAI-SearchBot
- Przestrzeganie robots.txt : Tak
- Strategia : Podobnie do ChatGPT-User: priorytet dla treści jednocześnie bogatych, zwięzłych i dobrze wypozycjonowanych.
- Do zapamiętania : Kluczowy agent wybierający faktualnie aktualizowane odpowiedzi w ChatGPT i Copilot.
Perplexity-Użytkownik
- Operator : Perplexity AI
- Misja : Crawler w czasie rzeczywistym, wybiera szerokie spektrum źródeł internetowych, aby dostarczać odpowiedzi kontekstowe z wyraźnym źródłowaniem
- Identyfikacja : Perplexity-User
- Przestrzeganie robots.txt : Tak
- Strategia : Celuj w zwięzłość, gęstość informacyjną, obecność TL;DR i ustrukturyzowanych metadanych.
- Do zapamiętania : Podkreślanie źródeł i cytowań, wielka szansa dla branded content i rozpoznawalności.
PerplexityBot
- Operator : Perplexity AI
- Misja : Ogólny crawler zbierający dane w czasie rzeczywistym i wsadowo, aby zasilać konwersacyjny silnik wyszukiwania
- Identyfikacja : PerplexityBot
- Przestrzeganie robots.txt : Tak
- Strategia : Pozwól mu indeksować, aby zmaksymalizować swoją obecność w wynikach proponowanych przez Perplexity.
- Do zapamiętania : PerplexityBot wpływa zarówno na bazę danych indeksacji, jak i na jakość odpowiedzi dla użytkowników.
Jak właściwie zorganizować monitoring?
- Analizuj regularnie swoje logi aby identyfikować wizyty tych konkretnych botów.
- Skonfiguruj swój robots.txt świadomie: zezwól lub zablokuj zgodnie z celami.
- Dostosuj strukturę swoich treści aby zmaksymalizować ekstrakcję lub zminimalizować wyciek informacji.
- Śledź ewolucję user-agentów : lista szybko się zmienia wraz z pojawianiem się nowych modeli.
- Potwierdź obecność swoich treści w odpowiedziach generowanych przez LLM-y (okresowe testy, monitorowanie cytowań).
Artykuł „Jakie boty śledzić, by ocenić swoją widoczność w LLM-ach?” został opublikowany na stronie Abondance.