Open Source, SEO, Developer Tools

Come capire se GPTBot, ClaudeBot e PerplexityBot vedono davvero il tuo sito

Matteo Perino CTO GeoSuite5/12/20261 min read

Un crawler leggero che genera sitemap.xml compliant, con limiti di profondità, numero di pagine e budget, senza puppeteer o librerie pesanti.

Perché serve un tool come ai-crawler-bots Oggi i modelli AI contano quanto Google. Il problema è che avere una pagina online non significa che GPTBot, ClaudeBot o PerplexityBot la vedano davvero. Molte volte il sito è raggiungibile dai browser, ma è bloccato da regole robots.txt, CDN/WAF che filtrano in base all’User-Agent, o errori di configurazione dell’origine. Questa CLI ti dà una risposta precisa su cosa succede. Cosa fa @geosuite/ai-crawler-bots - verifica la reachability dei bot AI più importanti - controlla robots.txt e individua la riga responsabile del blocco - distingue tra blocco edge (Cloudflare, Akamai, Vercel, Netlify) e blocco origin - mostra il percorso logico della regola che impedisce l’accesso Comando d’uso npx @geosuite/ai-crawler-bots robots https://tuosito.com Questo comando non si limita a dire “bloccato”: spiega se il blocco avviene al confine della CDN o dentro la tua applicazione. Perché è diverso - zero runtime dependency - usa User-Agent ufficiali dei bot, aggiornati da documenti operatori - output leggibile e pratico - line-level provenance su robots.txt Se il bot riceve un 403, la distinzione edge/origin cambia la remediation: - edge: cambia un’impostazione nel CDN/WAF - origin: correggi la risposta del server o la configurazione dell’app Quando usarlo - prima di un audit SEO AI - dopo aver modificato CDN, WAF o regole robots.txt - se le pagine non appaiono nei risultati di strumenti che simulano i modelli - quando vuoi capire se l’AI crawl fa lo stesso percorso del browser Link Repo: github.com/TryGeoSuite/ai-crawler-bots Se trovi un bot mancante o un User-Agent sbagliato, apri una PR su bots.json.