Perché serve un tool come ai-crawler-bots
Oggi i modelli AI contano quanto Google. Il problema è che avere una pagina online non significa che GPTBot, ClaudeBot o PerplexityBot la vedano davvero.
Molte volte il sito è raggiungibile dai browser, ma è bloccato da regole robots.txt, CDN/WAF che filtrano in base all’User-Agent, o errori di configurazione dell’origine. Questa CLI ti dà una risposta precisa su cosa succede.
Cosa fa @geosuite/ai-crawler-bots
- verifica la reachability dei bot AI più importanti
- controlla robots.txt e individua la riga responsabile del blocco
- distingue tra blocco edge (Cloudflare, Akamai, Vercel, Netlify) e blocco origin
- mostra il percorso logico della regola che impedisce l’accesso
Comando d’uso
npx @geosuite/ai-crawler-bots robots https://tuosito.com
Questo comando non si limita a dire “bloccato”: spiega se il blocco avviene al confine della CDN o dentro la tua applicazione.
Perché è diverso
- zero runtime dependency
- usa User-Agent ufficiali dei bot, aggiornati da documenti operatori
- output leggibile e pratico
- line-level provenance su robots.txt
Se il bot riceve un 403, la distinzione edge/origin cambia la remediation:
- edge: cambia un’impostazione nel CDN/WAF
- origin: correggi la risposta del server o la configurazione dell’app
Quando usarlo
- prima di un audit SEO AI
- dopo aver modificato CDN, WAF o regole robots.txt
- se le pagine non appaiono nei risultati di strumenti che simulano i modelli
- quando vuoi capire se l’AI crawl fa lo stesso percorso del browser
Link
Repo: github.com/TryGeoSuite/ai-crawler-bots
Se trovi un bot mancante o un User-Agent sbagliato, apri una PR su bots.json.
Come capire se GPTBot, ClaudeBot e PerplexityBot vedono davvero il tuo sito
Un crawler leggero che genera sitemap.xml compliant, con limiti di profondità, numero di pagine e budget, senza puppeteer o librerie pesanti.