Un file chiamato Robots.txt contiene le istruzioni per eseguire la scansione di un sito Web. Questo standard, noto anche come protocollo di esclusione dei robot, viene utilizzato dai siti Web per indicare ai robot quali parti del loro sito Web devono essere indicizzate. Puoi anche selezionare a quali posizioni non vuoi che questi crawler accedano; questi siti possono contenere materiale duplicato o essere in costruzione. Bot come rilevatori di malware e raccoglitori di posta elettronica non seguono questa norma ed esamineranno la tua sicurezza per individuare eventuali difetti e ci sono buone probabilità che inizino a guardare il tuo sito dalle sezioni che non vuoi indicizzare.
"User-agent" è la prima direttiva in un file Robots.txt completo e sotto di essa possono essere scritte direttive come "Allow", "Disallow", "Crawl-Delay" e così via. La scrittura manuale potrebbe richiedere molto tempo e puoi inserire molte righe di comandi in un file. Se desideri omettere una pagina, aggiungi "Disallow: il link che non vuoi che i bot visualizzino" nell'attributo disallow, e lo stesso vale per l'attributo di consenso. Se pensi che sia tutto ciò che c'è nel file robots.txt, ripensaci. Una riga errata può impedire l'indicizzazione della pagina. Di conseguenza, è meglio delegare il compito agli esperti e lasciare che il nostro generatore Robots.txt gestisca il file per te.
Ti rendi conto che un semplice file può aiutare il tuo sito web a ottenere un ranking più alto?
Il file robots.txt è il primo file che i robot dei motori di ricerca guardano; se non viene trovato, c'è una buona probabilità che i crawler non indicizzino tutte le pagine del tuo sito. Questo piccolo file può essere modificato in seguito con l'aiuto di piccole istruzioni quando aggiungi altre pagine, ma assicurati di non includere la pagina principale nella direttiva forbid. Google ha un budget di scansione, che è determinato da un limite di scansione.
Il limite di scansione è la quantità di tempo che i crawler trascorrono su un sito web; tuttavia, se Google scopre che la scansione del tuo sito sta interrompendo l'esperienza dell'utente, eseguirà la scansione del sito più lentamente. Ciò implica che ogni volta che Google invia uno spider, cercherà solo in poche pagine del tuo sito e ci vorrà del tempo prima che il tuo post più recente venga indicizzato. Per eliminare questa limitazione sono necessari una mappa del sito e un file robots.txt. Questi file aiuteranno il processo di scansione indicando quali collegamenti sul tuo sito richiedono ulteriore attenzione.
Poiché ogni bot ha un preventivo di scansione per un sito Web, è necessario anche un file robot aggiornato e completo per un sito Web wordpress che per esempio puo avere centinaia o persino migliaia di pagine. Il motivo è che ha molte pagine non hanno bisogno di essere indicizzate e quindi questio grandi siti beneficiano di un file robot.txt ben fatto in modo tale che gli spiders di Google sappiano dove e cosa leggere e non perdano tempo con files che non sono utili.
Che cosa fanno le direttive in un file Robots.txt?
Se stai producendo manualmente il file, devi essere a conoscenza delle linee guida del file. Dopo aver appreso come funzionano, puoi persino modificare il file.
Crawl-delay Questa direttiva impedisce ai crawler di sovraccaricare l'host; troppe query possono causare l'overflow del server, causando un'esperienza utente scadente. Il ritardo di scansione viene gestito in modo diverso dai diversi bot dei motori di ricerca; Bing, Google e Yandex hanno tutti approcci diversi a questa direttiva. Per Yandex, è un periodo di tempo tra le visite, per Bing, è una finestra di tempo durante la quale il bot visiterà il sito solo una volta e per Google, puoi utilizzare il pannello di ricerca per gestire le visite del bot.
Consentire L'URL seguente può essere indicizzato utilizzando la direttiva Consenti. Puoi aggiungere tutti gli URL che desideri, ma se si tratta di un sito di shopping, la tua lista potrebbe crescere rapidamente. Tuttavia, utilizza il file robots solo se sul tuo sito sono presenti pagine di cui non desideri eseguire la scansione.
Disabilitazione: L'obiettivo principale di un file Robots è impedire ai crawler di accedere ai collegamenti, alle cartelle e così via specificati. Altri bot, d'altra parte, utilizzano queste directory per cercare malware perché non seguono la norma.
Una mappa del sito è essenziale per tutti i siti Web perché contiene informazioni che possono essere utilizzate dai motori di ricerca. Una mappa del sito informa i bot sulla frequenza con cui aggiorni il tuo sito Web e sul tipo di materiale che offri. Il suo scopo principale è informare i motori di ricerca su tutte le pagine del tuo sito che devono essere scansionate, mentre il file robots txt è per i crawler. Indica ai crawler quali pagine dovrebbero visitare e quali dovrebbero evitare. È necessaria una mappa del sito per indicizzare il tuo sito, sebbene non sia presente un file robots.txt (a meno che tu non abbia pagine che non devono essere indicizzate).
Il file robots.txt è semplice da creare, tuttavia chi non sa come dovrebbe seguire i passaggi seguenti per risparmiare tempo.
Quando arrivi alla pagina del generatore di txt di New robots, troverai alcune opzioni; non tutti sono obbligatori, ma devi scegliere con saggezza. La riga superiore fornisce i valori predefiniti per tutti i robot e, se lo si desidera, un crawl-delay. Se non desideri cambiarli, lasciali come sono prestabiliti:
Assicurati di avere una mappa del sito nella terza riga e non dimenticare di specificarla nel file robots.txt.
Successivamente, puoi scegliere tra alcune opzioni per i motori di ricerca, ad esempio se desideri o meno che i robot dei motori di ricerca eseguano la scansione del tuo sito.
L'ultima opzione è non consentire, che impedisce ai crawler di indicizzare determinate parti della pagina. Prima di inserire l'indirizzo della directory o della pagina, assicurati di includere la barra.
Bene ora puoi creare il tuo file.