Semalt proporciona consejos sobre cómo lidiar con bots, arañas y rastreadores

Además de crear URL amigables para los motores de búsqueda , el archivo .htaccess permite a los webmasters bloquear el acceso de bots específicos a su sitio web. Una forma de bloquear estos robots es a través del archivo robots.txt. Sin embargo, Ross Barber, el gerente de éxito del cliente de Semalt , afirma que ha visto a algunos rastreadores ignorar esta solicitud. Una de las mejores formas es utilizar el archivo .htaccess para evitar que indexen su contenido.

¿Qué son estos bots?

Son un tipo de software utilizado por los motores de búsqueda para eliminar contenido nuevo de Internet con fines de indexación.

Realizan las siguientes tareas:

  • Visite las páginas web a las que ha vinculado
  • Verifique su código HTML para errores
  • Guardan a qué páginas web está enlazando y ven qué páginas web enlazan a su contenido
  • Indizan tu contenido

Sin embargo, algunos bots son maliciosos y buscan en su sitio direcciones de correo electrónico y formularios que generalmente se usan para enviarle mensajes no deseados o spam. Otros incluso buscan lagunas de seguridad en su código.

¿Qué se necesita para bloquear los rastreadores web?

Antes de usar el archivo .htaccess, debe verificar lo siguiente:

1. Su sitio debe estar ejecutándose en un servidor Apache. Hoy en día, incluso las empresas de alojamiento web medio decentes en su trabajo, le dan acceso al archivo requerido.

2. Debe tener acceso a los registros del servidor sin procesar de su sitio web para que pueda localizar qué bots han visitado sus páginas web.

Tenga en cuenta que no hay forma de que pueda bloquear todos los bots dañinos a menos que los bloquee a todos, incluso a aquellos que considere útiles. Todos los días aparecen nuevos bots y se modifican los más antiguos. La forma más eficiente es asegurar su código y hacer que sea difícil para los bots enviarle correo basura.

Identificando bots

Los bots pueden identificarse mediante la dirección IP o desde su "Cadena de agente de usuario", que envían en los encabezados HTTP. Por ejemplo, Google usa "Googlebot".

Es posible que necesite esta lista con 302 bots si ya tiene el nombre del bot que le gustaría mantener alejado usando .htaccess

Otra forma es descargar todos los archivos de registro del servidor y abrirlos con un editor de texto. Su ubicación en el servidor puede cambiar según la configuración de su servidor. Si no puede encontrarlos, busque ayuda de su proveedor de alojamiento web.

Si sabe qué página visitó o el momento de la visita, es más fácil venir con un bot no deseado. Puede buscar el archivo de registro con estos parámetros.

Una vez que hayas notado qué bots necesitas bloquear; luego puede incluirlos en el archivo .htaccess. Tenga en cuenta que bloquear el bot no es suficiente para detenerlo. Puede volver con una nueva IP o nombre.

Como bloquearlos

Descargue una copia del archivo .htaccess. Haga copias de seguridad si es necesario.

Método 1: bloqueo por IP

Este fragmento de código bloquea el bot usando la dirección IP 197.0.0.1

Orden denegar, permitir

Negar desde 197.0.0.1

La primera línea significa que el servidor bloqueará todas las solicitudes que coincidan con los patrones que ha especificado y permitirá todas las demás.

La segunda línea le dice al servidor que emita un 403: página prohibida

Método 2: bloqueo por agentes de usuario

La forma más fácil es usar el motor de reescritura de Apache

RewriteEngine On

RewriteCond% {HTTP_USER_AGENT} BotUserAgent

RewriteRule. - [F, L]

La primera línea asegura que el módulo de reescritura esté habilitado. La línea dos es la condición a la que se aplica la regla. La "F" en la línea 4 le dice al servidor que devuelva un 403: Prohibido, mientras que la "L" significa que esta es la última regla.

Luego cargará el archivo .htaccess a su servidor y sobrescribirá el existente. Con el tiempo, deberá actualizar la IP del bot. En caso de que cometa un error, simplemente cargue la copia de seguridad que realizó.