He notado en algunos clientes un aumento de rastreos de URLs no indexadas que corresponden a parámetros. Estos pueden llegar a ser miles en un solo día.
Este error se presenta en Google Search Console como "Rastreado - actualmente no indexado". Al investigar su causa, descubrí que se debe al plugin de seguridad Wordfence.
¿Causa algún impacto en SEO?
El siguiente ejemplo corresponde a un sitio web con aproximadamente 5,000 URLs. Sin embargo, el rastreo de las páginas parametrizadas generadas por el plugin alcanza cerca de 15,000. Esto podría reducir el presupuesto de rastreo diario destinado a páginas importantes del sitio y causar ruido.
URLs parametrizadas del plugin Wordfence rastreables por Google
En WordPress, las URLs de páginas autogeneradas por Wordfence tienen el siguiente formato:
https://domain.com/?wordfence_1h=1&hid=JF352D0F65FFF754A5B546157CC272E4
Esta es una URL basada en parámetros que está completamente vacía, pero devuelve un estado HTTP 200, lo cual permite su rastreo. Sin embargo, no son indexables debido a que contienen una etiqueta noindex en el X-Robots-Tag.
¿Por qué Wordfence crea estas páginas en blanco?
De hecho, Wordfence utiliza estas URLs con parámetros para su función de Monitoreo de Tráfico en Tiempo Real.
Esta característica permite visualizar la actividad actual en tu sitio web. Según la descripción oficial de Wordfence:
"Wordfence registra tu tráfico a nivel de servidor, lo que significa que incluye datos que los paquetes basados en JavaScript como Google Analytics no te muestran. Por ejemplo, el Tráfico en Vivo te muestra las visitas de los rastreadores de Google, los rastreadores de Bing, intentos de hackeo y otras visitas que no ejecutan JavaScript. Típicamente, Google y otros paquetes de análisis solo te mostrarán visitas de navegadores web operados por humanos."Tomado del sitio web de Wordfence - https://www.wordfence.com/help/tools/live-traffic/
¿Cómo evitar que se sigan generando estas URLs y sean rastreables?
Existen varias formas de corregir este problema. Una opción es modificar la configuración del plugin, como se menciona en este artículo, donde se presentan dos métodos técnicos para solucionarlo.
Otra alternativa es enviar un status 410 a estas páginas vacías para que no se sigan considerando, como se sugiere en el foro de WordPress "Wordfence generando Links".
Sin embargo, como experto en SEO, prefiero una solución más sencilla. Para evitar que Google rastree estas URLs —aunque devuelvan un status 200— la mejor opción es bloquearlas mediante el archivo robots.txt, ya que estas URLs no están enlazadas directamente en el sitio web.
En nuestra Agencia especializada en SEO, estamos preparados para ayudarte con este y otros problemas técnicos que puedan afectar el rendimiento de tu sitio web.
Solución a este problema
Para bloquear el rastreo de URLs con el parámetro "wordfence_lh" y todo lo que venga después, puedes agregar la siguiente línea directiva a tu archivo robots.txt:
Disallow: /*?wordfence_lh=
Esta regla impedirá que los motores de búsqueda rastreen cualquier URL que contenga "?wordfence_lh=" y los parámetros subsiguientes, ayudando a resolver el problema de las páginas generadas por Wordfence que aparecen en los informes de Google Search Console.
Puedes probar la regla disallow con cualquier herramienta de probador de robots.txt
Espero que te haya ayudado este post a resolver este problema técnico que puede estar causando ruido a tus informes de rastreo e indexación.