
Tengo datos que sugieren que Shopify no ha estado sirviendo un archivo robots.txt de manera consistente (si es que lo ha hecho) desde al menos el 4 de enero (y parece que se acaba de arreglar hoy, 5 p.m. GMT del 15 de enero).
La imagen de arriba muestra cómo 690,000 URL pasaron de bloqueadas a rastreables el 4 de enero, y hoy verifiqué este problema en varios sitios de archivos robots.txt, y todos ellos muestran código HTML para una página 404 dentro del archivo en lugar de las reglas habituales de robots.txt.
También hay numerosos ejemplos en GSC del último archivo robots.txt registrado que se rastreó el 4 de enero.
Definitivamente uno a tener en cuenta en caso de que vuelva a suceder / aún no esté completamente arreglado: coloque otras etiquetas en su lugar como medida de seguridad.
Un ejemplo de cómo esto podría conducir a importantes problemas de indexación:
Una tienda que no ha configurado sus páginas de filtro en noindex, ahora de repente tiene combinaciones de filtros indexables (anteriormente bloqueadas por el “+” en el archivo robots.txt), lo que podría aumentar exponencialmente el número de páginas indexables.
Aquí hay una imagen que muestra lo que se le mostró a Google en el archivo robots.txt (el HTML de la página 404):
Me interesaría ver si alguien más ve estas grandes caídas en las páginas bloqueadas en GSC (he comprobado unas 10 hasta ahora y casi todas tienen caídas similares).