Cómo Google rastrea una página web

MiguelAngelddl

hace 10 años

Google Rastrea

Cada vez que se habla del marketing digital, una de las piezas clave es el posicionamiento web. Para conseguir que nuestra página aparezca en los primeros resultados de búsqueda en Google, el primer paso es lograr que encuentre nuestro site, lo rastree y lo indexe. La culminación de una estrategia online eficaz pasa por que la primera visita sea la de un rastreador web, y que lo haga concienzudamente y sin ningún obstáculo. Es el punto de partida en nuestra andadura dentro del SEO, para lograr que los internautas nos vean cuando utilicen el buscador; cuando no facilitamos esa primera toma de contacto, toda nuestra estrategia se verá afectada y nuestra visibilidad online podría llegar a ser incompleta o errónea. Para evitar perder posteriormente tiempo y recursos, es necesario conocer los mecanismos que entran en juego cuando Google rastrea nuestra web, para simplificar y ayudar todo lo posible y que salgamos beneficiados del proceso.

Conceptos básicos del rastreo

Un crawler (rastreador) es un pequeño software que viaja por la red de redes utilizando los enlaces de las web en Internet, y va saltando de una a otra mientras recopila la información de las páginas para subirlas al servidor de Google; su nombre en este caso es Googlebot. También son conocidos como bots, robots o spiders, y es el método más común utilizado por los buscadores para reunir los datos de contenidos nuevos o recién actualizados y crear un índice de todo en su servidor: es lo que se conoce como indexación. Una vez que se encuentra indexado, el mismo servidor se encarga de organizar el contenido por relevancia para las múltiples búsquedas que pueda hacer un usuario desde el buscador; es lo que familiarmente denominamos posicionamiento.

Googlebot sólo rastrea las páginas de tu web si tiene permiso para hacerlo, por lo que es un arma de doble filo: te permite seleccionar el contenido que quieres que aparezca en los resultados de búsqueda, pero si lo indicas incorrectamente puedes incluso desaparecer de sus listados. La piedra angular en el universo del marketing online es conseguir que tu web sea rastreada e indexada positivamente por Google, ya que es el buscador más utilizado en nuestro país.

Teniendo en cuenta que los crawlers son programas, lo que hacen es escanear el código fuente de la página web por lo que este tiene que ser reconocible (nada de tecnología obsoleta como Flash) y correctamente estructurado (si un humano puede navegar de principio a fin sin problemas, Googlebot también lo hará). Si el bot no puede visitar correctamente el sitio, no podrá rastrearla y mucho menos indexarla.

Cómo Google rastrea un sitio web

Para entender el proceso y llevar a cabo acciones que aseguren que tu web termine indexada, primero hay que echar un vistazo a la forma que tiene Google de rastrear las páginas:

– Hay que tener muy claro que, si no hay impedimentos, Googlebot está continuamente accediendo a tu site. La tasa de rastreo de Google hace referencia a la velocidad de peticiones de Googlebot, que puede llegar a ser de una vez cada pocos segundos; esto no quiere decir que toda tu web esté siendo rastreada completamente en cada momento. Las peticiones sirven para comprobar los nuevos contenidos o los recién actualizados que tengan que ser rastreados, por lo que no es necesario rastrear cada página del sitio web todo el rato; como puedes ver, es un sistema muy preciso que proporciona a Google la información exacta de cuándo hay contenido «fresco» en una web.

– Primeramente, Googlebot lee la información escrita en el archivo robots.txt, ya que es donde indicamos los contenidos de nuestra web que pueden ser rastreados e indexados por los crawlers; si alguna página o directorio tiene el acceso denegado mediante el protocolo de exclusión, no será indexado. Este archivo se encuentra en el directorio raíz de la página web y es un texto sencillo con dos comandos: User-agent para los bots, y Disallow para los contenidos.

Con el robots.txt puedes bloquear a las arañas conocidas de los buscadores que no quieras que indexen tu contenido (por la razón que fuera esa). Por ejemplo:

User-agent: Googlebot
Disallow: /

Esto bloquearía al crawler de Google, pero no es lo que queremos (ya que en primer lugar no estarías leyendo este post). Eso para los «legítimos», para los bots fraudulentos (los que se dedican a buscar vulnerabilidades de seguridad o el spammer en busca y captura de correos electrónicos) no habría barrera ya que ni siquiera se paran a leer el archivo. Y como es público y accesible, cualquiera puede ver su contenido, por lo que no utilices el archivo para esconder información de tu servidor que pueda ser usada en tu contra. Un robots.txt que permite a todos los bots la entrada sería:

User-agent: *
Disallow:

También dejándolo en blanco, o incluso no subir ningún archivo.

Para el tema del posicionamiento, tienes que tener siempre controlado tu robots.txt; si haces cambios en la web y no lo actualizas, puedes encontrarte con la sorpresa de un contenido no indexado (o de algo obsoleto que por sorpresa aparece de nuevo en los resultados de búsqueda). Mediante un análisis técnico de tu web y/o servidor de alojamiento podrás editar el sencillo código del robots.txt y solucionar cualquier imprevisto para que las arañas sepan exactamente qué hacer durante sus (frecuentes) visitas.

– Después de conocer los permisos que tiene y hasta dónde puede entrar, Google pasa a continuación a revisar el archivo sitemap.xml; hay que saber que normalmente los motores de búsqueda no precisan siempre de la información contenida en este archivo para revelar el esqueleto de una web, ya cada vez son más eficaces. Pero sigue siendo muy importante, sobre todo por la inmensa diversidad de webs con sus diferentes estructuras y configuraciones, que a veces puede obstaculizar el llegar hasta cada parte o porción que necesitan ser indexados. Un sitemap completo y bien edificado puede apoyarnos a la hora de indexar por ejemplo contenidos dinámicos, imágenes, vídeos, archivos PDF, etc.

A parte, cada sitemap revela importante información en forma de metadatos: fecha de última actualización de la web, la asiduidad con la que se modifica el contenido de las páginas enumeradas o las relaciones entre los diferentes enlaces internos que se van creando con el paso del tiempo. De nuevo, es posible que los rastreadores puedan detectar casi todo, aunque si el sitio es demasiado grande existe la posibilidad de que pasen por alto algún segmento sobre todo si las diferentes páginas no se hacen referencia de forma natural; es necesario enumerarlas en el sitemap para que sean más visibles.

Si la web es de reciente creación y todavía no recibe ningún enlace externo, no dejes nada al azar y procura que Google siga el rastro que deja tu propia página web y que forma el sitemap.xml. Al principio es mejor estar al tanto y tenerlo actualizado, Google es más «perezoso» con los recién llegados ya que asigna a su bot un tiempo, el «crawl budget«, para rastrear cada sitio web. En función de la velocidad, autoridad, accesibilidad y calidad del site, Google modificará el tiempo para que sus arañas rastreen cada una de sus páginas. Mejora estas características, sube contenidos con frecuencia y recibirás más visitas de los rastreadores, con lo que subirás en el posicionamiento y el tráfico en tu web aumentará.

– Al final, la información fundamental que debe ser rastreada correctamente en una web es:

Todas las URL de las páginas, posts y archivos visibles (es decir, los que hemos dado el visto bueno para rastrear).
Las etiquetas de título de los contenidos.
Todo lo que englobe metadatos, como la descripción de la página o el marcado de datos estructurados.

Y es en definitiva lo que aparecerá en los resultados de búsqueda una vez tengas todo indexado. Es por ello que hay que extremar el cuidado para que todo cuadre y no contenga un error de contexto o de ortografía, ya que será lo que se verá en el snippet del buscador antes de llegar a nuestra web.

Para poder ver una vista previa del snippet (y muchas más opciones una vez tengas indexada la web), podemos usar la herramienta de Google Search Console. Aquí encontraremos muchas opciones para que cualquier propietario de una web pueda sacar el mejor rendimiento de sus páginas, revisando cualquier aspecto del rastreo (errores, estadísticas, pruebas) la indexación (estado, palabras clave, recursos bloqueados) o incluso de los resultados de búsqueda donde aparecimos.

Pasos para facilitar el rastreo

Bien, queremos que Google encuentre nuestra web, la indexe y la clasifique en los resultados de búsqueda. Ya hemos visto los archivos que deben facilitar la tarea a Googlebot, y con ellos tenemos que tener claro que una web bien estructurada y con un mínimo de calidad, no tendrá ninguna pega para aparecer rápidamente en los resultados de búsqueda.

Si la web es nueva y recién salida del horno, desde el mismo Google Search Console podremos facilitar la dirección URL o incluso enviar el sitemap directamente. Por supuesto, tiene que estar ya accesible online, y aunque parezca obvio, ha de estar operativa 24 horas; si solo se puede acceder de manera intermitente o pasa largos periodos inoperativa, no esperes que Google te tenga en cuenta para aparecer en su buscador. Ve creando una jerarquía conceptual nítida de las páginas, con una home y el resto pendientes de la principal, que se pueda alcanzar cualquiera de ellas siguiendo enlaces, y sobre todo, nada de callejones sin salida.

Piensa cómo te intentaría encontrar alguien y qué palabras introduciría para localizar las páginas; todas esas palabras deben de estar de algún modo en tu web, así que desarrolla contenidos para que tengas que utilizarlas naturalmente (siempre describiendo el contenido con claridad y exactitud). Cada uno de los elementos <title> y los atributos alt para las imágenes tienen que especificar y precisar lo que se está leyendo/viendo: ayudas tanto a los usuarios que lleguen a la web como a Google para que entienda el contenido. No impidas el rastreo de los robots con identificadores de sesión, ya que puede generar una indexación incompleta del sitio.

Hay que estar pendiente en todo momento de la velocidad de carga de la web; un acceso rápido mejorará la experiencia de usuario y contribuye a que Google valore tu sitio positivamente y aumente la reputación de calidad que se verá reflejada en el posicionamiento.

En definitiva, si todo el contenido de tu web está bien optimizado, tus páginas serán rastreadas e indexadas sin que tengas que destinar ningún recurso más en este sentido. Y según vayas ampliando el contenido del sitio, todo formará parte del engranaje espontáneamente y las reglas básicas se mantendrán intactas. La optimización para el perfecto rastreo por parte de Google requiere de una especial atención al comienzo de nuestra estrategia SEO; si fallamos en este primer paso, todos los esfuerzos y recursos posteriores pueden caer en saco roto. Para alcanzar la indexación y aparecer en los resultados de búsqueda, tenemos que asegurarnos que la web es sencilla de rastrear por parte de los crawlers que nos visiten.

Una vez tengamos la web rastreada e indexada, podemos seguir con los siguientes pasos de posicionamiento tranquilamente, ya que estaremos seguros que la eficacia de nuestras acciones estará respaldada por una buena base. A partir de ahí, ya solo queda seguir mejorando la estrategia porque sabremos que se asienta sobre terreno firme; la visibilidad en los resultados de búsqueda y el aumento del tráfico web serán la mejor recompensa a nuestros esfuerzos. Si tienes cualquier duda o problema, utiliza los comentarios y trataremos de resolverlos.