Icono del sitio MiBloguel

Limpieza en Google Analytics: Semalt, bots y más

Limpieza en Google Analytics Semalt, bots y otras entidades más

 

Dentro del apasionante mundo del análisis de datos, (y más concretamente en el apartado que nos interesa, la analítica web), la importancia de unos datos insesgados, limpios y correctos es vital para generar buenas estadísticas e informes; esto nos permitirá planificar, ejecutar y evaluar todos los pasos de nuestra estrategia que nos acerque a los objetivos fijados. En las fases de exploración, limpieza y transformación de datos es esencial poner el máximo empeño en poseer el mejor material para trabajar en su estudio posterior; en Google Analytics esas fases no son tan accesibles, pero sí que disponemos de herramientas que nos ayudan a evitar errores futuros de presentación e interpretación de resultados. Y el mayor enemigo que se nos presenta en el tráfico web son los «invitados indeseados«, que llegan en forma de bots, arañas y programas mecanizados para falsear los datos  de tráfico y generar información vacía e inútil. Para evitarlo y comenzar a tener datos puros sin intoxicación de fuentes ajenas a nuestros intereses, vamos a ver los pasos que debemos realizar una limpieza en Google Analytics de esas entidades.

 

Ahora, puede que te asalte una duda: «¿cuál es el problema de tener tráfico extra en mi web?«. Para empezar, lo que provoca es un tráfico automatizado, no humano. «Pero vamos, en realidad no es dañino ni perjudica en absoluto, ¿verdad? ¿VERDAD?«. Bueno en algún caso, que luego veremos, a largo plazo está todavía por ver, pero lo que ahora debería preocuparte es que estas visitan sesgan tus estadísticas y desvirtúan completamente los informes; mientras exista Internet existirán estas entidades que provocarán actividad inservible en tus páginas y abusarán de tu hospitalidad. Entran y salen de tu web, pero no interaccionan de forma humana y racional con el contenido, no rellenan formularios ni pasan a formar parte de tus suscriptores, no comparten enlaces por las redes sociales ni realizan conversiones, etc.

En definitiva, este tráfico no son personas y sus movimientos provocan unos datos sesgados y que las decisiones que estés tomando sean totalmente erróneas. Si suponemos que tienes 100 visitas diarias, pero 20 de ellas no permiten extrapolar una mejora de comunicación con tus clientes o no te permite corregir la usabilidad para agilizar el acceso de tu blog, tus porcentajes y gráficos no te estarán dibujando la situación real de la web; estás gastando tiempo y recursos en un punto fundamental del marketing digital, la analítica web, y obtendrás un dibujo ficticio de lo que ocurre verdaderamente.

Ten presente que cualquier modificación que hagamos se verá reflejado en todos los informes que generemos de ahora en adelante, pero todos los datos falseados que se hubieran producido con anterioridad seguirán apareciendo en las fechas pretéritas; como siempre, es un pequeño inconveniente, pero más vale tarde que nunca y sobre todo, vamos a salir ganando y la mejora en rendimiento analítico será enorme.

 

 

Excluir todas las visitas de robots y de arañas conocidos

 

Primero, vamos a decirle a Analytics que nos filtre las visitas que nos hagan los bots y arañas normales (si es que no lo está haciendo ya); para ello, seleccionamos nuestra cuenta y entramos en el menú Administrador de la parte de arriba. Pinchamos en VER la vista donde queremos aplicarlo (recuerda que debe ser la vista general que usemos para los informes) y abrimos la pestaña Ver Configuración:

 

 

 

Entraremos en la ventana Configuración de vista de informes->Filtrado de robots y marcamos la casilla Excluye todas las visitas de robots y de arañas conocidos. De ahora en adelante Analytics filtrará todo ese tráfico de los informes.

 

 

 

De esta forma no podremos saber exactamente qué arañas llegan a nuestro sitio y cuáles van a ser filtradas; sin embargo, dado que cerca de un tercio de las visitas son de bots automatizados y que la lista se actualiza regularmente, es casi imposible llevar una relación completa de sus visitas, por lo que es mejor dejar que el propio Analytics se encargue por nosotros de esta tarea, marcando esta opción. Si no estaba activado anteriormente, notaremos una lógica disminución del tráfico en nuestra web, pero estaremos un paso más cerca de tener datos más precisos para su medición y que nuestros informes sean muy rigurosos.

 

 

Filtrado de tráfico de referencia: Semalt y otras entidades fantasmas

 

Para ver qué tipo de tráfico de referencia tenemos (recuerda que no es el directo ni por motores de búsqueda), vamos a coger un rango de fechas que abarque días, semanas o incluso meses (esto dependerá de la notoriedad de tu web); con esto garantizamos la representación de las fuentes más asiduas que desde otras páginas aterrizan en la nuestra. Para ello, desde Informes, pinchamos en el menú de la parte izquierda en Adquisición->Todas las referencias y nos aparecerá el informe con la gráfica y la tabla de sesiones:

 

 

 

Lo que te tiene que llamar la atención de tu tabla es el porcentaje de nuevas sesiones y la columna de comportamiento: el tráfico es ficticio para las fuentes con 100% de porcentaje de rebote, 1 página por sesión y nula duración media de la sesión. En este ejemplo, se comprueba que hay 3 fuentes que cumplen estos requisitos: los dominios semalt.semalt.com, buttons-for-website.com y make-money-online.7makemoneyonline.com. Ya por el nombre que tienen nos da en la nariz que de ahí no están llegando lectores ávidos de buen contenido; el resto de fuentes son más o menos reconocibles (cuidado, t.co es una de nuestras redes sociales favoritas, Twitter) y que los datos que generan son los de internautas de carne y hueso. Pero las tres que hemos mencionado están ensuciando la información que nos suministra Analytics, y eso que son de fechas recientes: con el tiempo se irá acumulando datos que no llevan a ninguna parte ni a ninguna conclusión.

 

En el caso de Semalt (que es la que mayor porcentaje de sesiones tiene), si visitamos su página web vemos que dicen ser un equipo desarrollador ucraniano que llevan perfeccionando sus «habilidades SEO desde hace 10 años» (sic) y que poseen una herramienta profesional de analítica web, Semalt. Indagando un poco, descubrimos que el dominio tiene un año de vida y que en estos últimos meses es cuando más han hecho extender las redes de sus bots por todas las webs del mundo; son suficientes indicios para empezar a sospechar que no realizan un servicio legítimo, e incluso que salten las alarmas al pensar que todo lo que venga del site no puede ser de una fuente beneficiosa. ¿Pero qué razón puede tener una web para crear y enviar arañas a navegar por la red de redes? Recopilar información, por supuesto pero, ¿con qué propósito? Hablan de un programa de rankings de keywords, aunque mucho me temo que no es nada filantrópico, y mientras no esté clarificado ese punto depende de nosotros desconfiar; podríamos comportarnos de forma drástica pero vamos a ser cautelosos y respetar las reglas del juego en Internet.

Lo que realmente nos debe preocupar de Semalt y otras páginas que envían tráfico automatizado a nuestra web, es que no generan ningún beneficio, dificultan nuestros objetivos y no atraen internautas de carne y hueso. Además, la tasa de rebote es siempre del 100%, por lo que falseará enormemente este dato; mientras esperamos que Google tome cartas en el asunto y aplique alguna medida contra estos indeseables, empecemos a remangarnos y administrar nuestra propia medicina.

 

Desde el menú Administrador, vamos a PROPIEDAD->Información de seguimiento->Lista de exclusión de referencia:

 

 

Entramos y en la nueva página seleccionamos el botón +AGREGAR EXCLUSIÓN DE REFERENCIA; tan sencillo como introducir el nombre del dominio que no queremos que aparezca como referencias en los informes (por ejemplo, semalt.com) y darle a Crear:

 

 

Hacemos lo mismo para cada dominio que tengamos en la lista negra, y a correr; imagino que en tu web tendrás como mínimo las que he añadido, pero si has encontrado alguna otra sospechosa y no estás segur@, pregunta por aquí para confirmarlo y no filtrar tráfico bueno y genuino. Es posible que las del ejemplo correspondan a la misma empresa que tiene varios tentáculos para hacer llegar sus bots y, dalo por hecho, aunque las filtremos volverán a aparecer en una nueva encarnación. Pero de esta manera podemos tener controlado cualquier visita automatizada, ocultarla y que no aparezca en nuestros informes.

¿Cuál es la mayor consecuencia de todo esto? Que vas a notar una notable disminución de tráfico a partir de ahora, pero puedes confirmar que será de calidad y, por supuesto, totalmente humano. Si tienes un blog ahora tendrás la seguridad de que cada post atrae a la gente por su contenido y no a las arañas buscando saciar su sed de HTML; si la web es de tu cliente/empresa tendrás que avisar de este inconveniente, pero explicar que todo son ventajas de cara a estrategias, consecución de objetivos y retorno de la inversión. Que no hay que tener la sensación de que la analítica se reduce a tener un número que cuanto más grande es, mejor; grave error. El análisis de datos nos habla de tendencias, comportamientos, información no visible, descubrimiento de nuevas y significativas relaciones, patrones y, en definitiva, conocimiento. Y en una página web todo eso, nos lo aportan las personas.

 

¿Crees que es importante disponer de datos claros y fidedignos? ¿Qué piensas de las empresas que se dedican a crear falsas visitas en nuestras webs? Encantado de comenzar un debate con vosotr@s.

Salir de la versión móvil