Limpieza en Google Analytics: Semalt, bots y más

    Limpieza en Google Analytics Semalt, bots y otras entidades más

     

    Dentro del apasionante mundo del análisis de datos, (y más concretamente en el apartado que nos interesa, la analítica web), la importancia de unos datos insesgados, limpios y correctos es vital para generar buenas estadísticas e informes; esto nos permitirá planificar, ejecutar y evaluar todos los pasos de nuestra estrategia que nos acerque a los objetivos fijados. En las fases de exploración, limpieza y transformación de datos es esencial poner el máximo empeño en poseer el mejor material para trabajar en su estudio posterior; en Google Analytics esas fases no son tan accesibles, pero sí que disponemos de herramientas que nos ayudan a evitar errores futuros de presentación e interpretación de resultados. Y el mayor enemigo que se nos presenta en el tráfico web son los “invitados indeseados“, que llegan en forma de bots, arañas y programas mecanizados para falsear los datos  de tráfico y generar información vacía e inútil. Para evitarlo y comenzar a tener datos puros sin intoxicación de fuentes ajenas a nuestros intereses, vamos a ver los pasos que debemos realizar una limpieza en Google Analytics de esas entidades.

     

    Ahora, puede que te asalte una duda: “¿cuál es el problema de tener tráfico extra en mi web?“. Para empezar, lo que provoca es un tráfico automatizado, no humano. “Pero vamos, en realidad no es dañino ni perjudica en absoluto, ¿verdad? ¿VERDAD?“. Bueno en algún caso, que luego veremos, a largo plazo está todavía por ver, pero lo que ahora debería preocuparte es que estas visitan sesgan tus estadísticas y desvirtúan completamente los informes; mientras exista Internet existirán estas entidades que provocarán actividad inservible en tus páginas y abusarán de tu hospitalidad. Entran y salen de tu web, pero no interaccionan de forma humana y racional con el contenido, no rellenan formularios ni pasan a formar parte de tus suscriptores, no comparten enlaces por las redes sociales ni realizan conversiones, etc.

    En definitiva, este tráfico no son personas y sus movimientos provocan unos datos sesgados y que las decisiones que estés tomando sean totalmente erróneas. Si suponemos que tienes 100 visitas diarias, pero 20 de ellas no permiten extrapolar una mejora de comunicación con tus clientes o no te permite corregir la usabilidad para agilizar el acceso de tu blog, tus porcentajes y gráficos no te estarán dibujando la situación real de la web; estás gastando tiempo y recursos en un punto fundamental del marketing digital, la analítica web, y obtendrás un dibujo ficticio de lo que ocurre verdaderamente.

    Ten presente que cualquier modificación que hagamos se verá reflejado en todos los informes que generemos de ahora en adelante, pero todos los datos falseados que se hubieran producido con anterioridad seguirán apareciendo en las fechas pretéritas; como siempre, es un pequeño inconveniente, pero más vale tarde que nunca y sobre todo, vamos a salir ganando y la mejora en rendimiento analítico será enorme.

     

     

    Excluir todas las visitas de robots y de arañas conocidos

     

    Primero, vamos a decirle a Analytics que nos filtre las visitas que nos hagan los bots y arañas normales (si es que no lo está haciendo ya); para ello, seleccionamos nuestra cuenta y entramos en el menú Administrador de la parte de arriba. Pinchamos en VER la vista donde queremos aplicarlo (recuerda que debe ser la vista general que usemos para los informes) y abrimos la pestaña Ver Configuración:

     

    Google Analytics - Configuración de la Vista

     

     

    Entraremos en la ventana Configuración de vista de informes->Filtrado de robots y marcamos la casilla Excluye todas las visitas de robots y de arañas conocidos. De ahora en adelante Analytics filtrará todo ese tráfico de los informes.

     

    Google Analytics - Excluir visitas de robots y arañas

     

     

    De esta forma no podremos saber exactamente qué arañas llegan a nuestro sitio y cuáles van a ser filtradas; sin embargo, dado que cerca de un tercio de las visitas son de bots automatizados y que la lista se actualiza regularmente, es casi imposible llevar una relación completa de sus visitas, por lo que es mejor dejar que el propio Analytics se encargue por nosotros de esta tarea, marcando esta opción. Si no estaba activado anteriormente, notaremos una lógica disminución del tráfico en nuestra web, pero estaremos un paso más cerca de tener datos más precisos para su medición y que nuestros informes sean muy rigurosos.

     

     

    Filtrado de tráfico de referencia: Semalt y otras entidades fantasmas

     

    Para ver qué tipo de tráfico de referencia tenemos (recuerda que no es el directo ni por motores de búsqueda), vamos a coger un rango de fechas que abarque días, semanas o incluso meses (esto dependerá de la notoriedad de tu web); con esto garantizamos la representación de las fuentes más asiduas que desde otras páginas aterrizan en la nuestra. Para ello, desde Informes, pinchamos en el menú de la parte izquierda en Adquisición->Todas las referencias y nos aparecerá el informe con la gráfica y la tabla de sesiones:

     

    Google Analytics - Tráfico de referencia

     

     

    Lo que te tiene que llamar la atención de tu tabla es el porcentaje de nuevas sesiones y la columna de comportamiento: el tráfico es ficticio para las fuentes con 100% de porcentaje de rebote, 1 página por sesión y nula duración media de la sesión. En este ejemplo, se comprueba que hay 3 fuentes que cumplen estos requisitos: los dominios semalt.semalt.com, buttons-for-website.com y make-money-online.7makemoneyonline.com. Ya por el nombre que tienen nos da en la nariz que de ahí no están llegando lectores ávidos de buen contenido; el resto de fuentes son más o menos reconocibles (cuidado, t.co es una de nuestras redes sociales favoritas, Twitter) y que los datos que generan son los de internautas de carne y hueso. Pero las tres que hemos mencionado están ensuciando la información que nos suministra Analytics, y eso que son de fechas recientes: con el tiempo se irá acumulando datos que no llevan a ninguna parte ni a ninguna conclusión.

     

    En el caso de Semalt (que es la que mayor porcentaje de sesiones tiene), si visitamos su página web vemos que dicen ser un equipo desarrollador ucraniano que llevan perfeccionando sus “habilidades SEO desde hace 10 años” (sic) y que poseen una herramienta profesional de analítica web, Semalt. Indagando un poco, descubrimos que el dominio tiene un año de vida y que en estos últimos meses es cuando más han hecho extender las redes de sus bots por todas las webs del mundo; son suficientes indicios para empezar a sospechar que no realizan un servicio legítimo, e incluso que salten las alarmas al pensar que todo lo que venga del site no puede ser de una fuente beneficiosa. ¿Pero qué razón puede tener una web para crear y enviar arañas a navegar por la red de redes? Recopilar información, por supuesto pero, ¿con qué propósito? Hablan de un programa de rankings de keywords, aunque mucho me temo que no es nada filantrópico, y mientras no esté clarificado ese punto depende de nosotros desconfiar; podríamos comportarnos de forma drástica pero vamos a ser cautelosos y respetar las reglas del juego en Internet.

    Lo que realmente nos debe preocupar de Semalt y otras páginas que envían tráfico automatizado a nuestra web, es que no generan ningún beneficio, dificultan nuestros objetivos y no atraen internautas de carne y hueso. Además, la tasa de rebote es siempre del 100%, por lo que falseará enormemente este dato; mientras esperamos que Google tome cartas en el asunto y aplique alguna medida contra estos indeseables, empecemos a remangarnos y administrar nuestra propia medicina.

     

    Desde el menú Administrador, vamos a PROPIEDAD->Información de seguimiento->Lista de exclusión de referencia:

     

    Google Analytics - Lista de exclusión de referencia

     

    Entramos y en la nueva página seleccionamos el botón +AGREGAR EXCLUSIÓN DE REFERENCIA; tan sencillo como introducir el nombre del dominio que no queremos que aparezca como referencias en los informes (por ejemplo, semalt.com) y darle a Crear:

     

    Google Analytics - Agregando Exclusión de Referencia

     

    Hacemos lo mismo para cada dominio que tengamos en la lista negra, y a correr; imagino que en tu web tendrás como mínimo las que he añadido, pero si has encontrado alguna otra sospechosa y no estás segur@, pregunta por aquí para confirmarlo y no filtrar tráfico bueno y genuino. Es posible que las del ejemplo correspondan a la misma empresa que tiene varios tentáculos para hacer llegar sus bots y, dalo por hecho, aunque las filtremos volverán a aparecer en una nueva encarnación. Pero de esta manera podemos tener controlado cualquier visita automatizada, ocultarla y que no aparezca en nuestros informes.

    ¿Cuál es la mayor consecuencia de todo esto? Que vas a notar una notable disminución de tráfico a partir de ahora, pero puedes confirmar que será de calidad y, por supuesto, totalmente humano. Si tienes un blog ahora tendrás la seguridad de que cada post atrae a la gente por su contenido y no a las arañas buscando saciar su sed de HTML; si la web es de tu cliente/empresa tendrás que avisar de este inconveniente, pero explicar que todo son ventajas de cara a estrategias, consecución de objetivos y retorno de la inversión. Que no hay que tener la sensación de que la analítica se reduce a tener un número que cuanto más grande es, mejor; grave error. El análisis de datos nos habla de tendencias, comportamientos, información no visible, descubrimiento de nuevas y significativas relaciones, patrones y, en definitiva, conocimiento. Y en una página web todo eso, nos lo aportan las personas.

     

    ¿Crees que es importante disponer de datos claros y fidedignos? ¿Qué piensas de las empresas que se dedican a crear falsas visitas en nuestras webs? Encantado de comenzar un debate con vosotr@s.

    Tagged , , , . Bookmark the permalink.

    27 Responses to Limpieza en Google Analytics: Semalt, bots y más

    1. Muchas gracias por el contenido. Me ha sido de gran utilidad! =) Salud.

    2. Completísimo Miguel Ángel. Otro de tus post que guardo como referencia.
      Gracias!!

    3. Muy bien explicado, gracias 😀

    4. Justo lo estaba haciendo ahora. Just in time! 🙂

    5. abarainka says:

      Hola, un detalle, cuando realizas una exclusión de tráfico de Referencia no es que la visita no se contabilice, simplemente pasa a ser tráfico Directo y no de referencia.

      De la forma en que tu lo expresas estás empeorando el asunto ya que además de seguir teniendo las visitas de los Bots, los tienes escondidos entre el tráfico Directo.

      La solución a esto son los filtros y no las exclusiones de referencia.

      • MiguelAngelddl says:

        Hola, bienvenido.

        Lamentablemente, aplicar un filtro no soluciona el problema. Los spams como Semalt se modifican de tal manera que siempre termina apareciendo algún subdominio suyo como tráfico de referencia. Tendrías que estar creando un filtro para cada nueva transformación que se muestre, con el consiguiente trabajo extra y como sabrás hay límites para el uso de filtros. Y eso sin contar que existen muchísimos casos como Semalt (yo sólo he puesto 3 de ejemplo).

        En Analytics Universal, los dominios incluidos en la lista de Exclusión de Tráfico de Referencia no activan ninguna sesión nueva, y excluyen tanto el tráfico del propio dominio indicado como de los posibles subdominios que pueda usar.

        Y eso que no me he detenido a detallar la nueva ola de spam, los llamados “referrals fantasma”, que nunca llegan a visitar tu web pero consiguen generar visitas falsas; cambian tan rápido como aparecen y necesitarías estar constantemente construyendo filtros para excluirlos. Una locura.

        Como indicaba en la entrada, habrá que esperar que Google mueva ficha y evite estos casos alarmantes de spam. Con lo que he explicado en el post, podemos aguantar hasta entonces el chaparrón spammer.

        Saludos.

    6. abarainka says:

      Como habrás observado en las exclusiones de tráfico de referencia, el único que aparece por defecto es tu propio dominio. Además esta funcionalidad se utiliza mucho para excluir pasarelas de pago, etc.. Me estás diciendo que aquellos que lleguen a tu sitio con tu propio referrer (Cosa que sucede muy a menudo por muchas razones) su visita no se contabiliza?? O que si incluyes paypal en las exclusiones, las ventas que hagas por paypal no se contabilizan?

      Y no me digas que con los filtros no puedes excluir un dominio y todos sus futuros subdominios xq entonces de la misma forma no podrías hacerlo con las exclusiones y tendrías que ir creando mil. Existe una cosa que se llama concordancia, o incluso expresiones regulares si quieres.

      Creo que este artículo puede confundir a mucha gente.

      • MiguelAngelddl says:

        Hola de nuevo.

        Me parece que no nos estamos refiriendo a lo mismo y el post está orientado de otra manera, de ahí la confusión. Pero para esto están los comentarios, para ampliar el contenido y explicarlo.

        En el post viene indicado claramente que en la lista de exclusión de referencia los nombres de dominio no aparecerán como referencias en los informes (vaya, en la misma captura de pantalla lo pone de la misma forma). Y no es que en las exclusiones de referencia venga por defecto tu propio dominio, es que Google Analytics excluye automáticamente el dominio asociado con una propiedad como un origen de referencia, por lo que en los informes de Analytics no se mostrarán las autorreferencias (véase la ayuda de Analytics). Eso está claro, y no es porque lo digas tu o lo diga yo, Google dixit. 🙂

        Nadie te ha dicho que los filtros no puedan excluir dominios: leyendo entrada y comentarios no vas a encontrar nada de eso; puedes incluir en un filtro un dominio y sus subdominios con expresiones regulares, lo que te explicaba es que en las exclusiones de referencia no hace falta indicar subdominios asociados a un dominio ya que automáticamente lo hace Analytics, sin añadir ninguna expresión más (de nuevo, se puede comprobar en la misma ayuda de Google).

        Siguiendo con los filtros, te comentaba que tampoco vas a evitar que llegue tráfico malo a la web. Vamos a centrarnos en el caso de Semalt.com, que ya he explicado en qué consiste; pones un filtro con su dominio, su araña detecta cuando vea que no puede entrar, con lo que se clona y modifica de tal manera que te empezarán a llegar rastreadores desde distintos subdominios. Vale, los podrás bloquear a ellos también, pero no ibas a terminar ahí porque tienen tropecientos distintos nuevos dominios preparados para hacer lo mismo. Un filtro es una invitación a que te intenten entrar por todos los lados, ya que no le gusta ser bloqueado. En cambio, con las exclusiones de referencia mandas un mensaje de que “aquí no pasa nada, todo va bien para ti” y vas a evitar que eche mano de su horda de nuevos dominios.

        Si nos ponemos más técnicos, los gurús no utilizan filtros, para no tener que estar generando uno nuevo cada poco; intentan bloquear este tráfico editando el archivo .htaccess, es decir, hablamos a nivel del servidor. Y adivina qué… ¡tampoco pueden evitar que se sigan colando! Puedes tener todo el tiempo del mundo para hacer tantos filtros como puedas, el problema es que con tanta muralla termines bloqueando tráfico legítimo, y eso sí que sería perjudicial para la analítica web.

        Con todo el jaleo que llevan montado en los últimos meses, los listos de Semalt.com no se les ocurrió otra cosa que poner un enlace para que la gente que no quiera recibir sus visitas, introduzcan su dominio y ellos se comprometen a no enviar nada. ¡Ja! Vamos, si picas lo que consigues es que te añadan a su “listado de vips”, no para recibir nada de Semalt, sino del resto de la cuadrilla spam.

        Google tiene que ponerse serio, más serio, con este asunto; es verdad que en Internet no se puede poner puertas al campo, pero es esperable un poco más por su parte. Está muy bien que si alguien intenta engañar a Google, luego caiga todo su peso, pero también es deseable atención cuando los usuarios somos los perjudicados. Aparte de que con Analytics da para un tema aparte, con sus datos no muy precisos, sus cajones desastre donde acapara cualquier cosa que no entienda y sus incongruencias varias; pero vaya, no nos quejemos que es gratis. 😉

        Para zanjar el asunto que ya ocupa demasiado espacio, podemos decir que si se quiere bloquear los bots benignos que Google permite, seleccionamos la casilla a tal efecto y punto. Para los bots malignos, aquí el abanico se abre más; puedes usar filtros y bloqueos, nadie te dice lo contrario, pero la lucha puede extenderse eternamente, por lo que es mejor ignorarlos para que no nos sigan molestando y nos quiten tiempo del verdadero objetivo: el análisis de datos. Y es que en la analítica web no hay que esperar tener unos datos 100% exactos, porque es imposible; lo que nos tiene que importar es estudiar las tendencias y los comportamientos a nivel general para extraer luego las conclusiones.

        Saludos.

        • Soledad says:

          he probado el filtro y es como dices, las visitas de referencias desde spam siguen apareciendo, activé htaccess y siguen accediendo, cambién el perfil de analytics activando un nuevo código terminado por ej. en -2 y siguen entrando… voy a probar hacer esto que dices en tu artículo, pero voy a tener en cuenta el trafico directo… ver el promedio y así verificar si cuando activo lo que me dices aumenta el tráfico de referencia… a todo esto Google debería ser inteligente! y evitar todo esto.

          Vamos a probar y ver qué resultados.
          Saludos

          • Rafa Monferrer says:

            Soledad, y al resto. Probad con un filtro que incluya sólo los nombres de host válidos. Con ello “me cargo” el 90% del spam. O incluso un filtro que excluya los hostnames vacíos (not set) ya es por si mismo muy efectivo. Un saludo

    7. Muy buen contenido gracias por compartirlo!

    8. Mauri says:

      Gracias por la información, muy interesante!! Y también el intercambio de información entre tu y abarainka!

    9. menecillo says:

      Gracias por el artículo pero tengo una duda, al añadir los filtros estos desaparecen en el momento cuando lo compruebo en adquisición/referencias? o tarda un tiempo en no aparecer?

      Gracias!

      • MiguelAngelddl says:

        Hola.

        Cuando aplicas un filtro o una exclusión, los cambios empiezan a funcionar en el momento en el que se activan; pero ojo, sólo a partir de ese momento en adelante, el histórico seguirá mantenido todo el tráfico antiguo con spam. Si vas a añadir un filtro, tienes que estar pendiente del nuevo tráfico spam que pueda entrar con distinto nombre.
        De todas formas, creo que Google recientemente se ha puesto las pilas y ya impedía el acceso a gran parte del tráfico no deseado.

        Saludos.

    10. May says:

      Hola! Gracias por el artículo. Tengo una duda muy tonta seguramente : yo utilizo google analitics para mi blog en blogger. Si ¿dejo de utilizar google analitics, los bots dejarán de visitar mi sitio? Esque según lo que he encontrado por la red, los robots estos funcionan utilizando algún código de analitics al azar. No sé si me he explicado muy bien, espero que sí. ¡Muchas gracias!

      • MiguelAngelddl says:

        Hola May.
        A ver, creo que sí.
        Si te refieres a los bots de los buscadores, los crawlers, estos seguirán visitando tu página para indexarla a menos que los bloquees explícitamente, por ejemplo editando el archivo Robots.txt; pero claro, en principio estos nos interesan que sigan viniendo.
        En cuanto a los bots nocivos con malas intenciones, parece ser que asocian el código de analytics para que en caso de bloqueo mutar e intenten entrar con otro sufijo. De todas formas, el objetivo principal de los spammers es la página web en sí, por lo que el código de analytics no es un reclamo fundamental. Como ya he comentado por aquí, hay webs con muchísimo tráfico y que apenas tienes spam, y hay otras mucho más pequeñas que tienen constantes visitas de estos bichos y es casi imposible librarse de ellos. Cada caso es un mundo, pero de todas formas los beneficios de tener un programa de analítica web supera con creces los inconvenientes de estas visitas inesperadas.
        Espero haber disipado un poco tu duda.

    11. Betty Rodriguez says:

      Y por qué motivo aparece mi url en la lista de exclusión? sé que alguien lo mencionó más arriba, pero no me quedó claro.
      Veo sin embargo en la captura que subiste, que en ese caso, la persona quitó su sitio de esta lista de exclusión. Por qué? Saludos y gracias.

      • MiguelAngelddl says:

        Hola Betty,

        Hasta ahora, Analytics excluye automáticamente el dominio asociado a una propiedad como origen de referencia, por lo que en los informes de Analytics no se muestran las autorreferencias de nuestro propio dominio. Otra cosa es que se te haya modificado con alguna actualización aunque no lo creo (por otra parte, el post es algo antiguo y no está actualizado). De todas formas no, no es necesario añadirlo a mano a la lista de exclusión.

        Saludos.

    12. Alexander says:

      hola tengo estos sitios
      home.tb.ask.com
      search.ask.com
      search.mpc.am
      bestchoice.cf
      search.newtabtvplussearch.com
      creo que son buscadores queria saber tu opinion de si son trafico bueno o malo
      una empresa me habia baneado por trafico con bots pero me dieron otra oportunidad
      ahi algo mas que deba buscar? estoy muy preocupado por esto

      • MiguelAngelddl says:

        Hola Alexander.

        Uf, pues la mayoría son buscadores pero algunos son secuestradores de navegadores (es casi legítimo pero la verdad que es un fastidio). Tendrías que hacer filtros específicos para cada uno de ellos, aunque los más probable es que te sigan entrando otros nuevos. Es una batalla muy difícil de ganar, ya que con el simple hecho de bloquear uno hace que se multiplique la presencia de estos visitantes fantasma.

        Habla con tu proveedor de hosting a ver si pueden hacer algo a nivel de servidor.

        Saludos.

    Comparte un comentario: