El filtro burbuja de Google en sus resultados sobre elecciones catalanas

Los resultados de Google de las elecciones catalanas muestran diferencias en sus versiones en catalán y castellano que evidencian la existencia de un filtro burbuja según la opción de idioma. La comparación de los resultados de Google CAT y Google ES para las mismas búsquedas sobre las elecciones catalanas muestran una composición en la que sobresalen contenidos de medios y partidos de uno y otro signo en función del idioma escogido, lo que se ha venido llamando el filtro burbuja.


Carlos Gonzalo Penela se doctoró en 2015 con una tesis donde analizaba los resultados de búsqueda mostrados por Google durante procesos electorales. Empezó en 2010 capturando datos del 28N, las elecciones al parlament de Catalunya en las que Artur Mas consiguió una mayoría simple que devolvía a CiU a la Generalitat. Desde entonces acumula cientos de miles de SERPs de Google y Bing extraídas durante elecciones autonómicas, generales, municipales y europeas en sus diferentes opciones de búsqueda, lo que le permite analizar en retrospectiva cómo se ha comportado Google en estos últimos siete años.

Estas elecciones de diciembre de 2017 son sus cuartos comicios catalanes en un tiempo record, por lo que su base de datos de resultados de elecciones catalanas le permite establecer comparativas directas gracias a diversos paquetes de términos relativos a las elecciones que han sido extraídas durante los periodos electorales. El resultado es una serie temporal que abarca el periodo 2010-2017 y que permite analizar la evolución de SERPs de Google extraídas con términos idénticos o similares.

La muestra de datos

Este artículo analiza la visibilidad de medios de prensa y sitios web en los resultados de Google.es de 54 palabras clave sobre las elecciones catalanas. Las extracciones de datos se han realizado durante un periodo de 30 semanas (mayo-diciembre de 2017) en las opciones de idioma español (ES) y catalán (CAT). Las 54 palabras ha permitido recuperar un total de 308 dominios diferentes que han aparecido en la primera página de resultados de Google un total de 30.588 URLs.

A continuación mostramos un informe preliminar con el peso e impacto de los medios y grupos de sitios web durante los últimos meses de 2017 (se trata solo de una parte de un estudio mucho más amplio que abarca los cuatro comicios electorales de 2010, 2012, 2015 y 2017).

¿Qué papel juega Google en la formación de la opinión pública?

La primera pregunta que nos planteamos es qué papel juega Google en la formación de la opinión pública. En los últimos tiempos se ha hablado mucho de la postverdad y de su influencia en la difusión de noticias falsas a través de las redes sociales como Facebook, pero se ha tratado menos de los resultados del buscador más utilizado en planeta y de su posible efecto paralelo en la polarización de la opinión pública.

Google es el buscador más utilizado en todo el mundo, y dado su dominio absoluto ejerce de Gatekeeper de la información publicada en Internet. Sus páginas de resultados, las SERPs, son el principal acceso a los medios de información para millones de usuarios que toman como punto de partida alguno de los resultados que muestra el buscador tras haber introducido una búsqueda general o específica de cualquier tema. Lo mismo sucede en la búsqueda de información electoral, siendo el algoritmo de Google el que ordena y selecciona aquellos resultados que pueden dar respuesta a nuestra necesidad informativa, y por lo tanto nos dirige y condiciona a leer determinados tipos de contenidos que pueden influenciar nuestra toma de decisiones, en este caso, a quién votar y a quién no.

En el libro de Eli Pariser ‘El filtro burbuja: Cómo la web decide lo que leemos y lo que pensamosse puede leer lo siguiente: “El funcionamiento es sencillo: si buscas esto, la próxima vez te daré lo mismo”. Google recuerda todas nuestras decisiones y aplica una serie de filtros que limitan nuestra exposición a determinados contenidos de tal manera que crean una burbuja de información donde no vemos aquello que Google establece que no nos interesa. Por lo tanto, a través de la ordenación y selección de resultados para cada una de nuestras búsquedas Google crea lo que se ha denominado ‘filtro burbuja‘ o ‘burbuja informativa‘ según la cual el buscador crea un ecosistema informativo que hace más lejanos e inaccesibles los puntos de vista diferentes a los hábitos en el consumo de información detectados a través de interacciones previas de búsqueda.

Como consecuencia, ante la pregunta ‘qué papel juega Google en la formación de la opinión pública’, la respuesta sería que juega un papel mayúsculo y fundamental al crear para nosotros una selección de resultados afines que no nos permiten ver otros enfoques o puntos de vista diferentes a los que hemos programado con nuestras acciones.

¿Qué es el SEME, o Search Engine Manipulation Effect?

Durante las elecciones del último año nos nos preguntamos si Google podía influir en los resultados electorales y vimos que algunos autores afirman qué sí es posible. Robert Epstein en su estudio sobre el efecto de manipulación del motor de búsqueda (SEME) estableció la hipótesis de que es posible un cambio en las preferencias del consumidor a partir de las manipulaciones de los resultados de búsqueda. El efecto SEME es aplicable a muchos ámbitos de la conducta humana, pero si bien los profesionales del marketing lo aplicarán al mercadeo de sus productos, la modificación de preferencias incluye también a aquellas que afectan a la intención de voto en unas elecciones.

El efecto SEME es por tanto uno de los efectos de comportamiento más importante de los hasta ahora descubiertos ya que puede condicionar los resultados de elecciones democráticas a través de medios digitales.

El Dr. Epstein logró medir la potencialidad de esta influencia y en 2015 publicó los resultados de experimentos; según sus estudios tales manipulaciones podrían cambiar las preferencias de voto de los votantes indecisos en un 20 por ciento o más y hasta un 80 por ciento en algunos datos demográficos.

El modelo de Infoesfera aplicado al análisis de SERPs

Preveyendo la vulnerabilidad de los resultados de Google gracias a prácticas SEO de optimización de contenidos, y en paralelo al trabajo de Epstein, el profesor de la UPF Carlos Gonzalo desarrolla un sistema de análisis de Google capaz de medir las proporciones de las SERPs de Google y su evolución a lo largo del tiempo con el objetivo de identificar elementos anómalos (que se saliesen de las métricas y proporciones principales detectados) de contrainformación o desinformación que pudiesen suponer una amenaza por ser fuente de difusión de informaciones falsas.

El sistema de análisis se basa en el modelo de Infoesfera que permite clasificar cualquier sitio aparecido en la SERP en uno de los tres estratos de la esfera de información (el estrato superior está compuesto por medios de prensa, el estrato inferior por redes sociales o blogs, y el estrato medio por cualquier otro tipo de sitio temático recuperado por el buscador) y agruparlos en conglomerados temáticos o de pertenencia. Gracias al desarrollo y aplicación de este sistema estructurado de categorías abiertas es posible detectar desviaciones respecto a las medias globales del buscador en cualquier búsqueda o grupo de búsquedas vinculadas.

El filtro burbuja de Google

Algunas de las preguntas sobre las que pretendemos arrojar luz en este artículo son las siguientes: ¿Es posible manipular los resultados de Google para impactar a un determinado tipo de público que va a realizar unas búsquedas concretas? La respuestas es obviamente sí, los SEOs se dedican a eso, tanto en búsquedas comerciales como electorales.

En las elecciones catalanas, ¿estamos ante un caso filtro burbuja? ¿Se puede detectar una burbuja informativa en los resultados vinculados a la elecciones catalanas? La respuesta es que, en efecto, se puede medir el peso de los medios mostrados en una y otra opción de búsqueda, permitiendo conjeturar que las SERPs tienen un sesgo determinado en función de los medios que aparecen, por lo que sí es posible medir proporciones de resultados que podemos asimilar al resultado de un ‘filtro’ en función del idioma seleccionado.

Pero en el caso de detectar una diferencia sustancial, ¿a qué sería debida esta aparente ‘manipulación’? ¿Sería el algoritmo de Google el responsable, los medios o los usuarios que leen mayoritariamente un medio en una opción de idioma? La respuesta es que los tres son los responsables en diferente grado ya que es el algoritmo de Google es el que selecciona los resultados más relevantes entre los contenidos publicados por medios que cumplen los filtros dispuestos por el usuario, quien además puede decidir entre reformular su búsqueda o clicar entre la selección mostrada por Google.

Para acabar, la última pregunta a la que podemos dar respuesta es la siguiente: ¿Es Google de derechas o izquierdas? Como ya expusimos en una noticia de La Vanguardia durante las elecciones del 26J, sí es posible medir el sesgo político de los resultados en función de la composición de resultados, y aunque en general Google muestra proporciones “moderadas”, existen excepciones en las que tiende hacia un extremo u otro en un función de los términos de la búsqueda y de la opción de idioma seleccionada.

¿Cómo detectar un ‘filtro burbuja’ en Google.es?

Para mostrar si en el caso de las elecciones catalanas existe o no un ‘filtro burbuja’ se ha aplicado el modelo de análisis a un conjunto de 30.588 URLs aparecidas en la primera página de resultados de Google. Estos resultados han sido extraídos de las dos opciones de idioma del motor de búsqueda Google.es (las versiones Google.es ES y Google.es CAT) utilizando la misma ubicación (Barcelona) y las mismas 54 palabras clave (listado que incluye búsquedas en catalán y castellano) y se ha medido la composición y peso de los 308 dominios detectados en la muestra.

Tras la extracción y categorización se han añadidos variables relativas al sesgo político de los sitios de partidos y sitios web de prensa según el baremo expuesto en análisis previos sobre el perfil ideológico de los medios. El cálculo del posicionamiento ideológico se basa en los datos del CIS de noviembre 2015 (página 15 y 16) y la valoración oscila entre 1 (izquierda extrema) y 10 (derecha extrema), de tal manera que los dominios tienen un número índice que señala el posicionamiento ideológico y orientación de los votantes hacia posiciones de izquierda o posiciones de derecha, tanto los sitios de partido (Podemos: 2,3 / PSOE: 4,4 / Ciudadanos: 6,37 / PP: 8,26) como de medios (Expansión: 6 / ABC: 5,6 / El Español: 4,5 / El Plural: 3,7 / Público: 2,9). Gracias a estos números índice es posible medir los niveles de polarización ideológica en los resultados de Google, de tal manera que una SERP compuesta por medios como Publico o El Plural y la página web de Podemos tendría un número índice medio situado más a la izquierda, mientras que una con resultados de sitios web del Partido Popular y noticias de prensa económica y del ABC sería el extremo opuesto.

En resumen, se ha calculado por un lado el peso de cada sitio web en la SERP y por el otro el perfil ideológico de las SERPs en función de los sitios aparecido, y para medir la diferencias de proporciones entre Google.es CAT y Google.es ES se ha marcado como umbral una diferencia del 15%, por lo cual los sitios que muestren una diferencia mayor en sus proporciones será donde podemos detectar los sitios que componen el filtro burbuja.

¿Dónde está la diferencia entre las SERPs de Google.es CAT y ES?

A grandes rasgos la composición de los resultados en ambas lenguas es muy similar, sin embargo en los resultados en castellano se aprecia hasta un 5% más de resultados provenientes de medios que las SERPs en catalán compensan con portales web de diversa índole y por resultados de redes sociales o blogs de los otros dos estratos.

Si nos centramos en los resultados de medios digitales los cuatro grandes grupos mediáticos españoles (PRISA, Grupo Zeta, Grupo Godó y Unidad Editorial) engloban gran parte de los resultados de la SERP. En el caso de Google ES los cuatro grupos dominan el 30% de los resultados, mientras que en Google CAT alcanzan el 24%. El grupo Zeta tiene una visibilidad semejante en las dos opciones de búsqueda mientras que los otros tres grupos caen entre un 16 y 31% en los resultados catalanes.

En el top3 de medios encontramos a La Vanguardia como medio líder en ambas opciones de búsqueda, seguido por Ara.cat y el confidencial.com en CAT es el, y por confidencial.com y El Mundo en la opción ES.

El cálculo del peso promedio de medios y webs de partidos de cada palabra clave nos permite medir el sesgo ideológico de cada SERPs que puede ser clasificada en función del indicador sesgo ideológico. Por ejemplo, los resultados más de derechas son ‘eleccions ciutadans’ y ‘ elecciones pp cataluña’ ya que las SERPs generadas se componen de resultados del propio partido y de medios como El Mundo o El País en el caso de Ciudadanos, y de sitios como Expansión, EL Economista o ABC en el caso del Partido Popular. Por el contrario, en el extremo opuesto encontraríamos las búsquedas ‘eleccions CUP’ con sitios propios y medios más de izquierdas como Público o ElDiario.

¿Qué diferencia encontramos en los diferentes conglomerados?

La aparición de prensa internacional es residual en ambas opciones de búsqueda, la prensa económica en el caso de Google CAT alcanza el 1,64% mientras que en Google ES tiene una visibilidad del 2,36%. Por el contrario, entre los medios catalanistas destaca el caso de los contenidos de Ara.cat que en Google ES logran solo el 3,5% mientras que en Google CAT alcanzan el 4,5%. En esta misma opción de búsqueda Naciodigital.cat es el segundo medio con 3,17% mientras que en Google ES solo lora el 2,41% de visibilidad. En el caso de Elpuntavui.cat obtiene un 0,34% en Google CAT mientras que en en Google ES apenas llega al 0,05%.

Los sitios web de canales de televisión en el caso de Google CAT es el 4,71% con ccma.cat, beteve.cat y eitb.eus a la cabeza, mientras que en Google ES las televisiones alcanzan solo el 3,84%. con ccma.cat, eitb.eus y lasexta.com como líderes. En el caso de la radio solo tres emisoras posicionan contenidos en la SERP, la principal cadenaser.com seguida de rac1.cat y ondacero.es con visibilidad residual.

En el sector ‘Esfera política’ hemos identificado todos los sitios web y blogs de los diferentes partidos políticos y observamos que mientras algunos partidos tienen una visibilidad semejante en ambas opciones de búsqueda como es el caso de Ciudadanos (CAT: 0,66% / ES: 0,64%) o PSC (CAT: 2,64% / ES: 2,44%), los partidos catalanistas multiplican su visibilidad como es el caso de CUP (CAT: 0,29% / ES: 0,05%) o ERC  (CAT: 1,05% / ES: 0,56%).

La aparición de blogs es residual y las páginas de redes sociales apenas alcanzan visibilidad en búsquedas genéricas (no incluyen partido ni candidato). Solo encontramos resultados de Facebook, Twitter y Youtube en búsquedas que incluyen el nombre de los partidos constitucionalistas Cs y PP, mientras que ERC, PSC y la CUP no posicionan ninguna de sus redes sociales y son noticias de diversos medios y tendencias las que rellenan su SERP.

A través de esta exploración de los datos podemos concluir que el usuario que tenga configurado su buscador en catalán tendrá un 18% menos de resultados de prensa nacional que compensará con un 8% más de prensa regional y la duplicación de contenidos de partidos y sitios web independentistas. En el conglomerado de prensa regional destacan los medios nacionalistas con un incremento de visibilidad en torno al 37% en CAT respecto a la opción de búsqueda ES.

¿Cuál es la razón de esta diferencia?

Ante la pregunta sobre cuál es la razón de estas diferencias debemos explicar que Google acumula información sobre la interacción de los usuarios con sus resultados a través de la proporción de clics o Ratio de cliqueo (en inglés Click Through Ratio, abreviado CTR), un indicador que se obtiene dividiendo el número de usuarios que pulsaron un resultado de la SERP por el número de impresiones mostrados del mismo. Por lo tanto, el CTR modifica el posicionamiento de contenidos en función del número de clics recibidos por el medio/noticia, de tal manera que éste puede ver afianzado su posición en la SERP o incluso escalar posiciones si es el medio más clicado por los usuarios. A este CTR Google también añade el tiempo de permanencia de los usuarios en el sitio que puede calcular gracias a las cookies de Google Analytics, o bien calculando cuánto tiempo tardan en volver a hacer una nueva búsqueda.

Por lo tanto, cuantas más veces hacemos clic en un medio específico mayor es el CTR, tanto en nuestra cuenta particular por lo que Google sabe que es nuestro favorito, cono en la cuenta agregada de usuarios de esa opción de búsqueda para esa palabra clave específica. A partir de ahí Google ya tiene datos para mostrar ideas similares tanto a los individuos particulares en base a su interacción previa, como a grupos de personas basándose en la interacción de otros usuarios que han aplicado filtros similares.

¿Cómo nuestras interacciones generan la burbuja?

En el libro de Eli Pariser ‘El filtro burbuja: Cómo la web decide lo que leemos y lo que pensamos’ nos explica que “El funcionamiento es sencillo: si buscas esto, la próxima vez te daré lo mismo”. Google utiliza 57 indicadores para personalizar sus resultados, desde el lugar y el navegador de conexión hasta lo que has buscado antes; en función de los datos recuperados de interacciones previas el algoritmo es capaz de conjeturar quiénes somos y qué clase de paginas nos gustan, personalizando nuestros resultados y mostrando páginas en las cuáles haríamos clic con más probabilidad. Si en un primer momento podemos pensar que esto es positivo ya que nos muestra resultados acordes a nuestros intereses, el problema deriva de la acumulación de interacciones a lo largo del tiempo y de los filtros aplicados. Por ejemplo, para conocernos mejor Google acumulada nuestras reacciones ante titulares en forma de clics y tiempos de permanencia en la página de destino. Para saber si los contenidos cuadran o no con nuestra visión del mundo Google tiene en cuenta los titulares con un mayor CTR y un mayor tiempo de permanencia en el sitio; una vez detectado el patrón añadirá un filtro a sus resultados que generará un sesgo de confirmación que se retroalimentará cada vez que cliquemos, incrementando y reafirmando así una burbuja de filtros que no nos permitirá ver aquello que el programa determine que no nos interesa ver.