El Benidorm Fest nos ha dejado una reflexión sin precedentes sobre el sistema de votación y de elección para nuestro representante en Eurovisión. En este blog, deconstruimos el sistema y aportamos perspectivas y consideraciones al debate poniendo el foco en los números y las experiencias pasadas.
EL PELIGRO DE LOS Y SI…
En este blog nos encanta hacer simulaciones de posibles resultados con sistemas diferentes. Y esta vez no íbamos a ser menos. De hecho, tenéis a vuestra disposición una calculadora que os permite hacerlo para diferentes ediciones y que hemos ido renovando con el tiempo.
En primer lugar, la simulación más simple de todas es escalar la votación del jurado y del televoto a una votación estilo Eurovisión. Este método ya se ha usado en preselecciones pasadas y se utiliza en otros países como Estonia y Lituania. En este caso, Rigoberta Bandini se habría alzado con la victoria. Habría sumado tantos puntos como Chanel pero el público, si este fuera el criterio, como puede desprenderse de las bases, inclinaría la balanza hacia Ay mama.
La otra posibilidad más plausible es un sistema de mismo peso para jurado, demoscópico y televoto. Este método, salvando las distancias, se utiliza en San Remo y fue el que proclamó vencedor a Maneskin. En nuestro caso, al resultado que hemos tenido antes, le sumamos el voto demoscópico. Ahora sería Tanxugueiras quien se habría impuesto en el empate a Chanel.
Podríamos probar muchísimas otras combinaciones donde ganan unas u otras. Pero se pone de manifiesto la importancia del sistema elegido, más aún en comparaciones con otros sistemas habituales y con un resultado tan apretado.
UNA VISIÓN TEÓRICA DEL SISTEMA
El sistema de votación del Benidorm Fest se componía de dos criterios: jurado y público, con la misma cantidad de puntos a repartir en cada lado. Puedes consultarlo literalmente en las bases.
El primero se formaba de 5 miembros en los que el jurado internacional representaba un 40%, en este caso, dos miembros; mientras que el jurado nacional ostentaba el 60% de la representación a través de 3 miembros.
El criterio del público se dividió a su vez en dos subcriterios: el voto demoscópico y el televoto, a partes iguales y con el mismo reparto de puntos.
El voto demoscópico, tal y como se repitió al comienzo de cada gala, tenía como finalidad representar a todos los estratos de la población mediante una muestra representativa de 350 personas. Esta cifra quizá sea un guiño democrático, puesto que tenemos el mismo número de diputados en el Congreso.
Y el televoto, el máximo exponente del voto popular, realizado mediante llamadas y mensajes SMS. Destacar en este punto que en las bases también se menciona votos vía app.
LA MATERIALIZACIÓN EN PUNTOS
Ahora que hemos visto como se definió el sistema, veamos como se materializó, cómo se convirtió en puntos.
Lo primero de todo es que, debido al distinto número de participantes en cada gala (6 en la primera semifinal, 7 en la segunda y 8 en la final) las escalas de puntos fueron distintas en todas ellas. Con ello se pierde un poco la capacidad de comparar los resultados entre uno y otro, especialmente entre los puestos bajos de cada uno de los eventos.
El jurado fue el que marcó la pauta de votación para los demás criterios. La organización, al igual que en pasadas preselecciones y siguiendo el modelo de Eurovisión utilizó la escala clásica de reparto de puntos. Así, cada uno de ellos podía repartir 12, 10, 8, 7, 6, 5, 4 (desde la segunda semifinal) y 2 puntos (solo en la final).
Llama la atención la ausencia de los 3 puntos y ese salto hacia el 2. Su motivo lo vamos a ver más adelante.
En función de estas escalas, se multiplica cada uno por 5 (por repartirse 5 sets, uno por cada jurado). De esta forma tenemos 60, 50, 40, 35, 30, 25, 20 y 10 puntos.
Para el público, que representa el 50%, se repartió en escalas iguales la escala global de puntos que asignaba el jurado. De esta forma, cada uno de los subcriterios repartía 30, 25, 20, 18 (se redondeó al alza, pues el resultado auténtico es 17,5), 15, 12 (se redondeó a la baja, pues el resultado auténtico es 12,5), 10 y 5 puntos.
Aquí ya vemos un primer ajuste necesario para evitar decimales. De alguna manera, en el voto del público se incrementó el valor del cuarto clasificado con respecto al jurado mientras que el sexto perdió un poco de poder. El efecto global es el mismo y ambos criterios sumaron los mismos puntos.
Por este motivo no hubo 3 puntos. Su multiplicación por 5, 15, habría supuesto otro quebradero decimal que no tenía forma de compensarse. Igual que hemos visto antes que el decimal de 17,5 se compensó con el de 12,5, no había forma de compensar el decimal de 7,5 sino provocando un desajuste entre sistemas.
Es un detalle minúsculo, pero que dice bastante del cuidado que se le dio a la escala para que no hubiera desequilibrios entre criterios y subcriterios.
EL REPARTO DE PESOS
Todos tenemos bastante asumido que el reparto de pesos, en teoría, es de 50%-50% o más detalladamente, 50%-25%-25%.
No obstante, en la práctica hay tres factores que, en mayor o menor medida, desestabilizan estos pesos.
En primer lugar, el que ya hemos señalado y que otorgaba a la audiencia un mayor peso hacia la cuarta posición en detrimento de la sexta. El efecto no es grande y está alejado de las votaciones importantes, pero ya supone ahí un primer elemento discordante. Y, a la postre, podría haber sido decisivo.
El segundo, y que siempre es importante tener muy bien definido (a nadie mejor que a nosotros para decírnoslo), es el criterio de desempate. Las bases dan a entender que sería el criterio de la audiencia quien tuviera la última palabra, lo que le aporta un peso añadido. No obstante, en las bases no se especifica claramente qué hubiera pasado en un más que probable empate en la cabeza del voto de la audiencia.
Si el cantante A es primero en el demoscópico y segundo en el televoto y ocurre al revés para el cantante B, ¿quién habría ganado en caso de recibir los mismos puntos por parte del jurado? En este aspecto las bases son un poco parcas. Ante aspectos tan sensibles y que además el sistema favorece, se debería ser más concreto.
El tercer factor y que finalmente tuvo el mayor protagonismo fue la discrecionalidad de los puntos de uno y otro criterio. Con esto nos referimos a que los subcriterios de la audiencia estaban cerrados a una escala determinada. Cierto es que los del jurado también, pero en un nivel inferior que permite diversas situaciones.
En un extremo, las votaciones de cada jurado podrían haber rozado la aleatoriedad (ver situación A en la imagen inferior), en cuyo caso todos habrían recibido la misma cantidad de puntos y su poder de decisión habría sido nulo.
En el otro extremo (situación B), si una propuesta hubiese aglutinado todas las máximas puntuaciones y las demás se reparten aleatoriamente, se produce un gap vital para el primer clasificado. Por ejemplo, si el cantante A recibe los 5 doces en juego ya obtiene 60 puntos. Si otros cinco candidatos obtienen cada uno un 10, un 8, un 7, un 6 y un 5; son 36 puntos y una diferencia de todos ellos con el primero de 24 puntos, que se antoja difícil de superar para la audiencia. En la imagen se puede ver una situación aún más drástica.
Pasó un poco desapercibido pero esto le pasó a Gonzalo, que recibió solo 2 puntos más del mínimo posible, marcando la mayor distancia, 13 puntos, con el siguiente.
La conclusión de todo esto, es que el 50%-50% es teórico, pero en la práctica, y en función de cómo se comporte el jurado, su peso puede ser mayor o menor.
Un indicador de la capacidad discriminatoria global (la capacidad para diferenciar el valor de cada propuesta) es el rango. Este concepto lo hemos utilizado en el blog varias veces para hablar sobre el Melodifestivalen y los pesos que tienen jurado y televoto. Consiste en calcular la distancia entre los máximos puntos otorgados y los mínimos. También puede aplicarse lo que sería el rango corregido o la distancia entre el segundo y el penúltimo.
En el caso del jurado el rango va de los 51 puntos de Chanel a los 12 de Gonzalo Hermida, es decir, 39 puntos. En el criterio de la audiencia, el rango va de los 60 puntos de Tanxugueiras a los 15 de Xeinn, un total de 45 puntos. Es decir, la audiencia mostró un mayor peso en global.
Con el rango corregido, la segunda del jurado fue Rigoberta Bandini con 46 puntos y el penúltimo Varry Brava con 25 puntos, lo que hace una diferencia de 21 puntos. Replicado esto en la audiencia, se comparan los 45 puntos de Chanel o Rigoberta con los 22 de Blanca Paloma, lo que hacen 23 puntos. Aquí el valor está más ajustado.
Es decir, en el cómputo global, teniendo en cuenta toda la clasificación, la audiencia pudo tener un peso superior. No confundir esto con la discriminación en los puestos de la zona alta, que al final fue lo decisivo. Como hemos señalado este año ha sido así, pero en los futuros puede ser muy distinto: la variabilidad que tiene a su disposición el jurado no la tiene la audiencia.
EL JURADO Y SUS MIEMBROS
Se ha sometido mucho a debate el tema del número de miembros del jurado y realmente es un debate fascinante. ¿Cuál debería ser el número de jurados para que se considere que su resultado es aceptable?
Siempre conviene pensar en las situaciones extremas. Si todo el peso recayera sobre una única persona, sería bastante inaceptable, no sería representativo. Si fueran 200 personas, seguramente, para el cómputo global, el criterio de muchas de ellas habría sido inútil, no habría afectado al resultado final (como ocurre con los abundantes jurados en el Eesti Laul). Y no solo eso, los extremos que antes señalábamos se habrían podido multiplicar, tanto para neutralizar el criterio del jurado como para hacerlo definitivo.
Por tanto, insisto y abro un poco más la pregunta, ¿cuál es la horquilla válida de jurados para que sean representativos?
Cinco, el número empleado, es un fiel reflejo del número de jurados que se utilizan por país en Eurovisión. La práctica de todos estos años de jurados nos ha enseñado que el jurado aporta un valor añadido que el televoto no tiene en cuenta. Pasó en 2018 con Cesár Sampson y en 2019 con Tamara Todevska al alzarlos en lo más alto de su clasificación y también al contrario en Tel Aviv cuando hundieron a los favoritos del televoto, KEiiNO. Cada año vamos en búsqueda de quién podrá recibir la gracia o desgracia del jurado.
En el mapa de arriba se puede comprobar el efecto generalizado que provocó Nobody but you en los jurados de Europa y que el televoto no valoró en la misma medida. El público solo les dio 71 puntos por 271 del jurado.
Este valor añadido se realiza por grupos de 5 personas de casi 40 países. Bien es cierto que, según hemos señalado en el blog, algunos jurados se desvían hacia otros criterios y votan estratégicamente, en lo que ya nombramos como el índice del impostor y que reveló la votación inversa de Francia en Eurovisión Junior o la particular votación de Bulgaria en 2017. No obstante, y generalizando, los jurados votan es una misma dirección.
Este histórico sirve un poco de aval para indicar que 5 puede ser un número idóneo para que el jurado ya aporte un valor añadido.
A falta de conocer el desglose del jurado, quizá lo interesante es que se revele un comportamiento distinto entre jurados nacionales e internacionales. Si así fuera, sería más lógico tener un grupo de 5 jurados internacionales y otro del mismo número de jurados del país. De esta forma cada uno podría aportar su valor añadido, que podría potenciarse si es el mismo, o compensarse si fueran contrapuestos.
Como menciono, es un debate bastante bonito donde pueden aportarse muchos puntos de vista pero que pierde toda su utilidad si el jurado está viciado. Da igual que sea uno o tres mil si al final todos ellos tienen alguna inclinación que excede de lo puramente musical.
LA PROPORCIONALIDAD DEL TELEVOTO
Otro de los puntos calientes del sistema ha sido la discusión sobre la proporcionalidad del voto popular. En el sistema utilizado el televoto se ha correspondido con una escala predeterminada de puntos, de forma que cada posición en el televoto se asigna con una suma de puntos distinta, sin importar el número de llamadas o mensajes.
Es otra discusión muy interesante. ¿Qué es más justo, una escala o una proporcionalidad?
Especialmente, el debate nace cuando hay un desajuste notable entre lo que habría pasado de usar uno u otro. Una escala es algo más neutral mientras que la proporcionalidad puede ser tan positiva como negativa (según se mire).
Volviendo a recurrir a Suecia, en el Melodifestivalen tuvieron un problema gordo con la proporcionalidad del jurado y que solventaron con la introducción del televoto por grupos de edad, es decir, escalando en un nivel inferior. La cantidad de votos que recibían era tan alta que el televoto no tenía capacidad para discriminar, es decir, no tenía capacidad para marcar distancia entre las propuestas y al final era el jurado el que podía decidir si lo tenían más claro. Es un poco también lo que nos ocurre con Eurovisión Junior.
Así, un televoto proporcional puede no servir para nada y servir para sentenciar el resultado en función de cómo se configure y, sobre todo, del número de votos recibidos.
Si en un extremo solo se emitieran tres votos, 2 para una propuesta y uno para otra, la primera recibiría el 66% de los votos, la segunda el 33% y las demás nada. Si se emitieran millones de votos, los porcentajes tenderían a la igualdad, como ocurría en el Melfest, y el televoto no tendría poder alguno.
Por eso, estamos en lo mismo. ¿A partir de qué punto el televoto es proporcionalmente representativo? Incluso en nuestra democracia no existe una proporcionalidad directa entre el número de votos recibidos y los escaños que consigue cada partido político. Creo que aquí la cuestión es más emocional y tampoco me voy a meter en más ventajas o inconvenientes. Pero sí que podamos tener la perspectiva de que escala o proporcionalidad pueden ser ventajosas o perjudiciales para el televoto según el caso, en confrontación directa con el jurado.
Imaginemos que el televoto hubiese sido proporcional en la final del Benidorm Fest. ¿Qué porcentajes habrían hecho falta para decidir la victoria? En la imagen superior se puede ver una situación extrema en la que solo las tres principales contendientes reciben votos, pero que nos sirve para determinar las distancias.
Del resultado se deduce que para ganar, Tanxuguerias necesitaba sacar a Chanel un 11,5% de distancia y a Rigoberta Bandini un 4,5%. En cambio, esta última habría requerido un margen del 7% sobre SloMo, mientras que la diferencia con Tanxugueiras tendría que haber sido de un 4,5% o menos. Que quede a juicio de cada uno si estas distancias podrían haberse dado o no.
EL VOTO DEMOSCÓPICO
Citando literalmente de las bases, «un jurado compuesto por una muestra de la población española seleccionada mediante reglas estadísticas y demoscópicas». Así dicho, para los que nos guste la estadística y los números es como tener un subidón, por decirlo finamente.
Un proceso demoscópico, bien elaborado, sería el mejor reflejo de lo que desea la población. No obstante, ¿de qué población estamos hablando? La principal duda que surge es, y quizá esto es un poco personal, si la población española se corresponde con la población que sigue el festival. Lo que suele denominarse como target o público objetivo. En este sentido, ¿se ha preguntado a gente que no tiene interés por el festival para que tome decisiones sobre otros a los que sí les interesa? ¿Es legítimo? Personalmente, sé tan poco de cómo se ha fraguado esta puntuación que me llena de preguntas.
Otro aspecto interesante es el momento en que se haya elaborado este voto. ¿Se ha hecho antes o durante con respecto a las galas? De los resultados se puede desprender que al menos se ha hecho uno por cada gala puesto que Gonzalo ha cambiado posiciones de una gala a otra respecto de Rigoberta Bandini o mismamente Tanxugueiras con respecto a Chanel.
Como hemos visto al principio, la organización incluyó el subcriterio del demoscópico y el del televoto dentro del criterio de la audiencia. Pero, ¿cómo de similares han sido? Aplicando correlación, esta fue 66% en la primera semifinal, 54% en la segunda y del 71% en la final. A priori son valores bastante bajos. No obstante, si en la final descartamos el valor de Gonzalo Hermida la correlación sube al 93%, mostrando que ambos criterios fueron muy de la mano. Poco más podía hacer el criterio de la audiencia para imponer su clasificación.
La verdad es que la aportación del demoscópico es interesante en tanto que nos representa a todos, pero es algo frío puesto que no nos permite participar de forma activa en algo que viene a representarnos como población.
¿Y ENTONCES CUÁL ES EL SISTEMA PERFECTO?
El sistema perfecto es, salvando las distancias, como el gato de Schrödinger. Existe y no existe al mismo tiempo. Existe en tanto que como individuo cada uno podemos tener un concepto de lo que para nosotros es ideal, pero es utópico que todos lleguemos a un acuerdo sobre la perfección del sistema. Y lo que es más, en función de cada situación unas veces un sistema nos parecerá perfecto y otras no.
De lo que hemos recogido en el blog se puede deducir que este año, y mirando siempre la clasificación final, el criterio de la audiencia ha tenido peso ligeramente superior. Es pronto para afirmarlo con rotundidad porque solo llevamos una edición y porque ya hemos visto que sobre todo el jurado puede ser muy errático. Esto no es contrario a que si los jurados colocan a una favorita del público en una posición muy baja, la audiencia no tiene capacidad para compensarlo, porque el sistema no se la proporciona de una forma realista.
Lo que sí observamos es una diferencia importante entre el comportamiento que puede tener el jurado y la audiencia. El primero puede ser muy diferenciador o muy poco diferenciador, mientras que el segundo es más neutral. Esta diferencia de comportamiento debería ser lo primero a corregir si queremos un sistema que realmente sea 50%-50%: o los dos tienen la misma capacidad para ser erráticos o los dos se neutralizan con una escala de la misma manera.
Otra opción sería darle la vuelta al sistema: el jurado en una escala, neutral; y que el televoto fuera proporcional, con el riesgo o la ventaja subjetiva que eso puede suponer. A cada uno nos va a gustar una cosa distinta. Y ya ni hablamos de si un reparto 60%-40% o el peso del demoscópico. Hay muchísimas posibilidades.
Lo más interesante aquí es señalar que hay sistemas plenamente dominantes sobre otros y que si se detectan errores, estos deben ser corregidos en aras de tener un sistema, que, aunque imperfecto, satisfaga las necesidades mínimas de la colectividad. Y todo esto es aparte de los posibles vicios del sistema.
Y hasta aquí el blog, que ya está bien. Muchas gracias por haber llegado hasta el final y espero que te haya sido de utilidad tanto para aprender un poco de los entresijos del sistema como para fundamentar tu opinión hacia él y sobre el que tú quieres. Después de tanto tiempo comentando sobre sistemas de preselecciones extranjeras es un placer hacerlo sobre la nuestra, pero no por ello no vamos a exigirle cuentas.