Categories
Electoral

Las encuestas y sus predicciones

Introducción

Este estudio se propone demostrar que los datos que proporcionan las encuestas son susceptibles de trabajar más finamente, incorporando métodos matemáticos que operen con la estructura subyacente que surge de sus series históricas.

En consecuencia, no aspira a  elaborar predicciones propias o a cuestionar las encuestas (la gente tiene una opinión formada de ellas) y sus metodologías asociadas, sino a probar opciones metodológicas a modo de entretención, previo a la elección de primera vuelta.

Básicamente, hay dos aspectos que las encuestas no abordan en el análisis de sus propias cifras: su naturaleza estocástica y la incertidumbre que contiene cada una de sus mediciones cuando existe una cantidad de indecisos que, al menos, supere el 10%.

Con relación al primero de ellos, se constata que los análisis de cada medición en el tiempo son tratados como la realidad de ese momento y no como cifras estocásticas que conllevan su propio error. Cada medida temporal también es aleatoria, por ende el rigor exige que se analice su conducta en el tiempo. Hay que hacerse cargo de su carácter estocástico no solamente en la sincronía de las fotos que producen cada cierto tiempo sino también en su diacronía; desde el punto de vista dinámico también hay aleatoriedad y tales fotos deben abordarse con esa óptica. Los análisis de la medición de un momento tienen basarse en el registro histórico de la propia encuesta y no asumir las cifras de ese minuto como la realidad actual sin examinarla en perspectiva.

En torno a los indecisos, no es muy correcto dar por sentadas las preferencias por los distintos candidatos en presencia de un importante número de gente que no se pronuncia.

En consideración a lo señalado, se propone un ejercicio metodológico posible en aras de subsanar ambos aspectos. Con este objeto, se modelarán series históricas y también a los indecisos. Se realizará con Cadem y Activa, que cuentan con un número importante de puntos en el tiempo.

El protocolo de cálculo será el siguiente:[1]

  1. Con el objeto de caracterizar a los indecisos, se aplica machine learning, en concreto random forest y redes neuronales, eligiendo el método que mejor se desempeñe.
  2. Una vez hecho lo anterior, cada punto de medición se corrige incorporando a los indecisos y extrayendo a los que no van votar, a nulos y blancos.
  3. Se ajustan modelos de mínimos cuadrados (MCO) y modelos Beta (pues son los apropiados para las distribuciones con variable de respuesta fraccional) a las evoluciones, de manera independiente.
  4. Puesto que los errores entre las variables de respuesta están correlacionados, se calzan modelos SUR (regresiones aparentemente no correlacionadas) y se comparan con los de MCO y de Beta.
  1. Con los modelos ajustados, se calculan las esperanzas condicionales que predice la serie histórica.
  2. A fin de complementar las predicciones, se calzan modelos Arima.
  3. Se empalman los resultados de la encuesta con configuraciones iniciales (fines de agosto) provenientes de los resultados de los modelos de distribuciones votos aplicados a las elecciones de este año.[2] Para este efecto se modela linealmente el tramo final de las predicciones de los modelos Arima, con el objeto de recoger la conducta de los bordes superiores (más suaves).

Caracterización de los indecisos

En rigor, esto debiera realizarse con la base de datos de cada encuesta en su respectiva salida temporal. Como no se cuenta con las bases de datos de las distintas empresas para cada una de sus mediciones, se trabaja con la base de datos de Data Influye de septiembre en razón de que es pública y contiene a todos los candidatos a la presidencia; no se debe perder de vista que esta encuesta refleja el clima imperante en ese momento. Se asume el supuesto heroico que el perfil de los indecisos es uno solo y se conserva en el tiempo.

Esto se hace solo con fines ilustrativos, no conlleva ninguna otra pretensión pues no sería correcto. Lo único que se persigue es mostrar que los indecisos pueden recibir un tratamiento en aras de su identificación y que existen herramientas para lograrlo.

Se probaron métodos de machine learning (random forest y redes neuronales). Las redes neuronales brindaron menores errores cuadráticos medios y poderes explicativos superiores.[3]

Se extrajeron los indecisos y se entrenaron modelos de redes neuronales con 32 variables exógenas de la encuesta. El mejor modelo funcionó con 3 capas ocultas de 35 neuronas cada una y se iteraron 1000 épocas.

Se presenta el cuadro consolidado con sus resultados finales.

Cuadro 1: Resultados de la redes neuronales

SichelProvosteKastBoricParisiMeoArtes
sin indecisosfrecuencia184181253346635634
porcentaje16.516.222.6315.653
indecisosfrecuencia38445937161515
porcentaje17.019.626.316.57.16.76.7
integradofrecuencia222225312383797149
porcentaje16.616.823.328.65.95.33.7
Fuente: elaboración propia en base a encuesta Data Influye

Las dos primeras filas corresponden a la clasificación original de la encuesta sin la presencia de los indecisos. Las siguientes proporcionan la clasificación que el modelo asigna a los indecisos y las últimas filas reportan la integración de ambos en la encuesta Tú Influyes.

Se aprecia con nitidez que Provoste y Kast aumentan entre los indecisos, fenómeno que reflejaría la reciente emergencia pública de ambos en la carrera presidencial en ese momento, en el marco del impacto de las primarias legales. Boric disminuye fuertemente en su interior; esto suena lógico en virtud de que el auge e imagen triunfadora de este candidato con posterioridad a las primarias de julio podrían haber inhibido menos a quienes lo apoyaban. Artés, Meo y Parisi crecen entre los indecisos, lo cual tampoco resulta extraño, por las razones exactamente contrarias.

Se debe tener la cautela de que se trata de una sola medición de Tú Influyes y responde a ella y su momento. En consecuencia, es probable que los indecisos de Kast hayan ido variando y este candidato aparezca un poco sobreestimado al aplicar esta clasificación a todas las evoluciones. En ningún caso esta caracterización de los indecisos es definitiva ni estable temporalmente (por el contrario, debiera ser dinámica), solo nos sirve, como se anotó, para realizar el ejercicio metodológico que nos hemos propuesto.

Los resultados del modelo se aplican a la medición de cada encuesta, reiterando que lo correcto es realizarlo con la base de datos correspondiente a cada medición. Si no se domina el machine learning, existen métodos sencillos -de análisis multivariado- que se podría utilizar para obtener caracterizaciones de los indecisos.

Cadem

Esta encuesta es la que ostenta las mejores condiciones para realizar el ejercicio que se ha propuesto puesto que realiza mediciones semanales, lo cual permite (en teoría) medir mejor el pulso de las campañas y disponer de una buena cantidad de puntos (mayor que todo el resto) para trabajar. Los análisis y modelamientos abarcan la serie completa que contempla a todos los candidatos presidenciales vigentes, desde fines de agosto hasta las dos últimas mediciones privadas de los día 12 y 16 de noviembre, esta última con posterioridad al debate de lunes 15.

Ajuste de modelos lineales y Arima

Primero se ajustan modelos independientes de mínimos cuadrados e inmediatamente se calzan modelos SUR, debido a que los errores de los candidatos están evidentemente correlacionados. Al mismo tiempo, se trabajan modelos beta (con función de enlace logarítmica) -en razón de que las variables de respuesta son fraccionales- calculando sus efectos marginales para extraer los coeficientes.

A continuación se presenta el cuadro comparativo con los estimadores de los tres modelos.

Cuadro 2: coeficiente de los modelos

SURMCOBeta
Boric-0.0030149-0.0030149-0.00307748
Sichel-0.01360777-0.01360777-0.01393009
Provoste-0.0034485-0.0034485-0.00348038
Kast0.015936990.015936990.01591871
Parisi0.003563450.003563450.00369528
Meo0.001533430.001533430.00165551
Artés-9.43E-04-9.43E-04-0.00122923
Fuente: elaboración propia en base a modelos

Se constata que todos los estimadores son prácticamente idénticos. Se opta por los modelos SUR, método óptimo cuando los errores de las variables de respuesta están correlacionados. El paso que sigue es el ajuste de modelos Arima.

En el próximo cuadro se sintetizan los resultados correspondientes a la última medición (16 de noviembre). Debe tenerse presente que éstos están corregidos por indecisos –como ya se anotó- utilizando la clasificación suministrada por las redes neuronales.

La primera columna representa los guarismos del 16-11, que reporta Cadem. La segunda columna consigna los resultados que predice el modelo SUR para ese mismo momento. La tercera columna muestra la predicción que realiza el modelo Arima.

Se separa la última columna pues contempla nuestra predicción para ese mismo momento, basada en los estimadores de tendencia del modelo SUR, pero asociados a las configuraciones que surgen desde los modelos de distribución de votos aplicados a las elecciones de este año y a algunas presidenciales anteriores, del tipo que se utiliza en los estudios anteriormente citados; estas últimas predicciones no pueden leerse como propias pues se calculan con las cifras de la serie de Cadem y, por ende, traducen dichas tendencias.

Cuadro 3: resultados de 16-11, medición Cadem y predicciones de los modelos

medicióncadem surarima propia sur
Boric27.0%24.3%26.3% 34.3%
Sichel13.0%9.0%8.5% 8.9%
Provoste11.0%13.6%12.1% 19.9%
Kast30.0%33.1%32.9% 24.1%
Parisi12.0%10.9%12.0% 7.9%
Meo6.0%6.7%6.2% 4.0%
Artés1.0%2.3%1.9% 1.0%
Fuente: elaboración propia en base a modelos

Las cifras de las columnas centrales son las que debieran reflejar la foto de Cadem para ese momento, pues trabajan con la modelación de la serie completa. Si bien no se demostrará en este artículo (para no alargarnos y confundir con más cuadros y gráficos), debiera ser el modelo Arima el que represente de mejor manera dicha realidad, debido fundamentalmente a que se ajusta más fielmente a las curvas en el tiempo de cada candidato; los modelos lineales SUR no necesariamente dan cuenta fina de dichos comportamientos, aun cuando sus resultados están más de acuerdo con el registro histórico que las cifras aleatorias que mide Cadem. Con todo, ambos modelos responden estrictamente al registro de Cadem, con la inclusión de los indecisos.

Las cifras nuestras, con base en la propia Cadem, difieren dramáticamente de lo que afirma la encuesta Cadem. Boric se empina en el primer lugar, con largueza, y Kast aparece muy abajo en segundo lugar, más cercano a Provoste.

Proyecciones para la primera vuelta

En el cuadro que sigue se presentan proyecciones efectuadas para el día 21 de noviembre. La primera columna consigna las proyecciones lineales de la encuesta Cadem (corregida por indecisos), en base al modelo SUR. La segunda columna reporta las proyecciones de la misma serie que extrapola el modelo Arima.

La tercera columna, separada, presenta las predicciones nuestras –basadas en la misma serie de Cadem- que combina el modelo SUR empalmado con los escenarios que arrojan los modelos ya destacados al inicio, junto con modelaciones lineales del último tramo de los modelos Arima, recogiendo los aplanamientos en los tramos finales.

Cuadro 4: proyecciones 21 de noviembre

cadem_surarima propia_sur_arima
Boric24.2%27.4% 34.9%
Sichel8.3%13.7% 7.9%
Provoste13.4%10.1% 19.4%
Kast33.9%29.2% 24.5%
Parisi11.1%11.1% 8.6%
Meo6.8%5.9% 4.0%
Artés2.2%2.6% 0.6%
Fuente: elaboración propia en base a modelos

En relación con las propias predicciones de Cadem, Arima se comporta mejor que la predicción lineal, como era esperable y proyecta escenarios de primera vuelta estrictamente ceñidos a la serie histórica de Cadem.

Las proyecciones propias (fundadas en las cifras de Cadem) observan que, al igual que el cuadro anterior, es Boric quien asoma como el ganador indiscutible de la primera vuelta secundado por Kast, a diferencia de lo que sugiere Cadem. Provoste se instala en tercer lugar no lejos de Kast.

Destacan las diferencias de Provoste y Parisi en relación con Cadem.

Activa

Ajuste de modelos lineales y Arima

Debido a que no hay puntos suficientes para que funcione el modelo SUR, se ajustan modelos independientes de mínimos cuadrados y también se calzan modelos beta (con función de enlace logarítmica), comparando las estimaciones.

A continuación se presenta el cuadro comparativo con los estimadores de los dos modelos.

Cuadro 5: coeficientes de los modelos

MCOBeta 
Boric-0.00261208-0.00240001
Sichel-0.02566407-0.02564696
Provoste-0.00551623-0.00547432
Kast0.023457480.02398948
Parisi0.005711770.00541151
Meo0.002802410.00299909
Artés0.001820720.00183981
Fuente: elaboración propia en base a modelos

Los estimadores de MCO y del modelo Beta son prácticamente idénticos. Se trabajará con los modelos beta por las razones ya esgrimidas. Luego, se ajustan los modelos Arima.

El cuadro siguiente resume los resultados correspondientes al fin de semana del 13-14 de noviembre. Están corregidos por indecisos, incorporando los resultados de las redes neuronales.

La primera columna representa las mediciones de Activa para ese fin de semana, corregidas por indecisos. La segunda columna reporta los resultados que el modelo Beta predice para ese mismo momento. La tercera columna muestra la predicción que realiza el modelo Arima.

La última columna, separada, exhibe nuestra predicción, basada en los estimadores de tendencia del modelo Beta, asociados a las configuraciones que surgen de los modelos de distribución de votos; al igual que con la Cadem, estas últimas predicciones no pueden leerse como propias pues se calculan con las cifras de Activa y se basan en sus particulares tendencias.

Cuadro 6: resultados de 13-11, medición Activa y predicciones de los modelos

mediciónactiva betaarima propia beta
Boric24.8%24.6%24.2% 35.6%
Sichel9.5%10.0%13.0% 4.0%
Provoste12.2%14.1%14.8% 19.4%
Kast30.4%30.4%27.9% 24.8%
Parisi14.0%11.0%11.9% 8.0%
Meo5.1%6.1%5.4% 4.6%
Artés4.0%3.7%2.9% 3.5%
Fuente: elaboración propia en base a modelos

Las cifras de los dos modelos de las columnas centrales constituirían la predicción de Activa para ese momento. Se reitera que debiera ser el modelo Arima quien represente de mejor manera dicha realidad; los modelos Beta expresan la tendencia lineal de dichos comportamientos. Con todo, estos modelos responden estrictamente a las mediciones efectuadas por Activa, con la inclusión de los indecisos.

Las cifras nuestras, con base en la propia Activa, manifiestan cosas distintas. Boric se empina en el primer lugar, con largueza, y Kast se consolida en el segundo lugar muy por detrás del primero. Sichel aparece demasiado castigado en virtud de la tendencia de caída que manifiestan las mediciones de Activa.

Proyecciones para la primera vuelta

En el cuadro que sigue, se presentan proyecciones para el día 21 de noviembre. La primera columna consigna las proyecciones lineales de la encuesta Activa en base a los modelos Beta. La segunda columna reporta las proyecciones del modelo Arima. La tercera columna presenta las predicciones nuestras que combina los resultados de los modelos Beta asociados a los escenarios que arrojan los modelos ya destacados, junto con modelaciones lineales del último tramo de los modelos Arima.

Cuadro 7: proyecciones 21 de noviembre

Activa BetaArima Propia Beta Arima
Boric24.2%24.3% 34.4%
Sichel9.2%11.3% 4.5%
Provoste13.7%16.3% 18.4%
Kast31.7%27.4% 25.7%
Parisi11.2%13.0% 9.0%
Meo6.2%4.6% 4.6%
Artés3.8%3.1% 3.4%
Fuente: elaboración propia en base a modelos

Las proyecciones propias, que están fundadas en las cifras de Activa, igualmente sitúan a Boric como el ganador indiscutible de la primera vuelta, secundado por Kast y luego Provoste. Con todo, Sichel permanece muy por debajo del lugar que se presume debiera estar.

Comparación de escenarios de primera vuelta

El cuadro siguiente consolida las distintas predicciones para el día 21 de noviembre.

Cuadro 8: consolidado de proyecciones 21 de noviembre

Cadem SURActiva Beta Cadem ArimaActiva Arima Cadem PropiaActiva Propia
Boric24.2%24.2% 27.4%24.3% 34.9%34.4%
Sichel8.3%9.2% 13.7%11.3% 7.9%4.5%
Provoste13.4%13.7% 10.1%16.3% 19.4%18.4%
Kast33.9%31.7% 29.2%27.4% 24.5%25.7%
Parisi11.1%11.2% 11.1%13.0% 8.6%9.0%
Meo6.8%6.2% 5.9%4.6% 4.0%4.6%
Artés2.2%3.8% 2.6%3.1% 0.6%3.4%
Fuente: elaboración propia en base a modelos

Las proyecciones de los modelos Arima, en ambas encuestas, son las que mejor representarían sus predicciones para la primera vuelta, en tanto se hacen cargo de mejor manera de las curvas temporales de los candidatos.

En el caso de las predicciones que tildamos de propias y que no lo son –en virtud de que trabajan con las series propias de cada encuesta- adolecen del problema que sitúan a Sichel demasiado bajo (principalmente las de Activa) y en el caso de Cadem también a Artés. Parisi, si bien aparece más bajo que en las proyecciones de las propias encuestas, igual está influido por el alza que sufre en ambas, particularmente en las últimas mediciones.

Ambas encuestas, en las mediciones más recientes encumbran a Parisi en posiciones superiores a Sichel e incluso a Provoste, lo cual no parece creíble. Si las elecciones de primera vuelta resultaren en que Parisi supera a Provoste y Kast a Boric significaría que este país inicia un período onírico sin retorno.

Luego, a la luz del conjunto de predicciones, nos aventuramos a ensayar algún pronóstico a modo de juego con los números, pues se reitera que todas estas cifras se sustentan en las mediciones de Cadem y Activa  y una sola modelación de los indecisos sobre una base datos de septiembre de Tú Influyes. Con temeridad y sin mediciones propias, vaticinamos resultados de primera vuelta dentro de bandas para cada uno de los candidatos, solo porque siempre hay que arriesgar.

Cuadro 9: pronósticos

Primera vuelta
Boric31% – 34%
Sichel10% – 13%
Provoste18% – 21%
Kast24% – 27%
Parisi5% – 7%
Meo4% – 6%
Artés2% – 3%
Fuente: elaboración propia en base a modelos

Finalmente, es menester tener en consideración que esta semana no estuvo exenta de hechos que podrían incidir en el voto definitivo, tomando también en cuenta que la volatilidad de los electores no es baja.

El primero dice relación con Kast y Sichel que, de alguna manera, invirtieron su imagen prevaleciente en el último mes y medio, a raíz de las declaraciones de Kast en favor de la dictadura y la debilidad exhibida en el último debate, a diferencia de Sichel. Quizás no alcance el tiempo para que se revierta dramáticamente la relación, pero si realmente dicho fenómeno se manifiesta en la votación en algún grado importante, se abriría una ventana para la irrupción de Provoste.

De otro lado, es difícil adelantar cuánto podría golpear a Boric la denuncia de Ciper sobre los pagos de la campaña a gobernadora de Karina Oliva.

  1. Conclusiones
  2. Queda demostrado que es posible, matemáticamente, dotar de mayor precisión las mediciones de una encuesta, que pretende ser longitudinal.
  3. Los indecisos pueden ser caracterizados en cada medición y, por ende, recalcular dicha medida, al menos a modo de téngase presente.
  4. Existe más de una herramienta metodológica para modelar la serie temporal y predecir las magnitudes reales que se ajustan al conjunto de mediciones longitudinales y no la medición estocástica del momento.
  5. También es posible realizar proyecciones futuras, basadas en los modelos.
  6. Igualmente, si se combinan estos modelos con otros más complejos, es posible alcanzar resultados más acordes con la realidad, que neutralizan el sesgo de cada encuesta.


\

[1] Todos los cálculos y análisis se realizan en el lenguaje de programación R.

[2] El modelo fue creado por Daniel Fischer y está referido y aplicado en

Las vueltas de los gobernadores
Las primarias, las cifras y el paisaje
Quién votó por cada candidato

[3] Para random forest se utilizó la librería Ranger y para redes neuronales la interface de H2O.