Monthly Archives: mayo 2010

Alcaldes, Diputados, Senadores y Presidentes

Tal como mencionamos en éste artículo, tresquintos está inspirado en proyectos de predicción electoral llevados a cabo en Estados Unidos y en Reino Unido. Ahora bien, tanto en Estados Unidos como en Reino Unido las elecciones presidenciales y legislativas son significativamente diferentes a sus respectivas elecciones en Chile. Para ajustar estos modelos al caso chileno debemos tomar en cuenta las particularidades de cada elección.

Elecciones presidenciales

En Estados Unidos las elecciones presidenciales se conducen a través de un Colegio Electoral (Electoral College), y en Reino Unido se conducen bajo las premisa de elecciones parlamentarias (General Elections). En Chile, en cambio, existe una elección presidencial directa con segunda vuelta en el caso de que el candidato con más votos no consiga la mayoría abslouta (50%). Por eso, no es necesario simular las diferentes combinaciones que pueden existir para elegir al presidente (como en Estados Unidos), ni es necesario entrar en un sofisticado análisis coyuntural para predecir la formación de coaliciones (como en Inglaterra). En Chile, es electo el candidato con más votos a nivel nacional. Por eso, basta usar los datos que entregan las encuestas para apuntar al candidato ganador.

Elecciones legislativas

En Estados Unidos y Reino Unido las elecciones legislativas se llevan a cabo en unidades electorales uninominales (se elige un representante por unidad electoral). En Chile en cambio, las elecciones legislativas se llevan a cabo en unidades electorales binominales (se eligen dos representantes por unidad electoral). Por eso, el proceso para predecir los resultados de la elección legislativa es levemente más complejo. En vez de hacer el mismo procedimiento que hacemos para identificar el candidato presidencial favorito, debemos lidiar con las complejas distorsiones del sistema electoral binominal (el método de asignación de escaños a partir de los votos). Esto lo hacemos en dos pasos. El primer paso es usar los datos de corto y largo plazo para identificar la probabilidad de cada candidato de ser electo en su unidad electoral. La sumatoria de estas probailidades nos indica qué lista esta mejor parada. El segundo paso es lidiar con la distorsión de fábrica (puede existir el caso donde los dos candidatos con más votos no sean los mismos dos que resultan electos). Dado que puede existir el caso que tres candidatos tengan la misma probabilidad matemática de resultar electos, usamos la votación de cada lista como proxy. Es decir, de acuerdo a la probabilidad de votación de cada lista definimos si va haber doblaje o no en la respectiva unidad electoral. En el caso que no hay doblaje (lista<66,6%), pronosticamos una victoria electoral para los dos candidatos con mayor probabilidad de votación de cada una de las dos listas con mayor proababilidad de ser las más votadas. En el caso que sí hay doblaje (lista>66,6%), pronosticamos una victoria para los dos candidatos de la lista con mayor probabilidad de ser la más votada.

Elecciones de alcaldes

Para predecir resultados para las elecciones de alcalde, seguimos el mismo procedimiento que seguimos para las elecciones presidenciales; dado que en ambas elecciones los candidatos son electos por votación directa en unidades electorales uninominales (m=1).

Variables de Largo Plazo

Cada comuna, distrito, circunscripción tiene una realidad política, socioeconómica y demográfica diferente. Bajo esa premisa incorporamos las siguientes variables al modelo:

  • Variables Políticas
  1. Titularidad. Un candidato tiene más probabilidades de ser electo si es el titular en el cargo.
  1. % Votos coalición candidato. Un candidato tiene más probabilidades de ser electo si pertenece a la coalción incumbente.
  2. % Votos partido candidato. Un candidato tiene más probabilidades de ser electo si pertenece al partido incumbente.
  3. Diferencial entre candidatos  (primero y segundo) en la última elección. En el caso de alcaldes, un candidato tiene más probabilidades de ser electo mientras más amplia fue la ventaja que tuvo el candidato de su partido/coalición frente a el rival más cercano en la elección pasada. En el caso de diputados y senadores, un candidato tiene más probabilidades de ser electo mientras más amplia fue la ventaja que tuvo la lista de su partido/coalición frente a la lista más cercana en la elección pasada.
  4. Doblaje. En el caso de diputados y senadores, la probabilidad de un candidato de resultar electo aumenta en la medida que su coalición se hayan adjudicado más doblajes en el distrito/circunscripción.
  • Variables Socioeconómicas
  1. Ingreso per cápita. Dependiendo del contexto histórico de cada unidad electoral, el ingreso per cápita tiene un efecto positivo, neutro o negativo sobre la probabilidad de un candidato de resultar electo.
  2. Proporción de la población trabajando en el área de servicios. Dependiendo del contexto histórico de cada unidad electoral, la proporción de la población trabajando en el área de servicios tiene un efecto positivo, neutro o negativo sobre la probabilidad de un candidato de resultar electo.
  • Variables Demográficas
  1. Proporción de la población mayor a 51. Dependiendo del contexto histórico de cada unidad electoral, la proporción de gente adulta en la comunidad tiene un efecto positivo, neutro o negativo sobre la probabilidad de un candidato de resultar electo.
  2. Proporción de la poblacion entre 18 y 29. Dependiendo del contexto histórico de cada unidad electoral, la proporción de gente jóven en la comunidad tiene un efecto positivo, neutro o negativo sobre la probabilidad de un candidato de resultar electo.
  3. Proporción de la población con enseñanza universitaria. Dependiendo del contexto histórico de cada unidad electoral, la proporción de gente con un alto nivel de educación tiene un efecto positivo, neutro o negativo sobre la probabilidad de un candidato de resultar electo.
  4. Proporción de la población rural. Dependiendo del contexto histórico de cada unidad electoral, la proporción de gente que vive en sectores rurales tiene un efecto positivo, neutro o negativo sobre la probabilidad de un candidato de resultar electo.

Construcción y Ajuste del Indicador Único

En Chile hay pocas encuestas que consiguen acaparar la atención de los expertos. Por lo general las encuestadoras CERC, CEP e ICSO-UDP logran entrar en este selecto grupo. Mientras la primera es llamativa por su trayectoria, las dos segundas lo son por su transparencia y rigurosidad metodológica. El resto de las encuestas que se hacen en el país (alrededor de 10), no se han logrado consolidar en este nivel.

Ahora bien, para propósitos inferenciales, ¿qué es mejor? ¿usar sólo las encuestas buenas? o ¿usar todas las encuestas?

Por un lado, hay importantes razones para usar sólo una encuesta. Principalmente para ser consistente en la metodología de análisis. Surgen varios problemas al momento de promediar una montonera de encuestas que son en esencia diferentes. Entre los problemas:

  1. Los tamaños de las muestras son diferentes; atribuirle a todas las encuestas el mismo peso es un error.
  2. Los tiempos de muestreo son diferentes; por ejemplo, entre encuesta y encuesta pasan diferentes cosas en la coyuntura que pueden cambiar por completo la mirada inicial del encuestado.
  3. La población objetiva de las muestras es diferente; por ejemplo, una encuesta a una población que vive en una zona urbana difiere significativamente de una encuesta a una población que vive en una zona rural.
  4. Las encuestas utilizan diferentes técnicas para recopilar los datos; por ejemplo, una encuesta telefónica difiere significativamente de una encuesta presencial.
  5. Las encuestas usan diferentes ponderaciones para compensar por personas que no fueron sondeadas; dependiendo de los algoritmos teóricos las encuestas atribuyen diferentes pesos a la misma población.
  6. Las encuestas utilizan diferentes estilos para hacer las misma preguntas; hacer una pregunta de cierta forma puede intencionalmente conducir a una persona a emitir un cierto juicio.

Por otro lado, hay importantes razones para usar todas las encuestas disponibles.

  1. Si miramos sólo las encuestas “buenas”, tenemos muy poco datos; la encuesta ICSO-UDP se emite una vez al año, la CEP se emite dos veces al año, y la CERC cuatro.
  2. Elegir una encuesta por sobre otra es arbitrario; los candidatos y los partidos políticos hacen esto para favorecer la encuesta que es más auspiciosa para ellos–el análisis debe ser más riguroso.

Si bien hay más razones para usar una sola encuesta, hay mejores razones para utilizar varias. En la medida que se puede compensar por los errores que se pueden producir, usar más encuestas entrega una visión más global sobre la realidad. Por ejemplo, sería un error sumar todas las encuestas y dividir por el mismo número para generar un indicador único. Al contrario, es necesario identificar las fortalezas y debilidades de cada encuesta para asignarle un peso diferente a cada una. Mientras podamos controlar por los  pros y contras  de cada encuesta podemos generar una mayor capacidad predictiva, en base a su error total.

Para lograr el objetivo de este blog (pinchar aquí), inevitablemente necesitamos usar datos de encuestas. Debido a que tener más datos es mejor que tener menos, proponemos una forma de usar todo lo disponible, pero evitando caer en los sesgos y errores endógenos nombrados más arriba. Seguimos el ejemplo de proyectos similares que se han llevado a cabo en otros países, pero guardando precaución para operar dentro del marco de la realidad política chilena. En concreto, aplicamos una fórmula para asignar puntaje a las encuestadoras en base a tres factores: (1) el error reportado de su muestreo,  (2) el error temporal, y (3) el error introducido:

Error Total = Error de muestreo + Error temporal + Error introducido

Error de muestreo es la cifra que las encuestadoras reportan como su margen de error.

Error temporal es el error temporal controla por la distancia entre el momento de la encuesta y el día de la elección. La premisa básica es que la capacidad predictiva de una encuestadora aumenta en la medida que se acerca la elección. Por ejemplo, es más fácil predecir los resultados de una elección a cinco días de ella, que a cinco meses. En concreto, el error temporal se incorpora al modelo en términos de la incertidumbre que provoca el tiempo. [Notar que para efectos del ránking de encuestadoras, se ignora el error temporal dado que todas las encuestas tienen la misma probabilidad de fallar (es decir, suponemos que es igual a cero)].

Error introducido es el error que resulta de una mala metodología. Como cuestión de práctica, todas las encuestadoras tienen errores no forzados; es decir el error real es siempre mayor al error de muestreo que reporta encuestador. Para efectos de este estudio, el error introducido se infiere tomando el error total de la encuesta, y se le resta el error de muestreo reportado.

Por ejemplo, en la elección presidencial de 2009 la encuesta CEP (octubre) reportó que Piñera obtendría un 11,70% de ventaja por sobre Frei. Sin embargo, en la elección de diciembre Piñera se impuso a Frei por un 15,04%. Eso es una diferencia de 3,34%. Ahora bien, parte de este error no es culpa de la encuesta CEP, más bien del tamaño finito de su muestra. Específicamente, la CEP encuesto a 1,505 personas lo que significa que tendrá un error muestral de aproximadamente 3,0%, por sí sola. Por eso, el error introducido corresponde a 3,34% menos 3,0%, o bien 0,34%. Si la CEP habría entrevistado a más gente, el error muestral reportado sería menor, pero el error introducido sería mayor.

Notar que el error natural de una encuesta es técnicamente fácil de determinar, por medio de una distribución binominal:

80 * n^(-.5), donde n es igual a el tamaño de la muestra

Así, cada encuesta es asignada un error introducido. Luego, el error introducido se compara, por medio de un método de iteración, frente al error introducido promedio del resto de las encuestadoras que reporto resultados para la misma elección. Esta comparación es el promedio iterado de error (PIE).

El índice importante en esta tabla es el marcado como:  ”+ / -”. Puede ser interpretado como la medida en que la encuestadora predijo con mayor o menor exactitud el resultado de la elección, en comparación con el índice promedio del resto de las encuestadoras.

Ahora bien, para traducir estos números en cifras que podemos usar para ponderar el peso de cada una de las encuestas necesitamos completar dos pasos.

PASO 1: El primer paso es regresar el “+ / -” a la media. Esto es simplemente un cálculo directo del error estándar de la media.

PASO 2: El segundo paso es sumar a cada indice el error introducido promedio de todas las encuestas.

Predicciones Electorales

Hay dos métodos para predecir los resultados de una elección, (1) por medio de un modelo tradicional, o (2) por medio de un modelo experimental. Por un lado, el modelo tradicional implica usar la información que entrega una o varias encuestas, y a partir de su margen de error predecir el resultado. Por ejemplo, si la encuesta CEP nos dice que el candidato X va recibir 55% de los votos con un 3,0% de margen de error, podemos determinar que el candidato va recibir entre 52% y 58% de los votos, y trabajar analíticamente desde esa premisa. Por otro lado, el modelo experimental implica usar la información de una o varias encuestas, e incorporar más variables para construir modelos predictivos originales.

El objetivo de tresquintos es seguir esta segunda línea, la del modelo experimental. En este blog utilizamos tres elementos para construir el modelo predictivo experimental: (1) cocimiento teórico sobre el sistema político, el sistema socioeconómico y el sistema demográfico, (2) datos duros, y (3) una matriz estadística que simula los resultados de la elección en forma de algoritmo.

Conocimiento teórico

Las teorías de comportamiento electoral están basados en los sistemas políticos, socioeconómicos y demográficos de cada país. Por eso, los modelos predictivos varían significativamente entre países. Hay una teoría de comportamiento electoral exclusiva para cada país. En Chile, existen bastantes estudios académicos que sirven de referencia para seleccionar las variables independientes. Sabemos, por ejemplo, que las variables independientes sugeridas por las escuelas de Columbia, Michigan y de Rational Choice han servido para hacer inferencias robustas sobre resultados electorales en el pasado. La intención de tresquintos es seguir esta línea para enmarcar las predicciones electorales dentro de teorías de comportamiento electoral.

Por un lado usamos los datos que entregan las encuestadoras. Por ejemplo, usamos el indicador de intención de voto por un candidato presidencial para explicar su éxito en la elección. También usamos la intención de voto por coaliciones para explicar el nivel de éxito de las listas electorales en las elecciones legislativas. Para ver todas las variables que se usan de las encuestas, pinchar aquí. Por otro lado, usamos los datos que entregan las agencias gubernamentales. Por ejemplo, usamos indicadores de ingreso per cápita y rendimiento electoral en elecciones anteriores para predecir el éxito de los candidatos. Para ver todas las variables que se usan de las agencias gubernamentales, pinchar aquí.

Datos duros

Los datos que se usan para este tipo de proyecto dependen en gran medida de la disposición de las encuestadoras que sondean opinión pública y de las agencias gubernamentales que recopilan datos, como se infiere del párrafo anterior. En Chile esta información es bastante fácil de conseguir. Dado que los datos que se necesitan de las encuestas son pocas y no deagregadas, no hay mayores complicaciones. Se usan datos de las siguientes encuestadoras: Adimark, CEP, CERC, Consultora MORI, Direct Media, El Mercurio (Opina), Giro País (Subjetiva), ICSO-UDP, Imaginacción, IPSOS, La Segunda (UDD), La Tercera, TNS-Time. A su vez, los datos que se necesitan de las agencias gubernamentales son en buena parte públicos y gratuitos. Se usan datos de las siguientes agencias: Archivo de Elecciones, CASEN, INE, Servel, SINIM.

Matriz estadística

Una vez que está la teoría y los datos, sólo falta identificar el método matemático en que se calculan las probabilidades. En el mundo, hay varios proyectos que han intentado simular elecciones a partir de modelos experimentales. En Chile, no. Por eso, nos basamos en aquellas experiencias internacionales que han perfeccionado el método por ensayo y error. Los modelos experimentales más exitosos han sido probados en Estados Unidos (ver 538, Daily Kos, Politico, Real Clear Politics, Princeton Election Consortium, entre otros) y Reino Unido (ver Election Experts de LSE, The Poll Center de Politics Home, entre otros). En tresquintos usamos dos métodos matemáticos para hacer inferencias; para ver el proceso de simulación de los resultados, pinchar aquí, para ver el proceso de proyección de los resultados, pinchar aquí.

Primera Entrada

La primera entrada de este blog es sobre la naturaleza metodológica y la misión analítica de tresquintos. Puede verlo aquí.