Abstracto
- Los estudios de opinión destinados a predecir los resultados de la votación a partir de datos de las redes sociales son parte de un campo de investigación desafiante, sujeto a encontrar muchos obstáculos. Las coordenadas de ubicación de los mensajes no implican necesariamente que la nacionalidad del usuario que publicó los mensajes corresponda a esa ubicación; los ejemplos incluyen personas en tránsito a través de un país. Identificar la nacionalidad de los usuarios de una plataforma de redes sociales que forman parte de un estudio de intención de voto requiere una importante inversión de tiempo y recursos. Este trabajo propone una metodología que automatiza el proceso de etiquetado de la nacionalidad de los usuarios de Twitter utilizando la técnica de aprendizaje automático Random Forest basada en una pequeña muestra etiquetada manualmente de usuarios de tres países de Centroamérica. De 5 millones de mensajes descargados se extrajeron muestras más amplias de más de 1.000 usuarios (1.343 en Nicaragua, 3.886 en Costa Rica y 6.392 en Panamá) con una proporción de nacionalidad superior al 89% (94,03% en Panamá, 91,17% en Costa Rica y 89,61). % en Nicaragua). Los resultados se logran dentro de los intervalos de confianza comúnmente utilizados en estudios científicos al construir muestras.