Inegi presenta la herramienta Estado de ánimo de tuiteros en México - LJA Aguascalientes
04/12/2021

  • Única en el ámbito mundial, esta herramienta representa el ejercicio de generación de información estadística con más alta frecuencia del Inegi  
  • Es una incursión en el mundo de Big Data para explorar la utilidad de fuentes no tradicionales de información y vincularlas con la generación de información estadística y geográfica

 

El Inegi incursiona en el mundo del Big Data para explorar la utilidad de fuentes no tradicionales de información a fin de vincularlas con la generación de información estadística y geográfica y hoy presenta el Estado de ánimo de los tuiteros en México, un trabajo experimental para el “análisis de sentimientos”, con el objetivo de interpretar la emotividad que subyace a los mensajes que se publican en la plataforma digital Twitter.

Esta herramienta es un esfuerzo por medir el bienestar “más allá del PIB”[2]. En este caso no se refiere a bienestar autorreportado, como ocurre con estadísticas que el mismo Inegi genera en sus encuestas Biare, sino de bienestar inferido a partir de la carga anímica implícita en los mensajes publicados en Twitter.

Es el ejercicio de generación de información estadística con más alta frecuencia que el Inegi haya realizado hasta ahora y, por sus características, una herramienta única en el ámbito mundial.

Las técnicas de aprendizaje de máquina permitieron entrenar a una computadora para replicar el criterio humano en la identificación de la carga emotiva de cada tuit: negativa o positiva. Se clasifica cada tuit y a partir de ello se construye un indicador que relaciona el número de tuits asociados con una carga emotiva positiva (tuits positivos) por cada tuit asociado con una carga emotiva negativa (tuits negativos).

A este indicador lo llamamos el “cociente de positividad” y se define como el número de tuits positivos entre el número de tuits negativos para una determinada área geográfica en un periodo de tiempo determinado.

Así, el Estado de Ánimo de los Tuiteros en México reporta un cociente de positividad a partir de enero de 2016 con actualización automática diaria, que puede ser visualizado para el país en su conjunto y para cada una de sus entidades federativas con frecuencia anual, trimestral, mensual, semanal, diaria e incluso por hora.

La evolución del cociente de positividad permite visualizar cómo los estados de ánimo positivos y negativos se difunden en mayor o menor medida entre la población tuitera y los cambios de esa difusión de un periodo a otro y de una entidad federativa a otra. Esto nos permite atisbar en aspectos de nuestra realidad nacional que adquieren mayor relevancia en la medida en que se extiende el uso de redes sociales digitales a través de Internet.

Dado que es probable que los cambios en el cociente de positividad emotiva no sean meramente aleatorios, resulta de interés indagar acerca de los hechos o noticias que pudieran estar asociados con el incremento o la disminución en el mismo.

La sensibilidad del Estado de Ánimo de los Tuiteros en México para captar de manera automática el impacto emotivo de cambios relevantes en el entorno se puso a prueba con los recientes sismos del 7 y el 19 de septiembre de 2017 que afectaron a varias entidades federativas del país. Tanto el 8 de septiembre como el 19 de ese mes, presentan bajas importantes en el cociente de positividad en la serie nacional con frecuencia diaria y muestran el cambio del estado de ánimo de los tuiteros justo a partir de la hora en que ocurrieron los sismos.


La herramienta permite visualizar las reacciones diferenciadas por entidad federativa, de manera que mientras que la Ciudad de México presenta notables bajas en la positividad tanto el 8 como el 19 de septiembre, en Chiapas sólo se observa esa caída el día 8 y en Chihuahua no se aprecia algún cambio importante en ninguna de las dos fechas.

Conviene tener presente que no todos los movimientos en las series de los cocientes de positividad tienen una interpretación evidente u obvia. Los usuarios pueden complementar la información de que disponen con la que ofrece el sistema para enriquecer su explicación de las variaciones del estado de ánimo de los tuiteros. La plataforma permite asociar cada observación con una nube de hashtags y también con las noticias del día, cuando el análisis se hace con una frecuencia diaria.

A diferencia de lo que ocurre con las fuentes estadísticas tradicionales como las encuestas o los censos, la información de redes sociales no responde a un diseño conceptual, estadístico y operativo orientado a conocer aspectos específicos de nuestra realidad, sino que reaprovecha para fines estadísticos, información que en principio fue creada para otros propósitos.

La herramienta del Estado de Ánimo de los Tuiteros en México está disponible en la página del Inegi en internet (www.inegi.org.mx), en la sección de investigación/estadísticas experimentales y se puede acceder directamente mediante la liga: https://goo.gl/8qBXRM

 

Construcción de estado de ánimo de los tuiteros

Para construir el Estadio de Ánimo de los Tuiteros fue necesario descargar todos los tuits georreferenciados que se han emitido en México en los últimos dos años, lo que significa una acumulación de varios cientos de millones de tuits. La calificación manual de cada tuit con seres humanos que los valoren diariamente en términos de su carga emotiva subyacente (positiva, negativa o neutra) implicaría la necesidad de un enorme ejército de calificadores trabajando las 24 horas del día, lo que haría el proceso enormemente oneroso e inviable para todo propósito practico. Sin embargo, es posible entrenar a una computadora para que replique el criterio humano (con un cierto nivel de precisión). Para entrenar a la compradora, sin embargo, sí es necesario contar con un conjunto de entrenamiento calificado por humanos. En este caso el conjunto efectivo de entrenamiento resultante estuvo integrado por cerca de 20,000 tuits normalizados que, con el apoyo de la Universidad TecMileno, fueron clasificados por poco más de 5,000 estudiantes los más de 29 campus distribuidos en 17 estados del país, de dicha institución.

Los estudiantes de cada estado recibieron tuits generados en ese mismo estado de manera que se facilitara la adecuada interpretación de regionalismos. Cada tuit fue evaluado por distintos estudiantes y cada estudiante evaluó varias veces el mismo tuit, de manera que se pudo identificar y desechar la información proveniente de calificadores inconsistentes además de que se pudo identificar los tuits que sistemáticamente eran calificados por distintas personas como positivos, negativos o neutros, lo que ayudó a lograr una calificación más robusta. En total se realizaron más de 300,000 acciones de etiquetado de tuits por parte de los estudiantes de TecMilenio. En una segunda etapa se hizo un reentrenamiento de la computadora, esta vez con un conjunto resultante de cerca de 35,000 tuits evaluados por poco más de 4,000 trabajadores del Inegi, distribuidos en las 32 entidades de la República Mexicana, bajo el mismo procedimiento descrito arriba para la evaluación hecha por los estudiantes de TecMilenio.

Los tuits clasificados por humanos fueron después utilizados para entrenar a la computadora, para lo cual fue necesario incorporar un ensamble de clasificadores desarrollados con el apoyo de investigadores expertos en ciencia de datos de Infotec y Centro Geo, radicados en Aguascalientes. Usando un conjunto de tuits clasificados por humanos que no fueron usados en el entrenamiento de la máquina, fue posible establecer que dicho ensamble de clasificadores permite que la computadora clasifique adecuadamente 80 de cada 100 tuits, lo que es un porcentaje de acierto particularmente elevado entre las experiencias conocidas en el ámbito mundial en materia de análisis de sentimiento.

Una vez con la computadora entrenada para clasificar tuits, el Inegi se dio a la tarea de explotar los resultados y presentarlos en las versiones 1.0 y 2.0 del Estado de ánimo de los tuiteros en México. Si bien la versión 1.0 funcionó como una prueba de concepto, la versión 2.0 está diseñada pensando en una interacción más eficaz con los usuarios. No obstante que la información publicada en Twitter es pública, el Inegi solamente reporta datos agregados y en ningún momento reporta tuits nominativos o individualizados. Incluso en el sistema de clasificación de tuits (Pioanálisis) se presentan los mensajes de Twitter “confidencializados”, es decir, sin que sea posible identificar la cuenta de quien los emite.

 

Con información del Inegi


Show Full Content
Previous Defiende diputado priista con sólo una iniciativa su derecho a reelegirse
Next Para febrero, arranque de Taxi Seguro en la Central Camionera
Close

NEXT STORY

Close

Guanajuato vota en contra de despenalización de aborto

27/05/2020
Close