Análisis de tráfico de comunicaciones en Milán

Los resultados mostrados en esta entrada pertenecen al trabajo realizado por mis estudiantes del Grado de Ingeniería Química Industrial Ekaterina Mitiashkina y Adriana Cecilia Nguema Mbang.

El trabajo planteado a Ekaterina (Lina) y Adriana constituía el proyecto a evaluar en mi asignatura Estadística de primer curso. Por primera vez he impartido esta asignatura bajo la metodología de aprendizaje basado en proyectos.

Como punto de partida, les proponía lo siguiente:

“La llamada Sociedad 2.0 ha generado nuevos retos para la Ingeniería. Uno de ellos es el conocimiento del conocido de forma general como Big Data, término con el que se alude al inmenso conjunto de datos que pueden recogerse hoy en día sobre casi cualquier ámbito. 

Enmarcado en ese contexto, este trabajo considera como punto de partida una hoja de datos recogida por la empresa Telecom Italia en la ciudad de Milán el 1 de noviembre de 2013 (Telecom Italia, 2015). Cada fila de esta hoja se refiere a una interacción de un usuario de la compañía con una Radio Base Station (RBS) a lo largo de un período de 10 minutos; en total hay 4.842.625 interacciones. Para cada interacción, se tienen las siguientes variables:

  • Square id: es una identificación de la zona de Milán donde se localiza la RBS de la interacción (en adelante, celda). Para ese fin, Milán fue dividido en 10000 celdas correspondientes a sendas RBS.
  • Time Interval: hora de comienzo de la interacción.
  • SMS-in activity: actividad proporcional a la cantidad de SMSs recibidos en la interacción desde la nación identificada en la variable Country code.
  • SMS-out activity: idem para los mensajes enviados a la nación identificada en Country code.
  • Call-in activity: idem para las llamadas recibidas.
  • Call-out activity: idem para las llamadas realizadas.
  • Internet traffic activity: idem para el volumen de tráfico de Internet generado. Dicho tráfico se inicia desde la nación identificada en Country code.
  • Country code: el código telefónico de la nación desde donde se origina o a donde se dirige la interacción.

Las variables relativas a las interacciones SMS y de llamadas son proporcionales al número de éstas según una constante de proporcionalidad establecida por la empresa para garantizar la confidencialidad de las comunicaciones; la variable sobre el tráfico de internet se mide en Call Detail Records (CDRs). Para una descripción más detallada sobre esta forma de medir las variables, puede verse (Gianni et al. 2015).

El objetivo general del trabajo es realizar un informe estadístico de tipo descriptivo que permita comprender las características de las variables recogidas en la muestra. Como objetivos específicos, se establecen los siguientes:

  1. Construir una nueva hoja de datos que agregue la información de la hoja de datos original por celdas. Incluir en ella, para cada celda, la suma total del tráfico generado en la celda y el promedio del tráfico generado por cada interacción.
  2. Proporcionar distribuciones de frecuencias de la variable Country code para los SMSs entrantes, para los salientes, para las llamadas entrantes, para las salientes y para el tráfico de Internet. Interpretar los resultados en términos de los países que más y menos tráfico de mensajes SMS, llamadas e Internet generan.
  3. Proporcionar una distribución de frecuencias de la variable Square id, que permita visualizar la dinámica de generación de interacciones en la ciudad de Milán.
  4. Proporcionar una distribución de frecuencias del tipo de interacción, clasificando cada una de ellas como de SMS, llamada o Internet.
  5. En referencia a la hoja de datos que agrega la informacion por celdas, realizar un análisis descriptivo de las distribuciones de frecuencias de las siguientes variables:
    1. Tráfico total de SMSs recibidos y tráfico promedio de SMSs recibidos por interacción.
    2. Tráfico total de SMSs enviados y tráfico promedio de SMSs enviados por interacción.
    3. Tráfico total de llamadas recibidas y tráfico promedio de llamadas recibidas por interacción.
    4. Tráfico total de llamadas realizadas y tráfico promedio de llamadas realizadas por interacción.
    5. Tráfico total de de Internet y tráfico promedio de Internet por interacción.
  6. Para las variables indicadas en el punto anterior, realizar un análisis descriptivo comparativo que incluya medidas de posición, dispersión y forma, así como la identificación de celdas atípicas.
  7. Realizar una transformación logarítmica de las variables señaladas en el punto 5 y analizar estas nuevas variables como en los puntos 5 y 6. Comparar los análisis realizados en la escala original con los realizados en escala logarítmica.”

En honor a la verdad, de entre todos los proyectos planteados, éste era, sin duda, el que más dudas me había generado con respecto a su adecuación al perfil de un estudiante de primero, por su dificultad. Los hechos me han quitado la razón, de lo cual me alegro.

Hay que aclarar que la herramienta para todos los análisis estadísticos en la asignatura es R. Las prácticas están dedicadas a describir cómo utilizar en la práctica las técnicas y métodos que se describen en las clases de teoría mediante R.

La principal dificultad que entrañaba el trabajo, y que brillantemente resolvió Lina, era que la hoja de datos original tenía la interacción como unidad de observación, mientras que la mayoría de los objetivos que yo les planteaba se referían al nivel de la celda. Ello requirió agregar la información sobre el tráfico de las distintas interacciones en la misma celda, para cada una de las 10.000 celdas. Posteriormente, Adriana realizó el análisis descriptivo de los totales y de los promedios de los distintos tipos de tráfico y entre ambas redactaron un informe bastante correcto, cubriendo con ello todos los objetivos planteados.

Pero el motivo de que haya querido destacar en el blog este trabajo no es tanto la brillantez en la consecución de los objetivos planteados sino en el hecho de que en este caso y de forma particular, una de las autoras, Lina, ha ido mucho más allá en la obtención de resultados.

En primer lugar, cuando analizaron la procedencia del tráfico Lina me dijo “bueno, es lógico que haya más tráfico desde y hacia mi país, Rusia, que hacia Bélgica, en términos absolutos, porque tiene una mayor población”. Le indiqué que, ciertamente, un análisis en el que se normalizara el tráfico considerando la población sería más interesante, pero que había preferido no exigirles eso, que implicaba buscar la población de cada país. No hizo falta más: no sólo buscó esas poblaciones, sino que se marcó el detalle de aprender a usar paquetes de estadística espacial para representar eso en mapas tan ilustrativos como el siguiente:

A quien no esté familiarizado con lenguajes de programación como R, una representación como ésta le puede parecer trivial, pero le garantizo que no lo son en absoluto: requiere, por un lado, obtener los datos de las coordenadas de cada vértice que determina el contorno de cada país y, posteriormente, asociar el dato obtenido sobre el tráfico para dicho país.

Algo parecido sucedió cuando, analizando el tráfico generado en las 10.000 celdas en que se dividió la ciudad de Milán, Lina encontró que un número reducido de ellas concentraba una cantidad de tráfico en cuanto al número de interacciones muy superior al resto, hasta el punto de resultar lo que llamamos atípicas en términos estadísticos. Yo le dije: “imagino que serán celdas en el centro de la ciudad; es una pena que no podamos saber dónde está cada celda”. Ahora que conozco a Lina, entiendo que eso es para ella casi una provocación. He aquí el mapa que representa el tráfico en las 10.000 celdas:

En él cometió el error de marcar en rojo las celdas, lo que impide ver o apenas percibir que, en efecto, las celdas con colores más cerca del amarillo, las que tienen más interacciones, están en el centro. Pero precisamente por ello, hizo “zoom” sobre el mapa para buscarlas y darnos referencias sobre dónde están:

En particular, me encantó, por su sencillez, su análisis del porqué en la enorme cantidad de interacciones cercanas a la estación central: lo primero que solemos hacer al llegar a la estación es llamar o mandar un mensaje indicando “Ya he llegado”.

El trabajo destaca por otros aspectos que también iban más allá de los objetivos mínimos planteados, pero creo que lo mostrado ejemplifica lo suficiente lo que quería destacar: cómo una estudiante con motivación saca lo mejor de sí cuando se le presenta un proyecto donde puede dar de sí. Posteriormente, en el examen de la asignatura, ha sacado un 10, obviamente, pero esa nota no refleja sus capacidades reales. Es más, podría haber sacado un 7 o un 8, y tampoco lo habrían hecho, porque he comprendido que ningún examen podría discriminar como este proyecto lo que es capaz de hacer.

No quiero terminar sin dejar claro que, en relación con el resto de proyectos, no todos han sido tan brillantes. Hay de todo: este es muy bueno, después hay otros buenos, regulares, malos y horribles. De ello me gustaría hablar en otra ocasión.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.