Big Data se usa actualmente para nombrar la acumulación y análisis de grandes cantidades de datos. También conocido como “datos a gran escala”, el término Big Data comenzó a surgir en los años 90 cuando John Mashey publicó un artículo titulado Big Data and the Next Wave of Infrastress en el cual, Mashey hacía referencia a cómo iba a cambiar la infraestructura física y humana debido a la gran cantidad de datos que se veía venir, y que era imposible de manejar con los instrumentos de gestión de uso de esa época.
La idea detrás del Big Data es que gracias al avance de la tecnología, existe un nuevo enfoque de entendimiento y toma de decisiones, los cuales son utilizados para describir enormes cantidades de datos que tomaría demasiado tiempo y sería demasiado caro cargarlos en una base “normal” o “relacional” para su análisis. En estas bases gigantes y complicadas, entra el Big Data en todo su esplendor y agrupa toda aquella información que no puede ser procesada o analizada utilizando procesos o herramientas tradicionales.
Big Data no se refiere a una cantidad específica y utiliza el lenguaje de petabytes y exabytes de datos. En términos de bytes estas serían las medidas:
Gigabyte = 109 = 1,000,000,000
Terabyte = 1012 = 1,000,000,000,000
Petabyte = 1015 = 1,000,000,000,000,000
Exabyte = 1018 = 1,000,000,000,000,000,000
Más allá del volumen de información, los datos pueden ser recopilados de varias fuentes y aplicados a varias disciplinas. Así, se pueden obtener de dispositivos móviles, sistemas GPS; sensores, equipos industriales, automóviles, etc; los cuales pueden medir la temperatura, humedad, cambios químicos, ubicación, posición, etc. Analizar estos datos requiere que la velocidad de respuesta sea lo suficientemente rápida para obtener información en el momento preciso, siendo el uso del Big Data más que relevante en estos casos. Gracias al análisis de esta minería de datos, podemos descubrir patrones de comportamiento y lograr predicciones, basada en la información que nos dan estos grandes volúmenes de conjuntos de datos.
Existe mucha información sobre análisis, presentación, tipos de datos y fuente de estos. La información puede ser generada por las personas cuando envían correos electrónicos, mensajes en whatsapp o publicaciones en redes sociales. También existen las transacciones de dinero o cualquier actividad financiera que realicemos, datos generados por internet, datos generados por máquinas a otras máquinas (M2M) al enviar información a través de sensores sobre temperatura, luz o sonido entre otros. Finalmente se encuentran los biométricos, los cuales provienen de los datos de seguridad, defensa y servicios de inteligencia. Esta información es constante y enorme por lo que el Big Data interviene para el análisis respectivo.
Aquí les dejo un esquema que realizó IBM para clasificar de donde provienen los tipos de datos del Big Data:
El análisis de estos datos es muy útil para diversas industrias, desde el punto de vista empresarial cuando se analizan las redes sociales de estas y las grandes bases generadas por las ventas cruzadas de la misma compañía; o la información que generan sus propios trabajadores. En deporte cuando se analizan las estadísticas de los partidos de fútbol, las cuales son relevantes a la hora de toma de decisiones para los entrenadores. También se puede aplicar en medicina para investigar el comportamiento de una pandemia y ser capaz de predecir la actividad de la enfermedad en cuestión. O en el caso de seguridad para plantear sistemas de defensa a diversos tipos de ataques desde informáticos hasta de guerra.
Como ven, el Big Data es impresionante y ayuda a la gente (especialmente a los investigadores) a descubrir cosas que les podrían haber tomado años en descubrir por si mismos sin el uso de estas herramientas, debido a la velocidad del análisis. Además con el auge del Internet de las cosas, estoy segura, de que el Big Data será aún más importante en los próximos años.
C.