Si bien se trata de uno de los “trending topics” en el mundo del marketing digital, cuando hablamos de “big data” parece haber opiniones dispares en lo que respecta a su definición y su importancia dentro del rol del analista web/digital.

Qué es big data?

Wikipedia nos dice:

“Big data es un término aplicado a conjuntos de datos que superan la capacidad del software habitual para ser capturados, gestionados y procesados en un tiempo razonable.”

IBM ofrece una definición más sencilla:

Big data abarca tres dimensiones: volumen, velocidad y variedad: Volumen:big data viene en solo tamaño, grande. Las empresas se encuentran inundadas de datos. Hablamos de terabytes e incluso petabytes de información.Velocidad: es de suma importancia que los grandes volumenes de datos se transmitan con velocidad a fin de maximizar su valor dentro de la empresa.Variedad: big data no se limita a datos estructurados, sino que tambien incluyen datos “sin estructura” (unstructured data) como archivos de audio, logs, clicks, etc..

Big data: aspectos tecnológicos

En su libro titulado “Big data Glossary“, Pete Warder nos da una perspectiva global de los retos tecnológicos asociados a big data:

  • Adquisición: en referencia a las fuentes de datos, internas, externas, extructuradas o no. La mayoría de las fuentes de datos de acceso pûblico más interesantes se encuentran pésimamente extructuradas, cargadas de ruido o de dificil acceso.

Tecnologías: Google RefineNeedlebaseScraperWikiBloomReach

  • Serialización: cuando tratamos de transformar datos en algo útil, nos encontramos con la necesidad de pasarlos a través de distintos sistemas y fuentes de almacemiento. Estas operaciones requieren una especie de serialización ya que es probable que los datos se encuentren en distintos lenguajes o API’s. La forma en que decidas recopilar, almacenar y visualizar estos datos tiene una influencia directa con el volumen de almacenamiento (costos) y la velocidad en que se transmiten los mismos.

Tecnologías: JSONBSONThriftAvroGoogle Protocol Buffers.

  • Almacenamiento: los sistemas de almacenamiento tradicionales no fueron diseñados para el procesamiento de datos a gran escala. Los grandes volumenes de información deben distribuirse entre múltiples servidores a fin de maximizar su rendimiento.

Tecnologías: Amazon S3Hadoop Distributed File System.

  • Servidores: “La nube” (ya parece un cliché) parece ser la respuesta. Los servidores virtuales permiten escalar tanto en recursos como en costos, lo que resulta esencial para poder procesar grandes volúmenes de datos con rapidez a través de distintos clusters.

Tecnologías: Amazon EC2Google App EngineAmazon Elastic BeanstalkHeroku

  • MapReduce: utilizado por Google para generar, procesar y ordenar las miles de millones de consultas generadas en su buscador, MapReduce permite paralelizar (mapping) algoritmos y distribuir procedimientos a través de múltiples clusters.

Lecturas recomendadas:

  1. http://en.wikipedia.org/wiki/MapReduce
  2. http://labs.google.com/papers/mapreduce.html
  3. http://www.mapreduce.org/benefits.php

Tecnologías: Hadoop & HivePigCascadingCascalogmrjob, Caffeine, S4MapRAcunu, Flume,Kafka, Azkaban, OozieGreenplum.

  • Procesamiento: desde sistemas de análisis estadístico hasta el mismo capital humano, el objetivo y gran reto es transformar un océanos de datos en información relevante y de valor para las organizaciones.

Tecnologías: RYahoo! PipesMechanical TurkSolr/LuceneElasticSearchDatameerBigsheets,Tinkerpop.

Startups: ContinuuityWibidataPlatfora.

  • Natural Language Processing (NLP): el objetivo es transformar en información valiosa los montones de contenidos textuales (sucios) generados por los usuarios .

Tecnologías: Natural Language ToolkitApache OpenNLPBoilerpipeOpenCalais.

Startup: SocialMetrix (Argentina)

  • Aprendizaje automático (machine learning): sistemas que permitan automatizar la toma de decisiones basadas en datos.

Tecnologías: WEKAMahoutscikits.learnSkyTree.

  • Visualización: representar la información en forma gráfica facilita la comunicación y entendimiento de los datos.

Tecnologías: GraphViz, ProcessingProtovisGoogle Fusion TablesTableau Software.

Oportunidad para los Analistas Digitales

Con el auge en la demanda de analistas, expertos en business intelligence y data scientist, no cabe la menor duda de que empaparse de los conceptos detrás del procesamiento, entendimiento y visualización de “Big Data” abre la puerta una serie de oportunidades profesionales que forman parte de la mismatransición del analista web hacia el analista digital.

Para tener un parámetro, sólo en Estados Unidos las proyecciones hablan de una demanda de entre 144.00 y 190.00 expertos en analytics y 1.2 millones de profesionales capacitados para tomar decisiones en base en grandes volúmenes de datos.

En adición, un estudio reciente realizado en la Universidad de Austin, Texas, reveló que las INC 1000 podrían tener una ganancia de $2100 millones de dólares anuales en la productividad de sus empleados con solo mejorar un 10% la usabilidad de sus datos.

Para cerrar, unas de mis frases favoritas que representa muy bien esta transición (oportunidad):

“Cuando soplan vientos de cambio, algunos levantan muros y otros construyen molinos”

Fuente y lectura recomendadísima de Big Data – What It Means For The Digital Analyst

Y algunas infaltables infografías