Big Data & Fast Storage

Entradas

Mostrando entradas de 2018

Apache Spark 2.4: hacia la analítica de datos unificada

noviembre 18, 2018

Una de las complejidades en la aplicación de la Inteligencia Artificial a escala está en la disparidad de sistemas y tecnologías que se han de emplear e integrar, además de las divisiones organizativas que suelen aparecer entre los ingenieros de sistemas y los científicos de datos. Para eliminar obstáculos es necesario unificar los datos y la IA en lo que se conoce como Unified Analytics o analítica de datos unificada , uniendo de manera simplificada y nativa las tecnologías de Big Data para el procesamiento de datos con las tecnologías de inteligencia artificial. De esta manera es posible construir de manera más eficiente (tanto a nivel tecnológico como económico) potentes pipelines de datos que extraigan la información de distintas fuentes y que permitan la preparación de conjuntos de datos etiquetados para la generación de modelos de predicción o clasificación; y además poderlo hacer de manera iterativa re-alimentando o re-entrenando los modelos sobre conjuntos de datos ...

¿Qué es la Storage Class Memory o SCM?

noviembre 03, 2018

La tecnología de almacenamiento basada en estado sólido (almacenamiento flash) ha ayudado a mitigar muchos de los cuellos de botella presentes en los sistemas como consecuencia de las limitaciones de la capa de almacenamiento, que sigue siendo el eslabón más lento de la cadena de procesamiento de datos. Por otro lado, la memoria (almacenamiento no persistente) sigue superando significativamente a los componentes flash más rápidos de la actualidad, pero el problema es que las tecnologías de memoria principal (DRAM, etc.) solo pueden escalar hasta un cierto punto (hasta los pocos TB en los servidores más potentes) y además tienen un coste bastante elevado, prohibitivo en grandes capacidades. En paralelo, las nuevas necesidades en lo relativo al procesamiento analítico de los datos que están apareciendo en esta cuarta revolución industrial en la que nos encontramos han hecho que se incremente exponencialmente el uso de entornos de analíticas de datos de última generación (bases de datos...

Instalando CentOS 7 en RaspberryPI

septiembre 14, 2018

He aquí una pequeña guía para instalar CentOS 7.5 en una RaspberryPI, muy útil si quieres dedicar alguna de tus raspberries para algún experimento software mas allá de lo que Raspbian pueda ofrecer. La mayor parte de la información está obtenida de la página web del SpecialInterestGroup de CentOS sobre ARM . El procedimiento es válido para los modelos B y B+ de la Raspberry PI 3. Paso 1: Generar la SD-card de arranque Descargamos la imagen RAW ( armv7hl-RaspberryPI-Minimal-1804-sda ) de http://isoredirect.centos.org/altarc h/7/isos/armhfp/ y la descomprimimos con la utilidad TAR en linux o con la utilidad 7zip en Windows. Para copiar la imagen a la SD-card en linux utilizamos sudo dd if=imagen_raw.img of=/dev/<device_sd-card> En Windows podemos utilizar la utilidad Etcher o el Universal USB Installer . Paso 2: Personalizar la instalación En este paso vamos a personalizar la instalación con el objetivo de poder generar una nueva im...

Importantes novedades en Hadoop 3.1

agosto 26, 2018

La versión 3.1 fue liberada el 30 de Marzo del 2018 pero ha sido la release 3.1.1 de agosto de 2018 la que ha traído algo mas de estabilidad a este importante salto generacional. La versión 3.1 de Apache Hadoop trae importantes mejoras: YARN Service Framework . El ApplicationMaster es ahora un orquestador de contenedores siendo el responsable de todas las gestiones del ciclo de vida del servicio, y el NodeManager ejecuta, además del runtime de contenedor de YARN, el runtime de contenedor de Docker. Es decir, esta versión soporta desplegar servicios y aplicaciones del ecosistema Hadoop como Spark, HBase o TensorFlow bajo contenedores de Docker alocados y distribuidos a través de los nodos del clúster. Además, en la versión 3.1, YARN posee funcionalidades avanzadas de planificación para los contenedores como afinidad y anti-afinidad para cada aplicación, re-dimensionamiento de contenedores y etiquetas de nodos. En esta versión se ha incluido también una nueva UI de servicios y el ...