Importantes novedades en Hadoop 3.1

La versión 3.1 fue liberada el 30 de Marzo del 2018 pero ha sido la release 3.1.1 de agosto de 2018 la que ha traído algo mas de estabilidad a este importante salto generacional.

La versión 3.1 de Apache Hadoop trae importantes mejoras:
  • YARN Service Framework. El ApplicationMaster es ahora un orquestador de contenedores siendo el responsable de todas las gestiones del ciclo de vida del servicio, y el NodeManager ejecuta, además del runtime de contenedor de YARN, el runtime de contenedor de Docker. Es decir, esta versión soporta desplegar servicios y aplicaciones del ecosistema Hadoop como Spark, HBase o TensorFlow bajo contenedores de Docker alocados y distribuidos a través de los nodos del clúster. Además, en la versión 3.1, YARN posee funcionalidades avanzadas de planificación para los contenedores como afinidad y anti-afinidad para cada aplicación, re-dimensionamiento de contenedores y etiquetas de nodos. En esta versión se ha incluido también una nueva UI de servicios y el Timeline Service es nativo y basado en HBase. 
  • Mejoras en el protocolo S3/S3A (soporte para SSE o Server-Side Encryption y gestión de errores mejorada) y mejoras en el S3Guard (funcionalidad del cliente S3A que le permite obtener una vista consistente de todo el almacén de objetos. Hasta ahora S3 en AWS ofrecía “consistencia eventual” lo que no permitía una adopción masiva del S3 en aplicaciones del ecosistema Hadoop (como Hive, HBase y otras, debido a la falta de consistencia).
  • Permitir que un sistema de almacenamiento externo proporcione réplicas de bloques HDFS. Esta funcionalidad permite mapear y direccionar desde HDFS datos almacenados fuera de éste (en un almacenamiento externo). Este nuevo concepto de almacenamiento heterogéneo introduce un nuevo tipo de almacenamiento, el PROVIDED, que permite montar almacenes de datos remotos bajo HDFS.
  • Un gran avance para integrar cargas de trabajo de Deep Learning y Machine Learning, ya que la versión 3.1 permite la planificación de recursos adicionales, como recursos de discos con distinto SLA (cold/fast tier en SSD, cold/archive tier en HDD), GPUs y FPGAs. Ahora los ficheros de imágenes y videos pueden almacenarse en el DataLake de Hadoop de manera más eficiente y efectiva en coste, pero altamente disponible (utilizando un tier con Erasure-Coding) o bien utilizar un tier de alto rendimiento y baja latencia basado en almacenamiento flash NVMe. Y en lugar de proporcionar uno o varios nodos con GPU a cada uno de los científicos de datos, con la versión 3.1 las tarjetas GPU se agrupan y se gestionan a nivel del clúster de manera que YARN permite planificar y aislar las GPUs y las FPGAs de cada servidor para que puedan compartirse entre varios usuarios como recursos. Esta funcionalidad permite llevar los frameworks de Deep Learning al DataLake sin necesidad de tener un clúster de computación por GPU separado. Además, el uso de etiquetas de afinidad y anti-afinidad en YARN permite controlar cómo se despliegan los micro-servicios en los clústeres - algunos de los componentes pueden ser configurados para tener anti-afinidad de manera que siempre se desplieguen en nodos físicos separados.

Comentarios

Entradas populares de este blog

Apache Spark 2.4: hacia la analítica de datos unificada

¿Qué es NVMe y porqué es clave?