Big Data & Fast Storage

La release 3.0 de Apache Hadoop que se ha hecho GA en Diciembre de 2017 trae funcionalidades muy interesantes. El resumen de las mismas es : Soporte para Erasure Coding (Reed-Solomon y XOR) lo que mejora sustancialmente el overhead de capacidad del factor de replicación en HDFS (un 300% con un factor de replicación de 3, que es lo que se suele utilizar por defecto, frente a un 150% del Reed-Solomon), aunque se sacrifica el rendimiento en situación de fallo de un nodo debido a las lecturas remotas que hay que hacer para reconstruir y el coste de CPU de la recomputación. Una buena opción para aquellos datos de mi DataLake mas “fríos” o que se accedan de manera menos frecuente. Optimizaciones en MapReduce que mejoran sustancialmente el rendimiento en jobs con mucha componente de operativa de shuffle (parece ser que Hadoop 3 puede ser hasta un 30% más rápido gracias a la implementación nativa en Java del recolector de salidas del map). Si ya la release 2 incorporaba HA transpar...

Buscar este blog

Big Data & Fast Storage

Entradas

Apache Hadoop 3