Entradas

Mostrando entradas de 2019

Data Science and AI with Raspberry Pi 4’s ARM v8 64-bit (AArch64)

Imagen
In this post I’ll show how to use a Raspberri Pi 4 as a lightweight Data Science station. The new board, which was released in June 2019, is based on a Broadcom BCM2711 SoC whose architecture represents a considerable upgrade on that used by the SoCs in earlier Pi models. The new Pi 4 has a quad-core Cortex A72 64-bit CPU (ARM v8 64-bit) and the ARM cores can run up to 1.5Ghz. It also has a greatly improved GPU feaure set with much faster input/output, due to the addition of a PCIe link that connects the USB 2 and USB 3 ports, and a natively attached Gigabit Ethernet controller. There is also a new Memory Management Unit that allows the Pi 4 to access more memory than its antecesors; in fact, the Pi 4 unit I have has 4GB of main memory (LPDDR4-3200 SDRAM). Step 1: Getting a 64-bit OS for the Raspberry Pi 4 Current Raspbian is based on 32-bit armhfp kernel with specific optimizations to enable the use of the Pi’s processor’s floating-point hardware. There is no official...

Cómo ejecutar Notebooks de Jupyter en Spark

Imagen
Jupyter Notebook es una aplicación web de código abierto que permite crear y compartir documentos que contienen código vivo, ecuaciones, visualizaciones y texto narrativo. Debido a la mezcla de elementos de código y texto, los cuadernos Jupyter son ideales para el análisis de datos on-line y colaborativo. Los casos de uso incluyen: limpieza y transformación de datos, simulación numérica, modelado estadístico, visualización de datos, aprendizaje automático y mucho más. Jupyter Notebook tiene soporte para más de 40 lenguajes de programación (a través de lo que se denomina "núcleo"); de hecho, "Jupyter" es un acrónimo de Julia, Python y R. Estos tres lenguajes de programación fueron los primeros lenguajes que soportó Jupyter, pero hoy en día también soporta muchos otros lenguajes como Java, Scala, Go, Perl, C/C++. IPython es el kernel por defecto y, en su versión actual, soporta versiones de Python igual o superiores a la 3.5. Jupyter también aprov...

Cómo utilizar una versión distinta de Python en Spark

Imagen
Las últimas versiones de Spark 2 son capaces de ejecutar código de cualquier versión de Python igual o superior a 2.7 y 3.4 (el soporte para Python 2.6 fue eliminado a partir de Spark 2.2.0). Por defecto, en algunas situaciones, PySpark utiliza los ejecutables binarios de Python 2.7 tanto en el driver como en los workers o ejecutores, ya que ésta suele ser la versión predeterminada de Python que se puede encontrar en bastantes de las distribuciones de sistemas operativos Linux con soporte empresarial. Pero ¿y si queremos utilizar otra versión distinta de Python en Spark?.  Por suerte, en Spark es posible instalar y usar múltiples versiones de Python; es tan simple como desplegar la versión requerida de Python tanto en el servidor o nodo que ejecuta el programa driver como en el nodo master así como en todos nodos workers o executors y luego usar las variables de entorno de Spark para especificar qué versión usar. Para desplegar la versión requerida de Py...