De Silicon.ES: Hadoop ha muerto, larga vida a Hadoop

Hadoop ha muerto, larga vida a Hadoop

Firma invitada, 21 de junio de 2016, 2:35 pm

Fotos-026-1-684x513

Es Iván Rodríguez, Account Executive en Cloudera, defiende Hadoop ante aquellos que afirman que “está muerto”.

Réplica al artículo Hadoop está muerto (se reproducirá este artículo del pasado 10 de mayo de 2016 en el siguiente post).

A menudo se ha mal interpretado las citas de Mark Twain. Una cita atribuida a él es: “Miles de hombres son necesarios para inventar un telégrafo, o un motor de vapor, o un fonógrafo, o una fotografía, o un teléfono o cualquier cosa importante; pero es el último hombre el que recibe el crédito y nos olvidamos del resto. Él añadió su ultimo toque, eso es todo lo que hizo”.

Mucho de esto podría aplicarse al debate sobre Apache Spark y Apache Hadoop. En primer lugar, Spark es el heredero natural del venerable framework MapReduce para procesar grandes cantidades de Big Data, pero MapReduce no está muerto. Para aquellos que no estén familiarizados con MapReduce, es la forma original de división de computación y su aplicación en una gran cantidad de datos. Aquí es donde se aplica la segunda cita de Twain; MapReduce es una forma muy potente pero rígida de procesamiento de datos por lotes, así que ¿qué podemos hacer para añadir nuestro granito de arena para llevar Hadoop al siguiente nivel?

Scale

Incorpora YARN, Yet Another Resource Negotiator, una parte fundamental de Hadoop que permite ejecutar tanto Spark como MapReduce. De hecho, Cloudera adoptó Spark en febrero de 2014 y Spark es simplemente otro framework para la division de computación de los datos. Cloudera ha defendido desde hace mucho tiempo lo que llamamos One Platform, para ayudar al ecosistema a adoptar Spark como reemplazo de MapReduce. Entonces, ¿por qué querría alguien utilizer ambos? Spark supera drásticamente a MapReduce en latencia y rendimiento, pero a día de hoy todavía no puede competir con MapReduce en scale.

Nuestros grandes clientes se ven abrumados con petabytes de datos en miles de nodos con MR jobs. Si Spark va a reemplazar verdaderamente a MapReduce para cargas de trabajo de carácter general, tieen que crecer mucho en el ecosistema Hadoop. Sí, Spark es rápido porque utiliza tanto memoria como disco, donde puede almacenar datos; sí, es fantástico con streaming de datos; sí, tiene API ricas, expresivas e idénticas para Scala, Java y Python y puede reducer el volume del código entre la mitad y cinco veces, comparado con Mapreduce; pero ¿puede escalar y ser seguro?

Seguridad

Si tienes un equipo pequeño de científicos trabajando en datos a los que todos deben tener acceso, pero que no van más allá de lo que puede almacenar una memoria, entonces Spark puede funcionar bien. Pero ¿qué pasa si tienes distintos roles y niveles de acceso, perímetro de seguridad, enmarcaramiento de datos, etc.? No debe olvidarse la necesidad de tener un entorno de producción con una alta disponibilidad en toda la empresa.

Complejidad

Una de las razones por las que Hadoop ha tenido tanto éxito es la forma en la que ha ayudado a crear un data hub empresarial (data lake). Spark puede conectar con el corazón del almacenamiento en Hadoop, Hadoop Distributed File System (HDFS), y el almacenamiento S3 en Amazon Cloud; pero ¿cómo gestiona todas las procedencias, las  reglas de gobernanza y los linajes complejos de los datos? ¿Y cómo se pueden reunir todos estos datos de forma eficiente sin el framework de gestión de Hadoop? A menudo, entre todo el entusiasmo alrededor de Spark, se pierde la noción de lo que supone el reto práctico que supone desplegar y operar Spark en producción. Los sistemas distribuidos a gran escala son difíciles de controlar, por lo que es crítico disponer de una Buena herramienta de gestión.

Así que Hadoop está muerto, ¿no?

Eso sería divertido, pero no. El beneficio de Hadoop es precisamente que es flexible, porque es compatible con diferentes frameworks. Spark se une a esa colección como parte de One Platform Initiative. Está integrado en la capa subyacente de almacenamiento, de forma que puede compartir datos de manera sencilla con el resto de frameworks. Seguridad, gobernanza y gestión son las operaciones que pueden realizarse a través de todos ellos. Spark es ciertamente una incorporación potente y flexible, pero está lejos de amenazar Hadoop, realmente convierte el ecosistema Hadoop mucho mejor y más completo.

Acerca de Hector Suarez Planas

Es Licenciado en Ciencia de la Computación (3 de julio de 2002). Ha sido Administrador de Red en varias organizaciones, Programador y Analista de Sistemas. Actualmente se desempeña como Administrador de Red del Telecentro Tele Turquino de Santiago de Cuba. Tiene experiencia con sistemas Windows y GNU/Linux, Infraestructura de Redes (Cisco, AlliedTelesis, Netgear y HP ProCurve, Vyatta/VyOS), Servidores tanto físicos como virtuales (plataformas VMWare, Proxmox VE y Xen), Sistemas de Seguridad Informática (Snort/Suricata IDS, appliances AlienVault OSSIM), programador (Delphi, C++ Builder, Perl [poco], Python [algo]), entre otras cosas. Actualmente estoy incursionando en todo lo que tiene relación con Cloud Computing (OpenStack) y Centros de Datos. :-)
Esta entrada fue publicada en Almacenamiento, Bases de Datos, Big Data, Centro de Datos, Cloud Computing, Computación en la Nube. Guarda el enlace permanente.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *