Mostrando las entradas con la etiqueta Cloudera. Mostrar todas las entradas
Mostrando las entradas con la etiqueta Cloudera. Mostrar todas las entradas

viernes, 29 de abril de 2022

Dataflow Functions o NiFi como una función

Uno de los anuncios más interesantes en el mundo NiFi ha sido el de Cloudera teniendo NiFi como una función. Es decir, poder subir un flujo y que ese se ejecute bajo demanda, permitiéndole ejecutar flujos de NiFi en clústeres de Kubernetes (K8S).

Diagrama


Esta opción es más rentable, se escala de manera eficiente (hacia arriba y hacia abajo), y proporciona aislamiento de recursos. Esto último por lo general, puede ser un desafío en un clúster multitentant con "vecinos ruidosos" (entendido como aquellas cargas que se llevan todos los recursos cada vez que corren).

Funciones como servicio

Las Funciones como servicio (FaaS) es una categoría de servicios en la nube que ofrecen todos los principales proveedores nube (AWS Lambda, Azure Functions, Google Cloud Functions, etc.).

Estos servicios permiten a los clientes ejecutar microaplicaciones que se activan bajo eventos específicos sin la complejidad de construir y mantener la arquitectura asociada.

Por serverless se entiendeque los recursos se aprovisionan y mantienen unicamente cuando la aplicación procesa los datos. De esta manera, no se necesita ningún recurso en constante funcionamiento. Esta es la forma más rentable de ejecutar aplicaciones que solo necesitan ejecutarse después de algunos desencadenantes.

Las funciones como servicio también proporcionan un escalado prácticamente ilimitado y puede ser una muy buena opción para manejar casos de uso que se ejecutan bajo eventos. 

Dashboard

 

DataFlow Functions

DataFlow Functions habilita Apache NiFi como la primera interfaz de usuario sin código para crear y ejecutar funciones de manera muy eficiente. DataFlow Functions, con tecnología de Apache NiFi, es la opción más eficiente para ejecutar flujos controlados por eventos para una amplia gama de casos de uso comunes.

Algunos de los posibles casos de uso incluyen:

  • Procesamiento en tiempo real de archivos mientras estos aterrizan en un almacén de objetos
  • Integración de servicios de terceros y API para exponer microservicios
  • Procesar flujos de datos, para IoT, ciberseguridad, detección de fraude y más.
  • Integrar con backends móviles

 



viernes, 20 de marzo de 2020

¿Cómo habilitar que se muestren los productores de datos en Cloudera SMM?

SMM (Cloudera Streams Messaging Manager) es una solución para monitorear y operar una plataforma de Apache Kafka. Esta consola es parte del paquete de Cloudera para Streaming Processing.


Si uno instala Kafka sin modificar las opciones por defecto al producto y luego instala SMM, y lo comienza a usar va a notar rapidamente que SMM no tiene datos de quienes son los productores que están poniendo datos en los tópicos de Kafka.



Esto se debe a que se debe habiltar la colección de estadísticas de Kafka para los productores. Esto lo debemos habilitar desde Cloudera Manager, dentro de la configuración de Kafka.




sábado, 12 de octubre de 2019

¿Cómo hacer para que NiFi arranque sin correr los flujos en automático?

Para hacer que NiFi arranque con los flujos en modo parado, hay que cambiar una propiedad en el archivo de configuración nifi.properties. Esta propiedad es nifi.flowcontroller.autoResumeState=false. Por defecto, la instalación viene con esta propiedad habilitada. En Cloudera Manager esta propiedad no viene expuesta por defecto, al menos, hasta la versión 1.0.1.0 de Cloudera Flow Management. Para hacer el cambio, sencillamente, agregamos la propiedad y se replica en todos los nodos del clúster. Luego del cambio, hay que reiniciar el clúster.
En Cloudera Manager podemos agregar la propiedad en Advanced > Nifi Node Advanced Configuration Snippet (Safety Valve). Se agrega el Key/Value y luego grabamos la configuración.