Aunque, es demasiado tarde para responder a su pregunta, pero solo puede ayudar a los demás ... en primer lugar, analizaremos el papel de Hadoop 1.demonios X y luego sus problemas ..
1. ¿Cuál es el papel de nodo de nombres secundario no es exactamente un nodo de copia de seguridad. lee un registro de edición y crea un archivo de imagen fs actualizado para el nodo de nombre periódicamente. Obtiene metadatos del nodo de nombre periódicamente y lo conserva y utiliza cuando el nodo de nombre falla. 2. cuál es la función del nodo de nombre es el administrador de todos los daemons. su master jvm procede que se ejecuta en el nodo maestro. interactúa con los nodos de datos.
3. ¿cuál es el papel de perseguidor de trabajo que acepta y distribuye el trabajo a la tarea rastreadores para el procesamiento en los nodos de datos. su llamado como mapa de procesos
4. ¿Cuál es el papel de los seguidores de tareas se ejecutará el programa previsto para el procesamiento de los datos existentes en el nodo de datos. ese proceso se llama como mapa.
limitaciones de 1.X hadoop
- punto único de fallo que es el nodo nombre para que podamos mantener hardware de alta calidad para el nodo de nombre. si el nodo nombre no todo va a ser
Soluciones inaccesibles solución a punto único de fallo es 2.X hadoop que proporciona una alta disponibilidad.
high availability with hadoop 2.X
ahora sus temas ....
¿Cómo podemos restaurar todos los datos de racimo si ocurre algo? si clúster falla podemos reiniciarlo ..
Si un nodo falla antes de la finalización de un trabajo, por lo que está pendiente en el trabajo de seguimiento de trabajo, es que el trabajo continúe o reiniciar desde el principio en el nodo libre? tenemos por defecto 3 réplicas de datos (me refiero a los bloques) para obtener una alta disponibilidad depende de administración que la cantidad de réplicas que ha puesto ... así que los seguidores de trabajo continuará con otra copia de los datos en otro nodo de datos
¿podemos usar el programa C en Mapreduce (por ejemplo, sortear burbujas en mapreduce)? básicamente mapreduce es un motor de ejecución que resolverá o procesará problemas de big data en (almacenamiento más procesamiento) maneras distribuidas. estamos haciendo el manejo de archivos y todas las demás operaciones básicas usando la programación mapreduce para que podamos usar cualquier idioma de donde podamos manejar archivos según los requisitos.
arquitectura Hadoop 1.X hadoop 1.x has 4 basic daemons
que acabo de dar una oportunidad. Espero que te ayude tanto como a otros.
Sugerencias/Mejoras son bienvenidas.
Mucha gente está llamando al namenode secundario el "nodo de punto de control" ahora, lo cual es algo bueno. –
Cualquier lenguaje de programación que pueda leer/escribir en STDIN/STDOUT se puede usar con Hadoop Streaming. Hay un par de [marcos] (http://goo.gl/aaVYN) que hacen que Hadoop Streaming sea más fácil. –