33

Tengo un montón de servidores Intel Linux por ahí (cientos) y quiero usarlos para un sistema de archivos distribuidos en un entorno de alojamiento web y uso compartido de archivos. Esto no es para una aplicación HPC, por lo que un alto rendimiento no es crítico. El requisito principal es la alta disponibilidad, si un servidor se desconecta, los datos almacenados en sus discos duros todavía están disponibles desde otros nodos. Debe ejecutar TCP/IP y proporcionar permisos de archivo POSIX estándar.Mejor sistema de archivos distribuidos para la granja de almacenamiento linux

He mirado en lo siguiente:

  • Lustre (http://wiki.lustre.org/index.php?title=Main_Page): Viene muy cerca, pero no proporciona redundancia de datos en un nodo. Debe crear los datos HA utilizando RAID o DRBD. Compatible con Sun y Open Source, por lo que debería estar disponible por un tiempo

  • gfarm (http://datafarm.apgrid.org/): Parece que proporciona la redundancia pero a costa de la complejidad y la facilidad de mantenimiento. No tan bien soportado como Lustre.

¿Alguien tiene alguna experiencia con estos o cualquier otro sistema que pueda funcionar?

+0

¿Desea compartir con nosotros su decisión final al respecto? – Stony

Respuesta

21

comprobación también GlusterFS

Editar (Ago-2012):Ceph finalmente está listo. Recientemente, los autores formaron el Inktank, una compañía independiente para venderle soporte comercial. Según algunas presentaciones, el sistema de archivos montable POSIX-obediente es la capa más alta y no realmente probado todavía, pero las capas más bajas se están utilizando en producción desde hace algún tiempo.

La parte interesante es la capa RADOS, que presenta un almacenamiento basado en objetos con acceso "nativo" a través de la biblioteca librados (disponible para varios idiomas) y una RESP API compatible con Amazon S3. Cualquiera de los dos lo hace más que adecuado para agregar almacenamiento masivo a un servicio web.

This video es una buena descripción de la filosofía, arquitectura, capacidades y estado actual.

+1

Me decepcionó el rendimiento/confiabilidad de Glusterfs bajo cargas pesadas de IO. –

+0

¿Puedes compartir qué significa "cargas pesadas de IO"? cuantos IOPS? –

+0

¿Qué sucede si un nodo se cae? Tengo curiosidad acerca de una configuración tipo "fanfarroneo", donde el clúster puede contribuir con datos (para redundancia, o para almacenamiento adicional, a elección del servidor) y desconectarse siempre que quiera sin destruir el "conjunto de ataques". – isaaclw

0

Ceph parece ser una nueva e prometedora entrada a la arena. Sin embargo, el sitio afirma que todavía no está listo para su uso en producción.

+0

La experiencia confirma tal afirmación. – Onlyjob

1

Lustre ha estado trabajando para nosotros. No es perfecto, pero es lo único que hemos probado que no se ha roto con la carga. Todavía recibimos LBUGS de vez en cuando y tratar con sistemas de archivos de 100 TB + nunca es fácil, pero el sistema Lustre ha funcionado e incrementado tanto el rendimiento como la disponibilidad.

4

Gluster es conseguir un buen montón de prensa en la actualidad

http://www.gluster.org/

+4

¿No es esto un duplicado? – dpavlin

+3

@dpavlin - ¿Importa si es un duplicado? Sí, el respondedor no debería haberlo agregado, ya que ya estaba allí, pero la votación negativa solo porque es un duplicado parece incorrecto – warren

+0

Glusterfs es gordo, come mucha memoria durante una alta carga de IO y es muy lento. –

0

He leído mucho acerca de los sistemas de archivos distribuidos y creo FhGFS es la mejor.

http://www.fhgfs.com/

Se vale la pena intentarlo.Ver más sobre él en:

http://www.fhgfs.com/wiki/

+2

FhGFS es un software propietario sin fuentes. No pierdas el tiempo de todos, por favor. -1. – Onlyjob

2

Si no te obligue a usarlo, también recomendaría encarecidamente utilizar otra cosa que Lustre. Por lo que escuché de otros y lo que también me causó pesadillas durante bastante tiempo es el hecho de que Lustre se derrumba con bastante facilidad en todo tipo de situaciones. Y si solo un cliente en el sistema se descompone, se pone en un modo do_nothing_loop interminable mientras mantiene un bloqueo global importante, por lo que la próxima vez que otro cliente intente acceder a la misma información, también se bloqueará. Por lo tanto, que a menudo terminan de reiniciar todo el conjunto, que supongo que es algo que se intenta evitar con normalidad;)

sistemas de archivos paralelos modernos como FhGFS (http://www.fhgfs.com) son mucho más robustos aquí y también te permiten hacer cosas agradables como ejecutar componentes de servidor y cliente en las mismas máquinas (aunque las características de HA incorporadas todavía están en desarrollo, como alguien de su equipo me dijo, pero su implementación va a ser bastante impresionante de lo que yo he oído).

+0

fhghfs, de las personas que nos dieron la patente mp3? –

4

En mi opinión, el mejor sistema de archivos para Linux es MooseFS, es bastante nuevo, pero tuve la oportunidad de compararlo con Ceph y Lustre, y estoy seguro de que MooseFS es el mejor.

+1

De acuerdo con la corrección: MooseFS ahora es propietario por lo que su sucesor [LizardFS] (http://lizardfs.org) es el mejor en mi humilde opinión. – Onlyjob

+0

@Onlyjob - MooseFS ya no es propietario – warren

+0

Técnicamente hablando. Pero no tiene un VCS público ni un rastreador de errores. ¿Qué sucede si el autor elimina el archivo fuente y lo proporciona a petición * nuevamente *? LizardFS ya tiene una comunidad detrás y (a diferencia de MooseFS) LizardFS estará pronto en Debian. LizardFS no está restringido (es decir, no hay "edición de comunidad", etc.). – Onlyjob

Cuestiones relacionadas