¿Hay información aquí? No he probado Pentaho pero y estoy planeando verificarlo. Soy un experimentado consultor de MS BI, que lo usa desde 1998. SSIS es muy rápido y muy poderoso, pero las críticas son acertadas. Encontré los siguientes problemas con SSIS:
(1) Es difícil de depurar, se obtienen errores crípticos que pueden no dar ninguna pista sobre qué y dónde está realmente el problema.
(2) Por un comentario anterior, ¡es el entorno de desarrollo más chiflado de todos los tiempos! No tengo idea de lo que están pensando.
(a) Cree una tabla con 100 o más columnas y coloque una fusión en ella. Ahora regrese y trate de hacer una actualización de la combinación de combinación (como pasar una nueva columna). Puede tardar varios minutos, incluso en la máquina más rápida después de hacer clic en Aceptar en la combinación de combinación para guardar el cambio. Tengo un gran flujo de datos con muchos registros amplios y muchas combinaciones de fusión. Agregar una columna al flujo de datos lleva más de medio día. Actualizo una combinación de fusión y luego tengo que hacer otra cosa y volver a comprobar 5-10 minutos más tarde para ver si se ha completado. La respuesta de Microsoft a esto es dividir su paquete en múltiples paquetes, colocar los datos en una tabla o binario entre ellos. Bueno, si va al disco entre todos los pasos, ¡puede estar bien hacer todo en SQL! Uno de los propósitos principales de una herramienta de ETL es guardar todo esto en la memoria y evitar la E/S del disco.
(b) se bloquea El diseñador absolutas veces, perdiendo todo su trabajo desde el pasado guardar (I hacer ctrl-S en mi sueño ahora a causa de esto)
(c) que tenía que averiguar un corte y generar XML de paquete SSIS en Excel para amplios registros. Tengo un cliente de atención médica donde más de 600 registros de columna son comunes. ¡Si intenta definir un formato de archivo con 600 columnas en SSIS, debe escribir cada columna en una a la vez! Incluso el acceso a MS le permite cortar y pegar un diseño de una hoja de cálculo en un diseño de archivo, pero no en SSIS. Así que tuve que generar el XML del diseño y pegar el código XML en el lugar correcto del paquete. Una manera fea de hacerlo, pero ahorró días enteros de trabajo y muchos errores.
(d) De forma similar a (c), si necesita recortar todas sus columnas y tiene que decir más de 600, ¿adivina qué? En el componente de la columna derivada, debe escribir trim (columna1) ¡más de 600 veces! Ahora hago todas las transformaciones simples como esta en la consulta SQL para obtener los datos, ya que pueden generarse fácilmente desde una hoja de Excel.
(e) Hay muchas cosas peculiares, componentes que se vuelven invisibles, a veces se abre el paquete y todos los componentes se reorganizan completamente incoherentemente.
(f) La característica de FTP, posiblemente una de las cosas más comunes que necesita en ETL, es débil y solo es compatible con FTP simple y plano que nadie usa. Todo el mundo en estos días usa SFTP, FTPS, https, etc. Así que casi todas las implementaciones requieren el uso de una aplicación de transferencia de archivos impulsada por la línea de recomendación de terceros que el paquete debe llamar.
(g) Tratando de CYA, similar a la seguridad ridícula en Windows Vista, Microsoft ha hecho extremadamente difícil promover un paquete de SSIS de un entorno a otro. De manera predeterminada, esta cosa estúpida de "cifrar información confidencial con la clave de usuario" de seguridad, lo que significa que debe ejecutarse bajo la misma cuenta en el entorno que lo está moviendo como el entorno que desarrolló, algo que rara vez es el caso. Hay mejores formas de configurar, pero siempre intenta volver a esta protección de seguridad completamente inútil.
(h) Por último, la mayoría de estos problemas se encuentran ahora en la tercera versión, lo que indica claramente que Microsoft no tiene previsto arreglarlos.
(i) La depuración no es tan fácil como en otros idiomas.
SSIS todavía tiene una gran cantidad de beneficios, pero no sin algunos dolores.
Excelente y bien escrito, gracias! – Tomas
Stradas, está brindando gran información a toda la comunidad. Bien escrito, sus advertencias sobre las cosas que podrían ser inexactas debido a sus propias preferencias y la organización del contenido proporcionan un gran punto de referencia. Gracias por tomarse el tiempo para esto. – vmarquez
NagaMensh, ¿puedes ser más específico? La curva de aprendizaje es un poco larga en comparación con DTS, pero considero que SSIS es una herramienta bien pensada. Informatica es la comparación más cercana. Hay otras buenas herramientas que también son fáciles de usar, pero la mayoría de ellas no son tan robustas. – Stradas