¿Es posible usar DistCp para copiar solo los archivos que coinciden con un determinado patrón? Por ejemplo. Para/foo solo quiero archivos * .log.Hadoop DistCp usando comodines?
Respuesta
DistCp es, de hecho, solo un trabajo regular de reducción de mapas: puede utilizar la misma sintaxis globbing que usaría para la entrada de un trabajo normal de reducción de mapas. En general, puede usar foo/*.log
y eso debería ser suficiente. Puede experimentar con la instrucción hadoop fs -ls
aquí - si el globbing funciona con fs -ls
, entonces si funcionará con DistCp (bueno, casi, pero las diferencias son bastante sutiles de mencionar).
Me doy cuenta de que este es un hilo viejo. Pero yo también estaba interesado en la respuesta a esta pregunta, y dk89 también me preguntó nuevamente en 2013. Así que aquí vamos:
distcp no admite comodines. Lo más cerca que se puede hacer es:
encontrar los archivos que desea copiar (fuentes), el filtro y luego usando grep, formato para hdfs usando awk, y enviar el resultado a un "insumo-archivos" lista:
hadoop dfs -lsr hdfs://localhost:9000/path/to/source/dir/
| grep -e webapp.log.3. | awk '{print "hdfs\://localhost\:9000/" $8'} > input-files.txt
Ponga la lista de entrada-archivos en hdfs
hadoop dfs -put input-files.txt .
Crear el directorio de destino
hadoop dfs -mkdir hdfs://localhost:9000/path/to/target/
Run distcp utilizando la lista de archivos de entrada y especificando el directorio hdfs de destino:
hadoop distcp -i -f input-files.txt hdfs://localhost:9000/path/to/target/
- 1. usando comodines en ServiceRoute
- 2. Encontrar claves usando comodines
- 3. Indexeddb: búsqueda usando comodines
- 4. Usando Spring @RequestMapping con comodines
- 5. Unir similitud usando Hadoop
- 6. Prueba de Hadoop usando MRUnit
- 7. Usando comodines LIKE dentro de pg_prepare
- 8. PHP: Cómo buscar un archivo usando comodines
- 9. Copiar varios archivos usando comodines/recursivamente usando Wix
- 10. Encontrar componentes conectados usando Hadoop/MapReduce
- 11. Recuento de palabras ordenadas usando Hadoop MapReduce
- 12. Ordenando datos grandes usando MapReduce/Hadoop
- 13. comodines en PreparedStatements Java
- 14. cambio de nombre de los archivos en cmd usando comodines
- 15. Usando nmake con comodines en el archivo MAKE
- 16. Optimización de búsqueda de MySQL usando "como" comodines y
- 17. usando comodines en filtros/consultas de búsqueda LDAP
- 18. ¿Cómo eliminar múltiples archivos en C usando comodines?
- 19. Diferencia entre `hadoop dfs` y` hadoop fs`
- 20. "-format hadoop NameNode" devuelve un java.net.UnknownHostException hadoop
- 21. Comodines contra métodos genéricos
- 22. Comodines en Python?
- 23. Comodines ilimitados en Java
- 24. búsqueda samaccountname con comodines
- 25. Java: comodines de nuevo
- 26. Java Generics (comodines)
- 27. ¿Moviendo archivos en Hadoop usando la API de Java?
- 28. Depuración de aplicaciones hadoop
- 29. Búsqueda de comodines en Solr
- 30. Raspe con comodines y php
Parece que no funciona con s3n: // paths. Hadoop -ls funciona con s3n: // comodines, aunque ... raro. –
Esta pregunta es de 2011, ¿hubo algún cambio para habilitar distcp con comodines? – Dimitry
La versión 2 admite comodines, documento aquí: https://hadoop.apache.org/docs/r1.2.1/distcp2.html –