¿Alguien puede explicar cómo funciona MapReduce con Cassandra .6? He leído el ejemplo del conteo de palabras, pero no entiendo muy bien lo que está pasando en el extremo de Cassandra versus el final del "cliente".Cómo usar el mapa de Cassandra ¿Reducir con o sin Cerdo?
https://svn.apache.org/repos/asf/cassandra/trunk/contrib/word_count/
Por ejemplo, digamos que estoy usando Python y Pycassa, ¿cómo voy a cargar en un nuevo mapa reducir la función, y luego llamarlo? ¿Mi mapa reduce la función tiene que ser java que está instalado en el servidor de cassandra? Si es así, ¿cómo lo llamo desde Pycassa?
También hay mención de Pig haciendo todo esto más fácil, pero soy un novato Hadoop completo, por lo que realmente no ayudó.
Su respuesta puede utilizar Thrift o lo que sea, acabo de mencionar Pycassa para denotar el lado del cliente. Solo trato de entender la diferencia entre lo que se ejecuta en el clúster de Cassandra y el servidor real que realiza las solicitudes.
Entonces, ¿los nodos de Cassandra no están haciendo el mapa de reducción, donde sea que se esté ejecutando su Java? – UltimateBrent
Sí, los jobtrackers de Hadoop ejecutan los trabajos m/r. – jbellis
entonces, ¿no es el objetivo del mapa reducir que se distribuya? Si no se ejecuta en los nodos de Cassandra, ¿cuál es el punto? – UltimateBrent