Estoy tratando de resolver un problema con la teoría de implementar el PageRank con MapReduce.Implementando PageRank usando MapReduce
Tengo el siguiente escenario simple con tres nodos: AB C.
la matriz de adyacencia es aquí:
A { B, C }
B { A }
El PageRank para B, por ejemplo, es igual a:
(1-d)/N + d (PR(A)/C(A))
N = number of incoming links to B
PR(A) = PageRank of incoming link A
C(A) = number of outgoing links from page A
Estoy bien con todos los esquemas y cómo funcionarían el asignador y el reductor, pero no entiendo cómo al momento del cálculo con el reductor, se conocería C (A). ¿Cómo el reductor, al calcular el PageRank de B al agregar los enlaces entrantes a B sabrá la cantidad de enlaces salientes de cada página? ¿Esto requiere una búsqueda en alguna fuente de datos externa?
Posiblemente podría obtener una mejor respuesta en: http://cstheory.stackexchange.com/ – Orbling