Estoy trabajando en el Histograma de Gradiente Orientado (HOG) y estoy tratando de implementar la interpolación trilineal de histogramas como se describe en la tesis de doctorado de Dalal. Y explica el proceso de interpolación como se cita a continuación:HOG Interpolación Trilineal de Histogram Bins
EDITAR: En general, las características HOG se extraen de una ventana de 64x128 píxeles que se divide en bloques. Cada bloque consta de 2x2 celdas y una celda tiene un área de 8x8 píxeles. La extracción comienza con el cálculo de las derivadas de primer orden de la imagen, luego se calculan la orientación y la magnitud de cada píxel. Se calcula un histograma de orientación dentro del bloque para cada celda de 8x8 píxeles donde los píxeles contribuyen al histograma con el valor de magnitud, en función de la orientación del píxel, y la magnitud se interpola entre los centros de contenedores vecinos tanto en orientación como en posición. El histograma contiene 9 contenedores representa 0-180 grados con zancada de 20 grados. Una pintura general del algoritmo se puede ver aquí: http://4.bp.blogspot.com/_7NBDeKCsVHg/TKBbldI8GmI/AAAAAAAAAG0/G-OXUz1ouPQ/s1600/a1.bmp
Primero se describe la interpolación lineal en un espacio de una dimensión y luego extenderlo a 3-D. Sea h un histograma con una distancia entre bandejas (ancho de banda) b. h (x) indica el valor del histograma para el contenedor centrado en x. Supongamos que queremos interpolar un peso w en el punto x en el histograma . Deje x1 y x2 ser los dos compartimientos vecinos más cercanos del punto x tales que x1 ≤ x < x2. Linear interpolación distribuye el peso w en dos vecinos más cercanos de la siguiente
Let w en el punto 3-D x = [x, y, z] ser el peso a interpolar. Sean x1 y x2 los dos vectores de esquina de el cubo de histograma que contiene x, donde en cada componente x1 ≤ x < x2. Suponga que el ancho de banda del histograma a lo largo del eje x, y y z viene dado por b = [bx, by, bz]. Trilinear interpolación distribuye el peso w a los 8 centros bin circundantes como sigue:
.
Calculamos el histograma de las celdas y cada píxel contribuye con su valor de magnitud al histograma. Lo que entiendo de la formulación es que xey representa la ubicación de las celdas en la ventana de detección y z es el número de bin. En una ventana de detección de 64x128, hay 8x16 celdas y 9 bandejas de orientación para que nuestro histograma se represente como h (8,16,9). Si las afirmaciones anteriores son correctas, ¿(x1, y1) y (x2, y2) representan celdas anteriores y letras, respectivamente? ¿Z1 y Z2 significan los contenedores de orientación previa y de carta? ¿Qué pasa con el ancho de banda b = [bx, by, bz]?
Sería muy apreciado si alguien puede aclarar estos problemas.
Gracias.
Esta parece ser la referencia original: http://lear.inrialpes.fr/people/dalal/NavneetDalalThesis.pdf – whoplisp
Sí, esta es la referencia original. ¡Gracias! –
Vea la página de tesis 117 para la imagen de OPs. La construcción de los histogramas se muestra en la página 95. – whoplisp