13

Tengo un proyecto para detectar y contar cachorros de foca (el animal) en una imagen aérea que se toma de la playa. Los cachorros de foca son negros y pequeños en comparación con los adultos que son marrones y grandes.¿Qué tipo de descriptor debería usar para la detección de cachorros de foca?

Algunos cachorros de sello están superpuestos/parcialmente ocluidos. El color de la playa es casi amarillo, sin embargo, hay algunas rocas negras que aumentan la dificultad de detección.

¿Qué tipo de descriptor es el más adecuado para mi proyecto? ¿HOG, SIFT, características similares a Haar?

Estoy pidiendo que la teoría sea parte de este problema. Creo que para implementar mi proyecto, el primer paso debería ser elegir el descriptor correcto que más pueda representar el objeto, luego (combinar varias características débiles, ¿no es necesario?) Entrenar un clasificador usando un método de aprendizaje automático como boost/SVM/neural_network, ¿estoy en lo cierto? ?

imagen de la muestra: enter image description here

+0

Información del Suplemento: Estoy pidiendo la parte de la teoría de este problema. Creo que para implementar mi proyecto, el primer paso debería ser elegir el descriptor correcto que más pueda representar el objeto, luego (combinar varias características débiles, ¿no es necesario?) Entrenar un clasificador usando un método de aprendizaje automático como boost/SVM/neural_network, ¿estoy en lo cierto? ? – waterlee23

+0

¿Podría publicar una muestra de imagen? –

+7

Busque a los hombres con palos que se les acerquen furtivamente. –

Respuesta

0

No del todo seguro, se podría tratar de echar un vistazo al algoritmo depredador, ya que es posible enseñar lo que es una cría de foca parece que con facilidad. youtube video, description and link here

+0

¡Gracias, ese video es increíble! Voy a googlear su artículo detrás de este video – waterlee23

+0

No creo que esto sea adecuado en absoluto. Eric no está tratando de rastrear los sellos en un video, está tratando de detectarlos y contarlos en imágenes. – YXD

+0

Puede enseñarle a Predator qué aspecto tiene una foca bebé en particular, luego haga que escanee en busca de variaciones sobre el tema y descubra cómo son las otras focas. De esta forma, hay menos esfuerzo en enseñarle a su algoritmo cómo sería un sello de bebé. También podría enseñarle cómo es el sello y las rocas de un adulto, por lo que puede excluirlos. –

2

No estoy seguro de que acepte que seleccionar el descriptor correcto es el lugar correcto para comenzar. Un problema fundamental es que todos los objetos tienen una forma similar. También hay gradientes sustanciales dentro de cada animal. La complejidad de las poses es otro problema. Podría dividir el problema en dos pasos más simples: 1. Detección única de objetos (detección de bordes, cuenca hidrográfica, graph cut, etc.). Algo así como el problema de "conteo de células sanguíneas". 2. Clasificación de objetos basada en el color y el área (normalizada a la perspectiva de la cámara). Calcule la cantidad fraccional de píxeles de color "amarillos" y píxeles de color "negro" en cada objeto y utilice esos valores junto con el tamaño del objeto como entradas para un clasificador de objetos (¡las redes neuronales son una solución divertida aquí!).

Es una escena bastante abarrotada, por lo que esperaría que estos dos algoritmos requiriesen algunos ajustes. Si sus requisitos permiten algún nivel de interacción entre analistas, proporcione algunos controles deslizantes para que el analista pueda ajustar cada uno de los umbrales en sus algoritmos.

2

La precisión en los algoritmos de visión artificial parece depender en gran medida de poder sintonizarlos para un problema específico. Si puede hacer suposiciones sobre las imágenes que está entregando su algoritmo, como el hecho de que todas ellas son imágenes aéreas de focas en una escena de playa similar, entonces puede aprovechar eso. Diría que antes de tratar de ser demasiado sofisticado con las características locales, es posible que desee probar algo así como la segmentación de cuencas hidrográficas y contar la cantidad de segmentos que no son de fondo. La Cuenca proporciona un marco conveniente llamado "marcadores" para incorporar conocimiento previo sobre su entrada para diferenciar entre segmentos de "fondo" y "primer plano".

Un enfoque como este podría ser más fácil y posiblemente más preciso que las características locales. En mi experiencia, no he podido extraer y combinar muchas características significativas de temas orgánicos (como caras o animales) usando las funciones SIFT y SURF. Para mí, han tendido a trabajar mejor en imágenes de habitaciones o edificios con muchos ángulos.

+0

Gracias, su sugerencia es muy útil – waterlee23

Cuestiones relacionadas