2011-01-02 12 views
13

Estoy creando un motor de búsqueda (para estudiar) y quiero saber cómo Google reconoce el contenido y las imágenes para adultos con Safesearch (http://en.wikipedia.org/wiki/Safesearch).¿Cómo reconoce Google el contenido para adultos con safesearch?

El lenguaje del programa no importa, solo quiero saber el enfoque para un lenguaje de programa genérico.

+0

¿Quién vota cerrar este por ser demasiado localizado? ¿Cómo está demasiado localizado? – marcog

+0

Si el idioma no importa, ¿por qué etiquetó esto con dos etiquetas de idioma? – sbi

+0

@sbi: * tal vez * estos son sus idiomas favoritos. Los volvería a tachar, pero prefiero esperar su acción;) –

Respuesta

14

Si las reglas para cualquier tipo de filtro de contenido cayeron en manos de personas que intentaban obtener ese contenido a través del filtro, el filtro se volvería ineficaz.

Así que me imagino que las reglas de Google (1) no están disponibles públicamente y (2) cambian con frecuencia.

Dicho esto, comenzando con una pequeña lista negra de sitios para adultos y siguiendo los enlaces salientes (y/o la búsqueda de sitios con enlaces a los sitios incluidos en la lista negra) probablemente encuentre una gran cantidad de sitios para adultos. Pero de ninguna manera todo, también querrás algún tipo de procesamiento de texto y algoritmos de reconocimiento de imágenes.

NOTA: Una teoría popular es que los proveedores de contenido para adultos pagan a las personas por hacer preguntas en stackoverflow.com para que Jon Skeet y Marc Gravell tengan menos tiempo para actualizar los filtros de SafeSearch. Sin embargo, se muestra fácilmente que Jon y Marc responden preguntas a un ritmo tan elevado que cualquier estrategia de este tipo no sería económicamente viable.

+2

** Siguiente pregunta: ** ¿Qué algoritmo ha demostrado ser útil para generar preguntas de stackoverflow que Jon Skeet y Marc Gravell responderán? – Xeoncross

+1

@ Xeoncross: Sus páginas de perfil muestran que la aplicación de una de las etiquetas 'C#', '.net',' java', y 'linq' probablemente funcione. El uso de más de una de estas etiquetas puede arrojar incluso mejores resultados o puede hacer que su computadora sea pirateada e incorporada en la nube de google borg. Úselo bajo su propio riesgo. –

2

Apuesto a que es muy complicado.

Tal vez con texto filtran páginas con más de n o n% palabras relacionadas con adultos.

Y con las imágenes, tal vez miran el nombre del archivo y el texto que lo rodea en la página donde se encontró cada imagen, y lo filtran si está lleno de palabras adultas. También podrían estar escaneando las imágenes en busca de tonos de piel y personas desnudas.

3

La respuesta de Ben es correcta acerca de todos los puntos, pero me gustaría añadir mis consideraciones.

Acerca del reconocimiento de imágenes: le resultará bastante fácil, dado un gran conjunto de imágenes, identificar objetos como pechos desnudos, penes y otros dentro de ellos mediante el reconocimiento de patrones.

Todos los algoritmos de inteligencia artificial, sin embargo, tienen puntos débiles. Es posible que experimente que un determinado porcentaje de sus imágenes, según la calidad del clasificador utilizado, está mal clasificado.

Luego, tiene que aplicar otros criterios más que el procesamiento de imágenes. Seguramente los criterios de Google no son públicos, pero le gustaría considerar las etiquetas ICRA para marcar de forma voluntaria cierto material como material adulto, procesamiento de texto y enlaces entre dominios. Si yo fuera el creador de Safesearch, habría adoptado el siguiente patrón: los sitios para adultos a menudo intercambian enlaces, por lo que encontrarás muchas intersecciones en los gráficos de enlaces entre un grupo de sitios para adultos.

Poniendo todo junto, un buen enfoque de clasificación utiliza varios pequeños criterios, anotando ellos para determinar si una imagen es una imagen adulta o no.

2

Posiblemente de forma similar a cómo se filtra el correo no deseado.

El primer paso es crear un conjunto de entrenamiento, basado en sitios conocidos para adultos, y extraer las características de ellos.Estas podrían ser palabras clave, colores utilizados en imágenes, estructura de nombre de dominio, detalles de whois, lo que sea. Cualquier cosa que de alguna manera podría ser específicamente diferente para contenido adulto en comparación con contenido no adulto.

El siguiente paso es aplicar algún tipo de modelo estadístico a eso. Los modelos Bayesianos parecen funcionar bien para el correo no deseado, pero puede que no para cosas de adultos.

Support vector machines parecen una buena opción, pero eso es mucho más complejo y no estoy realmente familiarizado con él.

Cuestiones relacionadas