No puedo encontrar nada más que aplicaciones web de código cerrado. ¿Hay algún proyecto activo? Me interesaría usar el software en algo que estoy desarrollando e involucrándome.¿Existe software de código abierto disponible que analiza una cadena y adivina el sexo del autor?
Respuesta
Te encontrarás con un problema: las suposiciones serán solo eso: conjeturas. No existe una manera remotamente precisa de distinguir el sexo de un autor estrictamente de lo que escriben, lo máximo que obtendrás es una mala estimación.
Eso está bien. Entiendo que no puede ser completamente preciso, y que tal característica solo podría ser para entretenimiento. – rmh
Oye, esto probablemente podría hacerse. Tendría que tomar un montón de libros de autores masculinos y femeninos, sacar oraciones, mezclarlos y alimentarlos a algún tipo de red neuronal para el entrenamiento. Para ser sincero, me interesaría ver si alguien lo hace. Ah, y yo soy sólo curiosidad qué uno necesitaría un programa de este tipo :)
Una razón: analizar los blogs con fines de marketing. – stalepretzel
Otra razón: adivinar la demografía de sus usuarios. Probablemente puedas adivinar, con un buen programa, el sexo, la edad y la región geográfica de un usuario, solo mirando muestras de escritura. – stalepretzel
Si desea la demografía de sus usuarios, ¡solo pregunte! Si se preocupan lo suficiente como para escribir contenido (publicaciones, comentarios, etc.) para el que tienen que iniciar sesión, solo tiene que obtener esa información durante el registro. –
Hay aplicaciones como "El Género Genie", que operan dentro de un grado razonable de éxito: http://bookblog.net/gender/genie.php (y sobre todo con textos más largos)
No necesita ser completamente exitoso. Tendría que lidiar con una gran cantidad de datos, y es principalmente solo por diversión.
Si alguien sabe de algo, por favor, comparta.
Richard
hmm, el genio de género parece clasificar consistentemente los textos escritos por mí como femeninos: -/ –
Hay una sección sobre esto en el libro de Stephen Baker, El Numerati. Hay empresas dedicadas al análisis computacional de la blogósfera con fines de marketing, y parte de sus algoritmos se ocupan de decidir si el autor es hombre o mujer. Sugiero leer esto.
No creo que ningún trabajo como este sea de código abierto, pero usted mismo puede construir una versión comprimida. Sin embargo, antes de analizar MUCHOS datos para programar esto, no creo que sea muy preciso.
Existen algunas implementaciones de código abierto de indexación/análisis semántico latente. Si tiene un buen conjunto de escritura masculina y femenina relevante para su aplicación, podría clasificar con la precisión suficiente como para ser útil.
Dado que está asumiendo dos categorías, casi cualquier clasificador probablemente lo hará bien. Algunas sugerencias:
- Bayes ingenuo
- máquinas de vectores soporte
Como un comentarista dijo anteriormente, a partir de una muestra conocida de texto (y debe haber un montón de periódicos ... corpus puede ser bueno), entrenar y clasificar, en algunos atributos razonables (tal vez presencia/ausencia o palabras o pares de palabras).
Éste debe ser (comparativamente) fácil.
Si está utilizando Python, incluso algo tan simple como el kit de herramientas de lenguaje natural (cf: nltk.org) y su libro deberían llevarlo allí.
Aquí hay otro sitio web que afirma hacer esto: GenderAnalyzer. Sin embargo, se basa en otro sitio web llamado uClassify.com que está caído mientras escribo esto. Tienen un enlace de contacto en la parte inferior para preguntas.
Parece un atuendo académico: "En nuestro laboratorio parece funcionar bastante bien".
Cualquiera puede reclamar un "laboratorio". Todo lo que eso significa es una computadora para probar. – Tim
@Tim: Suena académico sin embargo. Podría intentar contactarlos. – rmh
Probé con ellos. Dijeron que mi página probablemente fue escrita por un hombre, lo cual es correcto. Tenían botones para hacer clic para acertar o no, y los resultados eran sobre el nivel de probabilidad. O no les va bien o la gente hace clic deshonestamente (o ambas cosas). –
Hay un conjunto completo de analizadores de dos clases que se pueden adaptar aquí ... software de identificación y bloqueo de spam. Todavía requiere que el usuario obtenga texto escrito por hombres (tratado como correo no deseado) y texto femenino (tratado como jamón o al revés), pero muchos deberían funcionar.
puede probar un clasificador de género en cadenas de texto aquí: http://uclassify.com/browse/uClassify/gender_v3
nlpers blog acerca de esto hace algunos años; ver los comentarios allí para algunas sugerencias ...
- 1. Crítica de software: software de código abierto
- 2. La diferencia entre software libre y software de código abierto
- 3. Adopción de software de código abierto en una organización
- 4. bien diseñado/alta calidad del software de código abierto
- 5. ¿Algún software de código abierto como matlab?
- 6. ¿Existe un monitor de sistema de archivos sofisticado para Java que sea de software gratuito o de código abierto?
- 7. ¿Existe un buen código abierto xml ide?
- 8. software de código abierto para controlar la velocidad del ventilador del ordenador
- 9. El más bello software de código abierto escrito en C++
- 10. ¿Hay algún software de código abierto como cpanel?
- 11. software de gestión de campañas políticas de código abierto?
- 12. ¿Existe una biblioteca de registro distribuido de código abierto?
- 13. Good Code Review Software disponible?
- 14. Scala: coincide y analiza una cadena de enteros?
- 15. ¿Existe una biblioteca de código abierto WebSockets (JavaScript) XMPP?
- 16. ¿Cómo puedo licenciar dos veces mi software de código abierto?
- 17. ¿Los derechos de autor y las licencias de código abierto caducan?
- 18. ¿Existe una administración basada en web de código abierto para el servidor MS SQL?
- 19. ¿Es necesario el código con el nombre del autor?
- 20. F # html que analiza
- 21. ¿Algún software de código abierto similar a Fortify?
- 22. software de seguimiento de mouse o mouse de código abierto
- 23. Proyectos de código abierto que demuestran TDD y principios SÓLIDOS
- 24. Encontrar el autor de una línea de código en Mercurial
- 25. ¿Qué interesante software de código abierto está escrito en Lisp?
- 26. Mejor licencia para vender software de código abierto
- 27. ¿Qué software de autoridad certificadora está disponible?
- 28. Puede vender software de código abierto siempre que proporcione 'código'. ¿Eso incluye archivos de proyectos y otros metadatos?
- 29. Cómo usar una licencia de código abierto
- 30. software de código abierto Recomendado para estudiar C# y patrones de diseño MVC (y otros)
Creo que la mayoría de la gente está malentendiendo su pregunta. Usted quiere saber, dado un cuerpo de texto, si John o Jane lo escribieron. No si John es un niño o una niña. La aclaración podría estar en orden. – biozinc
+1 por una pregunta fascinante que nunca pensé –