Quería algo de información sobre un problema interesante que me han asignado. La tarea es analizar cientos, y finalmente miles, de políticas de privacidad e identificar las características principales de ellas. Por ejemplo, ¿toman la ubicación del usuario ?, ¿comparten o venden con terceros ?, etc.Interesante proyecto de estilo NLP/aprendizaje automático - análisis de las políticas de privacidad
He hablado con algunas personas, he leído mucho sobre las políticas de privacidad y he pensado en esto yo mismo. Aquí está mi plan de ataque actual:
Primero, lea con mucha privacidad y encuentre las principales "señales" o indicadores de que se cumple una determinada característica. Por ejemplo, si cientos de políticas de privacidad tienen la misma línea: "Tomaremos su ubicación", esa línea podría ser una pista con el 100% de confianza de que esa política de privacidad incluye tomar la ubicación del usuario. Otras señales darían grados de confianza mucho más pequeños sobre una determinada característica. Por ejemplo, la presencia de la palabra "ubicación" podría aumentar la probabilidad de que la ubicación del usuario se almacene en un 25%.
La idea sería seguir desarrollando estas señales, y sus intervalos de confianza apropiados hasta el punto en que pueda categorizar todas las políticas de privacidad con un alto grado de confianza. Aquí se podría hacer una analogía con los sistemas de captura de spam de correo electrónico que usan filtros bayesianos para identificar qué correo es comercial y no solicitado.
Quería preguntar si ustedes piensan que este es un buen enfoque para este problema. ¿Cómo abordarías exactamente un problema como este? Además, ¿existen herramientas o marcos específicos que recomiende usar? Cualquier entrada es bienvenida. Esta es la primera vez que hago un proyecto que trata sobre inteligencia artificial, específicamente aprendizaje automático y PNL.
El problema no es realmente la clasificación del documento. Le gustaría dividir cada documento en trozos, luego etiquetar/categorizar/resumir cada trozo. Un enfoque ingenuo podría tratar cada párrafo o frase gramatical como un fragmento, pero podría ser demasiado crudo. – tripleee
Sin embargo, solo algunos párrafos son realmente importantes para la privacidad de un usuario típico. Me interesan los problemas del "botón caliente", como el acaparamiento de la ubicación, la venta a terceros, etc. El texto estándar es irrelevante. – babonk
Uno de los puntos que intenté hacer es que sería un error bastante grave que un sistema como este no distinguiera entre "Sé lo que es esto y puedo ignorarlo" y "No sé qué es esto". es". Por lo tanto, creo que de hecho necesita identificar lo que llama "estándar repetitivo". Si de hecho es estándar y repetitivo, debería ser fácil, en comparación con la tarea principal. – tripleee