6

Quería algo de información sobre un problema interesante que me han asignado. La tarea es analizar cientos, y finalmente miles, de políticas de privacidad e identificar las características principales de ellas. Por ejemplo, ¿toman la ubicación del usuario ?, ¿comparten o venden con terceros ?, etc.Interesante proyecto de estilo NLP/aprendizaje automático - análisis de las políticas de privacidad

He hablado con algunas personas, he leído mucho sobre las políticas de privacidad y he pensado en esto yo mismo. Aquí está mi plan de ataque actual:

Primero, lea con mucha privacidad y encuentre las principales "señales" o indicadores de que se cumple una determinada característica. Por ejemplo, si cientos de políticas de privacidad tienen la misma línea: "Tomaremos su ubicación", esa línea podría ser una pista con el 100% de confianza de que esa política de privacidad incluye tomar la ubicación del usuario. Otras señales darían grados de confianza mucho más pequeños sobre una determinada característica. Por ejemplo, la presencia de la palabra "ubicación" podría aumentar la probabilidad de que la ubicación del usuario se almacene en un 25%.

La idea sería seguir desarrollando estas señales, y sus intervalos de confianza apropiados hasta el punto en que pueda categorizar todas las políticas de privacidad con un alto grado de confianza. Aquí se podría hacer una analogía con los sistemas de captura de spam de correo electrónico que usan filtros bayesianos para identificar qué correo es comercial y no solicitado.

Quería preguntar si ustedes piensan que este es un buen enfoque para este problema. ¿Cómo abordarías exactamente un problema como este? Además, ¿existen herramientas o marcos específicos que recomiende usar? Cualquier entrada es bienvenida. Esta es la primera vez que hago un proyecto que trata sobre inteligencia artificial, específicamente aprendizaje automático y PNL.

+0

El problema no es realmente la clasificación del documento. Le gustaría dividir cada documento en trozos, luego etiquetar/categorizar/resumir cada trozo. Un enfoque ingenuo podría tratar cada párrafo o frase gramatical como un fragmento, pero podría ser demasiado crudo. – tripleee

+0

Sin embargo, solo algunos párrafos son realmente importantes para la privacidad de un usuario típico. Me interesan los problemas del "botón caliente", como el acaparamiento de la ubicación, la venta a terceros, etc. El texto estándar es irrelevante. – babonk

+0

Uno de los puntos que intenté hacer es que sería un error bastante grave que un sistema como este no distinguiera entre "Sé lo que es esto y puedo ignorarlo" y "No sé qué es esto". es". Por lo tanto, creo que de hecho necesita identificar lo que llama "estándar repetitivo". Si de hecho es estándar y repetitivo, debería ser fácil, en comparación con la tarea principal. – tripleee

Respuesta

4

La idea sería seguir desarrollando estas señales, y sus intervalos de confianza apropiados hasta el punto en que pueda categorizar todas las políticas de privacidad con un alto grado de confianza. Aquí se podría hacer una analogía con los sistemas de captura de spam de correo electrónico que usan filtros bayesianos para identificar qué correo es comercial y no solicitado.

Esto es text classification. Dado que tiene múltiples categorías de salida por documento, en realidad es multilabel classification. El enfoque estándar es manually label un conjunto de documentos con las clases/etiquetas que desea predecir, luego entrene un clasificador en las características de los documentos; típicamente ocurrencias o recuentos de palabras o n-gramas, posiblemente ponderados por tf-idf.

Los populares algoritmos de aprendizaje para la clasificación de documentos incluyen naive Bayes y SVM lineales, aunque también pueden funcionar otros alumnos clasificadores. Cualquier clasificador se puede extender a uno multilable por la construcción one-vs.-rest (OvR).

2

¡Un problema muy interesante!

En un nivel superior, lo que quiere es summarization - un documento tiene que reducirse a unas pocas frases clave. Esto está lejos de ser un problema resuelto. Un enfoque simple sería buscar palabras clave en lugar de frases clave. Puede intentar algo como LDA para el modelado de temas para encontrar de qué se trata cada documento. A continuación, puede buscar temas que están presentes en todos los documentos. Sospecho que lo que saldrá a la luz es algo relacionado con licencias, ubicación, derechos de autor, etc. MALLET tiene una implementación fácil de usar de LDA.

0

Me acercaría a esto como un problema de aprendizaje automático en el que está tratando de clasificar las cosas de múltiples maneras, es decir, quiere ubicación, quiere ssn, etc.

Deberá enumerar las características que desea usar (ubicación, ssn) y luego, para cada documento, indicar si ese documento usa esa información o no. Elija sus características, entrene sus datos y luego clasifique y pruebe.

Creo que las funciones simples como palabras y n-grams probablemente llegarían muy lejos, y un diccionario de palabras relacionadas con cosas como ssn o ubicación terminaría muy bien.

Use el algoritmo de aprendizaje automático que prefiera: Naive Bayes es muy fácil de implementar y utilizar, y funcionaría bien como una primera prueba del problema.

Cuestiones relacionadas