Hola a todos en todo el mundo,plagio Analyzer (en comparación contra el contenido web)
Antecedentes
Soy un estudiante de último año de Ciencias de la Computación. He propuesto mi proyecto final de doble módulo, que es un analizador de plagio, que utiliza Java y MySQL.
El plagio analizador:
- Analizar todos los párrafos del documento cargado. Analiza el porcentaje de cada párrafo copiado de cada sitio web.
- Resalta solo las palabras copiadas exactamente de cada sitio en cada párrafo.
Mi principal objetivo es desarrollar algo así como Turnitin, mejorado si es posible.
Tengo menos de 6 meses para desarrollar el programa. Tengo el alcance de lo siguiente:
- Implementación web sobre orugas. Probablemente esté utilizando Lucene API o desarrollando mi propio Crawler (¿cuál es mejor en términos de desarrollo de tiempo y también de usabilidad?).
- Hashing and Indexing. Para mejorar la búsqueda y el análisis.
Preguntas
Aquí están mis preguntas:
- Puede MySQL tienda que toda la información?
- ¿Extrañé algunos temas importantes?
- ¿Cuáles son sus opiniones sobre este proyecto?
- ¿Alguna sugerencia o técnica para realizar el análisis de similitud?
- ¿Se puede hastar un párrafo, así como las palabras?
Gracias de antemano por cualquier ayuda y consejo. ^^
¿No tiene esto que ver con sus compañeros? ;-) – Steve314
Es posible que desee echar un vistazo a la distancia de compresión normalizada: http://stackoverflow.com/questions/1085048/how-would-you-code-an-anti-plagiarism-site/1085085#1085085 – Stephan202
Gracias a mucho Stephan202 por destacar eso! ;) –