Estoy haciendo un sistema de cuestionarios, y cuando los cuestionarios inserten preguntas en el Banco de preguntas, debo verificar las preguntas duplicadas/muy similares en la base de datos.La relevancia de búsqueda de texto se mide en?
Probando MySQL's MATCH() ... AGAINST(), la mayor relevancia que obtengo es 30+, cuando pruebo contra una cadena 100% similar.
Entonces, ¿cuál es exactamente la relevancia? Para citar el manual:
Los valores de relevancia son números de punto flotante no negativos. Cero relevancia significa que no hay similitud. La relevancia se calcula en función del número de palabras en la fila, el número de palabras únicas en esa fila, el número total de palabras en la colección y el número de documentos (filas) que contienen una palabra en particular.
Mi problema es cómo probar el valor de relevancia si una cadena es un duplicado. Si es 100% duplicado, evite que se inserte en el banco de preguntas. Pero si solo es similar, solicite al concursante que verifique, inserte o no. Entonces, ¿cómo hago eso? Más de 30 para una cadena 100% idéntica no es un porcentaje, entonces estoy tocón.
Gracias de antemano.
Prefiero usar el motor de búsqueda MySQL siempre que sea posible. Si tuviera que comparar el mío, tengo que preparar y controlar mucho, p. Ej. elimine todos los espacios en blanco y los caracteres especiales, convierta todo a mayúsculas y todo lo demás. Ese es mi último recurso. – syaz