Recientemente he estado trabajando en algunas funcionalidades de búsqueda de bases de datos y quería obtener información como las palabras promedio por documento (por ejemplo, campo de texto en la base de datos). La única cosa que he encontrado hasta el momento (sin procesamiento en el idioma de su elección fuera de la DB) es:Utilizando SQL para determinar las estadísticas del campo de texto
SELECT AVG(LENGTH(content) - LENGTH(REPLACE(content, ' ', '')) + 1)
FROM documents
Esto parece funcionar * pero, ¿tienes otra sugerencia? Actualmente estoy usando MySQL 4 (espero pasar pronto a la versión 5 para esta aplicación), pero también estoy interesado en soluciones generales.
Gracias!
* Me imagino que esta es una forma bastante aproximada de determinar esto, ya que no cuenta para HTML en el contenido y similares también. Eso está bien para este proyecto en particular, pero de nuevo ¿hay mejores formas?
Actualización: Para definir lo que quiero decir con "mejor": ya sea más preciso, funciona de manera más eficiente o es más "correcto" (fácil de mantener, buenas prácticas, etc.). Para el contenido que tengo disponible, la consulta anterior es lo suficientemente rápida y precisa para este proyecto, pero es posible que necesite algo similar en el futuro (por lo que pregunté).
Debes definir "mejor" –