Actualmente estoy diseñando un CMS para usar en mi sitio web. Me pregunto si había bibliotecas gratuitas disponibles para crear etiquetas basadas en el contenido.¿Qué es una biblioteca efectiva para sugerir palabras clave para el contenido?
Ejemplo
I como árboles. Los árboles son plantas que tienen hojas. Las hojas en el árbol pueden ser multicolor.
producirían las etiquetas árboles y hojas .
La biblioteca debe ser PHP o JS.
EDIT 1:
he encontrado una biblioteca simple para la mitad de mi tarea - http://www.cafewebmaster.com/get-top-100-words-keywords-text-php
He editado lo que las especificaciones de la biblioteca deben ser (gracias a la orientación de @NullUserException) -
Conde todas las palabras (ignorando mayúsculas y minúsculas y las inflexiones), tirar las palabras vacías y recoger los que tienen la frecuencia más alta
Edita el texto para que las palabras que son más específicas del género (pueden tener una frecuencia más baja), sean de mayor valor. Por ejemplo, en el ejemplo: 'multicolor' debe ser más valioso porque es más específico para el sujeto. Sin embargo, debe incluir un prefijo que indique que se relaciona con el tema (se convertiría en hojas-multicolor).
EDIT 2:
algoritmo debe eliminar palabras que tienen menos de 3 caracteres menos están en mayúsculas o formateados lo contrario
Solución simple: cuente todas las palabras (ignorando mayúsculas y minúsculas), saque [stop words] (http://en.wikipedia.org/wiki/Stop_words) y elija las que tengan el conteo más alto. – NullUserException
Eso es la mitad de lo que necesito, la otra mitad usa esas palabras y encuentra versiones más específicas. es decir, el uso de "multicolor" en mi ejemplo necesitaría tener una relevancia de palabras clave más alta que las plantas porque es más específico. ¿Cómo haría esto? – liamzebedee