2011-09-11 10 views
8

Actualmente estoy diseñando un CMS para usar en mi sitio web. Me pregunto si había bibliotecas gratuitas disponibles para crear etiquetas basadas en el contenido.¿Qué es una biblioteca efectiva para sugerir palabras clave para el contenido?

Ejemplo

I como árboles. Los árboles son plantas que tienen hojas. Las hojas en el árbol pueden ser multicolor.

producirían las etiquetas árboles y hojas .

La biblioteca debe ser PHP o JS.

EDIT 1:

he encontrado una biblioteca simple para la mitad de mi tarea - http://www.cafewebmaster.com/get-top-100-words-keywords-text-php

He editado lo que las especificaciones de la biblioteca deben ser (gracias a la orientación de @NullUserException) -

  • Conde todas las palabras (ignorando mayúsculas y minúsculas y las inflexiones), tirar las palabras vacías y recoger los que tienen la frecuencia más alta

  • Edita el texto para que las palabras que son más específicas del género (pueden tener una frecuencia más baja), sean de mayor valor. Por ejemplo, en el ejemplo: 'multicolor' debe ser más valioso porque es más específico para el sujeto. Sin embargo, debe incluir un prefijo que indique que se relaciona con el tema (se convertiría en hojas-multicolor).

EDIT 2:

algoritmo debe eliminar palabras que tienen menos de 3 caracteres menos están en mayúsculas o formateados lo contrario

+2

Solución simple: cuente todas las palabras (ignorando mayúsculas y minúsculas), saque [stop words] (http://en.wikipedia.org/wiki/Stop_words) y elija las que tengan el conteo más alto. – NullUserException

+0

Eso es la mitad de lo que necesito, la otra mitad usa esas palabras y encuentra versiones más específicas. es decir, el uso de "multicolor" en mi ejemplo necesitaría tener una relevancia de palabras clave más alta que las plantas porque es más específico. ¿Cómo haría esto? – liamzebedee

Respuesta

1

son las etiquetas en su CMS ya definidos? En caso afirmativo, podría indexar su texto en la memoria y buscar usando todas las etiquetas conocidas contra su texto. Elija las etiquetas de mayor puntuación y presente al usuario.

indexación y búsqueda podría hacerse con http://lucene.apache.org/solr/

Editar: Tenga en cuenta que sugieren que las etiquetas/palabras clave se definen y manejable desde un panel de administración (como por ejemplo en wordpress). De lo contrario, terminaría con miles de palabras clave generadas a partir de sus artículos que nunca ayudarían al usuario final.

Cuestiones relacionadas