2009-02-25 15 views
28

Sé que los correctores ortográficos no son perfectos, pero se vuelven más útiles a medida que aumenta la cantidad de texto que tiene. ¿Cómo puedo revisar la ortografía de un sitio que tiene miles de páginas?¿Cómo deletreas revisas un sitio web?

Editar: Debido al complicado procesamiento del lado del servidor, la única forma en que puedo obtener las páginas es a través de HTTP. Tampoco se puede subcontratar a un tercero.

Editar: Tengo una lista de todas las URL del sitio que debo consultar.

Respuesta

0

Puede hacer esto con un script de shell que combine wget con aspell. ¿Tenías un entorno de programación en mente?

Yo personalmente usaría Python con Beautiful Soup para extraer el texto de las etiquetas, y canalizar el texto a través de aspell.

1

Si es una de ellas, y debido a la cantidad de páginas para comprobar, podría valer la pena considerar algo como spellr.us que sería una solución rápida. Puede ingresar en la URL de su sitio web en la página de inicio para tener una idea de cómo podría informar errores ortográficos.

http://spellr.us/

pero estoy seguro de que hay algunas alternativas gratuitas.

0

Use plantillas (bien) con su aplicación web (si está programando el sitio en lugar de solo escribir html), y un editor html que incluya la verificación ortográfica. Eclipse lo hace, por ejemplo.

Si eso no es posible por alguna razón ... sí, wget para descargar las páginas terminadas, y algo parecido a esto:

http://netsw.org/dict/tools/ispell-html-mode.patch

2

Si se puede acceder al contenido del sitio como archivos, puede escribir un pequeño script de shell Unix que hace el trabajo. El siguiente script imprimirá el nombre de un archivo, número de línea y palabras mal escritas. La calidad de salida depende de la del diccionario de su sistema.

#!/bin/sh 

# Find HTML files 
find $1 -name \*.html -type f | 
while read f 
do 
     # Split file into words 
     sed ' 
# Remove CSS 
/<style/,/<\/style/d 
# Remove Javascript 
/<script/,/<\/script/d 
# Remove HTML tags 
s/<[^>]*>//g 
# Remove non-word characters 
s/[^a-zA-Z]/ /g 
# Split words into lines 
s/[  ][  ]*/\ 
/g ' "$f" | 
     # Remove blank lines 
     sed '/^$/d' | 
     # Sort the words 
     sort -u | 
     # Print words not in the dictionary 
     comm -23 - /usr/share/dict/words >/tmp/spell.$$.out 
     # See if errors were found 
     if [ -s /tmp/spell.$$.out ] 
     then 
       # Print file, number, and matching words 
       fgrep -Hno -f /tmp/spell.$$.out "$f" 
     fi 
done 
# Remove temporary file 
rm /tmp/spell.$$.out 
+0

+1 :: Incluso si no puede obtener los archivos fuente del sitio, puede usar wget -m (modo espejo) para arañar el sitio. – garrow

+0

Esto no filtra JavaScript y CSS incrustado en el HTML. – Liam

+0

Además, algunas palabras como 'at' y 'me' aparecen como palabras mal escritas aunque estén en el diccionario. – Liam

7

lince parece ser bueno en conseguir sólo el texto que necesito (contenido del cuerpo y el texto alternativo) e ignorando lo que no necesito (incrustado Javascript y CSS).

lynx -dump http://www.example.com 

También enumera todas las direcciones URL (convertido a su forma absoluta) en la página, que se pueden filtrar a cabo usando grep:

lynx -dump http://www.example.com | grep -v "http" 

Las direcciones URL también podría ser local (file://) si tengo wget utilizado para duplicar el sitio.

Escribiré una secuencia de comandos que procesará un conjunto de URL utilizando este método, y cada página se enviará a un archivo de texto independiente. Luego puedo usar una solución de corrección ortográfica existente para verificar los archivos (o un solo archivo grande que combine todos los pequeños).

Esto ignorará el texto en el título y meta elementos. Estos pueden ser corregidos ortográficamente por separado.

+2

Puedes usar wget -R para tomar todas tus páginas web recursivamente. Luego, ejecute lynx en los archivos locales y realice una revisión ortográfica desde allí. – strager

0

Usamos el control Telerik RAD Spell en nuestras aplicaciones ASP.NET.

Telerik RAD Spell

0

Es posible que desee echa un vistazo a una biblioteca como JSpell.

2

Lo recomiendo Inspyder InSite, es un software comercial pero tienen una versión de prueba disponible, vale la pena el dinero. Lo he usado durante años para verificar la ortografía de los sitios web de los clientes. Es compatible con la automatización/programación y se puede integrar con las listas de palabras personalizadas de CMS. También es una buena forma de verificar los vínculos y generar informes.

0

hice un Inglés de sólo corrector ortográfico con Ruby aquí: https://github.com/Vinietskyzilla/fuzzy-wookie

probarlo.

Su principal deficiencia es la ausencia de un diccionario completo que incluya todas las formas de cada palabra (plural, no solo singular; 'tiene', no solo 'tiene'). Sustituir tu propio diccionario, si puedes encontrarlo o crear uno mejor, lo haría realmente increíble.


Aparte de eso, creo que la forma más sencilla de comprobar la ortografía de una sola página web es presionar Ctrl + A (o cmd + a) para seleccionar todo el texto, a continuación, copiar y pegar en un cuadro de texto de varias líneas de una página web. (Por ejemplo, <html><head></head><body><textarea></textarea></body></html>). Su navegador debe subrayar las palabras mal escritas.

+0

Oh, sí, esa segunda opción no funcionará demasiado bien para "miles de páginas". –

0

@Anthony Roy He hecho exactamente lo que has hecho. Pasé la página por Aspell a través de Pyenchant. Tengo diccionarios de inglés (GB, CA, US) para usar en mi sitio https://www.validator.pro/. Contácteme y estableceré un trabajo de una sola vez para que compruebe 1000 páginas o más

Cuestiones relacionadas