¿Cómo deletreas revisas un sitio web?

Sé que los correctores ortográficos no son perfectos, pero se vuelven más útiles a medida que aumenta la cantidad de texto que tiene. ¿Cómo puedo revisar la ortografía de un sitio que tiene miles de páginas?¿Cómo deletreas revisas un sitio web?

Editar: Debido al complicado procesamiento del lado del servidor, la única forma en que puedo obtener las páginas es a través de HTTP. Tampoco se puede subcontratar a un tercero.

Editar: Tengo una lista de todas las URL del sitio que debo consultar.

Fuente

2009-02-25 Liam

Puede hacer esto con un script de shell que combine wget con aspell. ¿Tenías un entorno de programación en mente?

Yo personalmente usaría Python con Beautiful Soup para extraer el texto de las etiquetas, y canalizar el texto a través de aspell.

Fuente

2009-02-25 11:31:38

Si es una de ellas, y debido a la cantidad de páginas para comprobar, podría valer la pena considerar algo como spellr.us que sería una solución rápida. Puede ingresar en la URL de su sitio web en la página de inicio para tener una idea de cómo podría informar errores ortográficos.

http://spellr.us/

pero estoy seguro de que hay algunas alternativas gratuitas.

Fuente

2009-02-25 11:40:43 kevchadders

Use plantillas (bien) con su aplicación web (si está programando el sitio en lugar de solo escribir html), y un editor html que incluya la verificación ortográfica. Eclipse lo hace, por ejemplo.

Si eso no es posible por alguna razón ... sí, wget para descargar las páginas terminadas, y algo parecido a esto:

http://netsw.org/dict/tools/ispell-html-mode.patch

Fuente

2009-02-25 11:48:50

Si se puede acceder al contenido del sitio como archivos, puede escribir un pequeño script de shell Unix que hace el trabajo. El siguiente script imprimirá el nombre de un archivo, número de línea y palabras mal escritas. La calidad de salida depende de la del diccionario de su sistema.

#!/bin/sh 

# Find HTML files 
find $1 -name \*.html -type f | 
while read f 
do 
     # Split file into words 
     sed ' 
# Remove CSS 
/<style/,/<\/style/d 
# Remove Javascript 
/<script/,/<\/script/d 
# Remove HTML tags 
s/<[^>]*>//g 
# Remove non-word characters 
s/[^a-zA-Z]/ /g 
# Split words into lines 
s/[  ][  ]*/\ 
/g ' "$f" | 
     # Remove blank lines 
     sed '/^$/d' | 
     # Sort the words 
     sort -u | 
     # Print words not in the dictionary 
     comm -23 - /usr/share/dict/words >/tmp/spell.$$.out 
     # See if errors were found 
     if [ -s /tmp/spell.$$.out ] 
     then 
       # Print file, number, and matching words 
       fgrep -Hno -f /tmp/spell.$$.out "$f" 
     fi 
done 
# Remove temporary file 
rm /tmp/spell.$$.out

Fuente

2009-02-25 11:55:15

+1 :: Incluso si no puede obtener los archivos fuente del sitio, puede usar wget -m (modo espejo) para arañar el sitio. – garrow

Esto no filtra JavaScript y CSS incrustado en el HTML. – Liam

Además, algunas palabras como 'at' y 'me' aparecen como palabras mal escritas aunque estén en el diccionario. – Liam

lince parece ser bueno en conseguir sólo el texto que necesito (contenido del cuerpo y el texto alternativo) e ignorando lo que no necesito (incrustado Javascript y CSS).

lynx -dump http://www.example.com

También enumera todas las direcciones URL (convertido a su forma absoluta) en la página, que se pueden filtrar a cabo usando grep:

lynx -dump http://www.example.com | grep -v "http"

Las direcciones URL también podría ser local (file://) si tengo wget utilizado para duplicar el sitio.

Escribiré una secuencia de comandos que procesará un conjunto de URL utilizando este método, y cada página se enviará a un archivo de texto independiente. Luego puedo usar una solución de corrección ortográfica existente para verificar los archivos (o un solo archivo grande que combine todos los pequeños).

Esto ignorará el texto en el título y meta elementos. Estos pueden ser corregidos ortográficamente por separado.

Fuente

2009-02-25 13:16:38 Liam

Puedes usar wget -R para tomar todas tus páginas web recursivamente. Luego, ejecute lynx en los archivos locales y realice una revisión ortográfica desde allí. – strager

Usamos el control Telerik RAD Spell en nuestras aplicaciones ASP.NET.

Telerik RAD Spell

Fuente

2009-03-10 01:35:09

Es posible que desee echa un vistazo a una biblioteca como JSpell.

Fuente

2009-03-10 02:07:07

Solo una vista días antes de que descubriera Spello web site spell checker. Utiliza mi NHunspell (Open office Spell Checker for .NET) libaray. Puedes darle una oportunidad.

Fuente

2009-09-09 18:10:10

No funciona para mí. Solo imprime la URL y se detiene. –

Parece que solo quiere comprobar las URL HTTP (es decir, no HTTPS). Funciona muy bien de lo contrario. – imallett

Lo recomiendo Inspyder InSite, es un software comercial pero tienen una versión de prueba disponible, vale la pena el dinero. Lo he usado durante años para verificar la ortografía de los sitios web de los clientes. Es compatible con la automatización/programación y se puede integrar con las listas de palabras personalizadas de CMS. También es una buena forma de verificar los vínculos y generar informes.

Fuente

2010-09-28 14:04:19

hice un Inglés de sólo corrector ortográfico con Ruby aquí: https://github.com/Vinietskyzilla/fuzzy-wookie

probarlo.

Su principal deficiencia es la ausencia de un diccionario completo que incluya todas las formas de cada palabra (plural, no solo singular; 'tiene', no solo 'tiene'). Sustituir tu propio diccionario, si puedes encontrarlo o crear uno mejor, lo haría realmente increíble.

Aparte de eso, creo que la forma más sencilla de comprobar la ortografía de una sola página web es presionar Ctrl + A (o cmd + a) para seleccionar todo el texto, a continuación, copiar y pegar en un cuadro de texto de varias líneas de una página web. (Por ejemplo, <html><head></head><body><textarea></textarea></body></html>). Su navegador debe subrayar las palabras mal escritas.

Fuente

2013-09-09 22:26:19

Oh, sí, esa segunda opción no funcionará demasiado bien para "miles de páginas". –

@Anthony Roy He hecho exactamente lo que has hecho. Pasé la página por Aspell a través de Pyenchant. Tengo diccionarios de inglés (GB, CA, US) para usar en mi sitio https://www.validator.pro/. Contácteme y estableceré un trabajo de una sola vez para que compruebe 1000 páginas o más

Fuente

2014-11-29 02:16:05

¿Cómo deletreas revisas un sitio web?

Respuesta

Cuestiones relacionadas