sed para eliminar las URL de un archivo

Estoy tratando de escribir una expresión sed que puede eliminar las direcciones URL de un archivosed para eliminar las URL de un archivo

ejemplo

http://samgovephotography.blogspot.com/ updated my blog just a little bit ago. Take a chance to check out my latest work. Hope all is well:) 

Meet Former Child Star & Author Melissa Gilbert 6/15/09 at LA's B&N https://hollywoodmomblog.com/?p=2442 Thx to HMB Contributor @kdpartak :)

Pero yo no lo consigue:

sed 's/[\w \W \s]*http[s]*:\/\/\([\w \W]\)\+[\w \W \s]*/ /g' posFile

¡¡¡FIJO !!!!!

maneja casi todos los casos, incluso las direcciones URL mal formados

sed 's/[\w \W \s]*http[s]*[a-zA-Z0-9 : \. \/ ; % " \W]*/ /g' positiveTweets | grep "http" | more

Fuente

2010-11-26 daydreamer

Cuando se trabaja con urls, archivo caminos, etc., prefiero usar "|" como separador de sed, así que no tengo que escapar /. Ejemplo: sed's/path/to/some/file/|/newpath/to/new/file/| g ' –

@ JP19, me gusta, probaría esto – daydreamer

El siguiente quita http:// o https:// y todo hasta el siguiente espacio:

sed -e 's!http\(s\)\{0,1\}://[^[:space:]]*!!g' posFile 
updated my blog just a little bit ago. Take a chance to check out my latest work. Hope all is well:) 

Meet Former Child Star & Author Melissa Gilbert 6/15/09 at LA's B&N Thx to HMB Contributor @kdpartak :)

Editar:

yo, hubiera utilizado:

sed -e 's!http[s]\?://\S*!!g' posFile

"[s]\?" es una forma mucho más legible de la escritura "opcional s" en comparación con "\(s\)\{0,1\}"

"\S*" una versión más fácil de "no cualquier caracteres de espacio "que" [^[:space:]]* "

Debo haber estado usando el sed que vino instalado con mi Mac en el momento en que escribí esta respuesta (brew install gnu-sed FTW).

hay expresiones regulares URL mejor por ahí (las que tienen en cuenta los esquemas distintos de HTTP (S), por ejemplo), pero esto va a funcionar para usted, teniendo en cuenta los ejemplos que das. ¿Por qué complicar las cosas?

Fuente

2010-11-26 09:33:35 Johnsyweb

Johnsyweb ¿podría explicar su expresión sed? Particularmente la notación {0,1}. – minerals

@minerals: He actualizado mi respuesta y espero que ayude. – Johnsyweb

muy apreciado! – minerals

La respuesta aceptada proporciona el enfoque que utilicé para eliminar URLs, etc. de mis archivos. Sin embargo, dejó líneas "en blanco". Aquí hay una solución.

sed -i -e 's/http[s]\?:\/\/\S*//g ; s/www\.\S*//g ; s/ftp:\S*//g' input_file 

perl -i -pe 's/^'`echo "\012"`'${2,}//g' input_file

Las banderas de GNU sed, las expresiones utilizadas son:

-i Edit in-place 
-e [-e script] --expression=script : basically, add the commands in script 
     (expression) to the set of commands to be run while processing the input 
^ Match start of line 
$ Match end of line 


? Match one or more of preceding regular expression 
{2,} Match 2 or more of preceding regular expression 
\S* Any non-space character; alternative to: [^[:space:]]*

Sin embargo,

sed -i -e 's/http[s]\?:\/\/\S*//g ; s/www\.\S*//g ; s/ftp:\S*//g'

deja carácter no imprimible (s), presumiblemente \n (saltos de línea). Enfoques basados en sed estándar para eliminar líneas, pestañas y espacios "en blanco", p.

sed -i 's/^[ \t]*//; s/[ \t]*$//'

no funcionan, aquí: si no se utiliza una "etiqueta rama" para procesar los saltos de línea, no se puede reemplazarlos usando sed (que lee la entrada de una línea a la vez).

La solución es utilizar la siguiente expresión Perl:

perl -i -pe 's/^'`echo "\012"`'${2,}//g'

que utiliza una sustitución cáscara,

'`echo "\012"`'

para reemplazar un valor octal

\012

(es decir, una nueva línea, \n), que se produce 2 o más veces,

{2,}

(de lo contrario habría desenvolver todas las líneas), con algo más; aquí:

//

es decir, nada.

[La segunda referencia a continuación proporciona una maravillosa mesa de estos valores!]

Las banderas de Perl se utiliza son:

-p Places a printing loop around your command, 
    so that it acts on each line of standard input 

-i Edit in-place 

-e Allows you to provide the program as an argument, 
    rather than in a file

Referencias:

banderas de Perl: Perl flags -pe, -pi, -p, -w, -d, -i, -t?
Códigos de control ASCII: https://www.cyberciti.biz/faq/unix-linux-sed-ascii-control-codes-nonprintable/
Eliminar URL: sed to remove URLs from a file
etiquetas de la rama: How can I replace a newline (\n) using sed?
GNU manual de sed: https://www.gnu.org/software/sed/manual/sed.html
guía regex rápida: https://www.gnu.org/software/sed/manual/html_node/Regular-Expressions.html

Ejemplo:

$ cat url_test_input.txt 

Some text ... 
https://stackoverflow.com/questions/4283344/sed-to-remove-urls-from-a-file 
https://www.google.ca/search?dcr=0&ei=QCsyWtbYF43YjwPpzKyQAQ&q=python+remove++citations&oq=python+remove++citations&gs_l=psy-ab.3...1806.1806.0.2004.1.1.0.0.0.0.61.61.1.1.0....0...1c.1.64.psy-ab..0.0.0....0.-cxpNc6youY 
http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html 
https://bbengfort.github.io/tutorials/2016/05/19/text-classification-nltk-sckit-learn.html 
http://datasynce.org/2017/05/sentiment-analysis-on-python-through-textblob/ 
https://www.google.ca/?q=halifax&gws_rd=cr&dcr=0&ei=j7UyWuGKM47SjwOq-ojgCw 
http://www.google.ca/?q=halifax&gws_rd=cr&dcr=0&ei=j7UyWuGKM47SjwOq-ojgCw 
www.google.ca/?q=halifax&gws_rd=cr&dcr=0&ei=j7UyWuGKM47SjwOq-ojgCw 
ftp://ftp.ncbi.nlm.nih.gov/ 
ftp://ftp.ncbi.nlm.nih.gov/1000genomes/ftp/alignment_indices/20100804.alignment.index 
Some more text. 

$ sed -e 's/http[s]\?:\/\/\S*//g ; s/www\.\S*//g ; s/ftp:\S*//g' url_test_input.txt > a 

$ cat a 

Some text ... 










Some more text. 

$ perl -i -pe 's/^'`echo "\012"`'${2,}//g' a 

Some text ... 
Some more text. 

$

Fuente

2017-12-14 20:48:13

sed para eliminar las URL de un archivo

Respuesta

Cuestiones relacionadas