Para ejemplos generales de este existen Estas guías prácticas tos:
Para este ejemplo específico simplemente importar que
tmp = Import["http://en.wikipedia.org/wiki/Unemployment_by_country", "Data"]
limpieza para arriba es bastante sencillo con esta importación.La mesa es de 3 columnas para extraerlo del resto de las cosas:
tmp1 = Cases[tmp, {_, _?NumberQ, _}, \[Infinity]]
Va a suponer que desee eliminar las referencias de corchete (??):
tmp1[[All, 3]] = Flatten[If[StringQ[#],
StringCases[#, x__ ~~ Whitespace ~~ "[" ~~ __ :> x], #] & /@ tmp1[[All, 3]]]
Grid[tmp1, Frame -> All]
Nota También se puede añadir el header regreso si lo quieres en tu mesa, que es probable que sí
Grid[Join[{{"Country/Region", "Unemployment rate (%)",
"Source/date of information"}}, tmp1], Frame -> All]
puristas podrían oponerse al último paso, pero cuando se está raspando datos por lo general lo que desea es hacer el trabajo y cada el sitio es un prospecto caso por caso. Por lo tanto, un poco de inspección manual y flexibilidad le da el resultado general más rápido.
Editar
si quisiera las banderas también se puede obtener de CountryData
. Se necesita más limpieza, de lo contrario ocurrirán muchas fallas. La limpieza implica eliminar la referencia al "país soberano" entre paréntesis. p.ej. "Guam (Estados Unidos)" -> "Gaum".
tmp2 = Flatten[
If[StringMatchQ[#, __ ~~ "(" ~~ __],
StringCases[#,
z__ ~~ Shortest["(" ~~ __ ~~ ")" ~~ EndOfString] :>
[email protected]], StringTrim[#]] & /@ tmp1[[All, 1]]]
Esto sigue siendo enviado algunos datos que CountryData
no reconoce.
flags = CountryData[#, "Flag"] & /@ tmp2;
Cases[flags, _CountryData]
6 se pierde de 190. Eliminar los fallos de la salida:
flags = If[Head[#] === CountryData, {""}, {#}] & /@ flags; (*much faster than rule replacement*)
tmp2 = Join[flags, tmp1, 2];
Grid[tmp2, Frame -> All]
Tenga en cuenta que esto toma algún tiempo para representar.

Puede, evidentemente, el estilo de la Grid
según se desee utilizando Grid
opciones y también cambiar el tamaño de las imágenes si es necesario.
IMO, si está utilizando la versión 8, JSON es el camino a seguir. Hay montones de API en la naturaleza (normalmente lanzando XML o JSON a su manera). No recomendaría matar el tiempo extrayendo datos de desempleo de un Wiki. Encuentre la fuente principal de lo que le interesa y probablemente tenga una API. Si solo quieres ripear algo rápidamente, también puedes probar las celdas enlazadas en Excel --- entonces puedes importar a MMA. (Haga caso omiso de todo esto si solo quiere divertirse y aprender. En ese caso, ¡analícelo!): D – telefunkenvf14