Aunque MediaWiki tiene una API (api.php
), puede ser que sea más fácil para sus propósitos de usar sólo el parámetro action=raw
a index.php
si sólo desea recuperar el código fuente de una revisión (no envuelto en XML, JSON, etc. , a diferencia de la API).
Por ejemplo, esta es la palabra en bruto de la página días para el 14 de noviembre:
http://en.wiktionary.org/w/index.php?title=Wiktionary:Word_of_the_day/November_14&action=raw
Lo lamentable es que el formato de las páginas wiki se centra en la presentación (para el lector humano) y no en semántica (para la máquina), por lo que no debería sorprenderse que no haya un comando API "obtener definición de palabras". En su lugar, su secuencia de comandos tendrá que dar sentido a las numerosas plantillas de formato de texto que los editores de Wiktionary han creado y utilizado, así como a la compleja sintaxis de formato de presentación, incluidos encabezados, listas desordenadas y otras. Por ejemplo, aquí está el código fuente de la página "desbordamiento":
http://en.wiktionary.org/w/index.php?title=overflow&action=raw
Hay es una opción "generar árbol de análisis sintáctico XML" en la API, pero no se rompe mucho del de presentación formato en XML. Sólo hay que ver por sí mismo:
http://en.wiktionary.org/w/api.php?action=query&titles=overflow&prop=revisions&rvprop=content&rvgeneratexml=&format=jsonfm
En caso de que se preguntan si existe un programa de análisis de páginas MediaWiki-formato que no sea MediaWiki, no, no lo hay. Al menos, no hay nada escrito en JavaScript que se mantenga actualmente (consulte list of alternative parsers, y consulte los sitios web de los dos enumerados). Y aun así, admitir la mayoría de las plantillas comunes será un gran desafío. Buena suerte.
Creo que el contenido del cuadro "Palabra del día" en la página de inicio se edita manualmente para mantenerlo breve. Al abrir la palabra artículo, verá más significados para esa palabra. –
ver también http://stackoverflow.com/questions/3364279/has-anyone-parsed-wiktionary – pfctdayelise