Teoría
Lo que me gustaría hacer es crear un pequeño programa que puede enviar automáticamente los datos del formulario a cualquier lugar y volver con los resultados. Esto es fácil de hacer en Java con HTTPUnit. La tarea es la siguiente:
- Conéctese al servidor web.
- Analizar la página.
- Obtenga el primer formulario en la página.
- Rellene los datos del formulario.
- Envíe el formulario.
- Lea (y analice) los resultados.
La solución que elija dependerá de una variedad de factores, incluyendo:
- Ya sea que necesite para emular JavaScript
- Lo que hay que hacer con los datos después
- qué idiomas con cuál es competente
- Velocidad de la aplicación (¿es esto para una consulta o 100,000?)
- ¿Qué tan pronto la aplicación debe estar trabajando
- ¿Es una sola o tendrá que ser mantenida?
Por ejemplo, usted podría tratar de las siguientes aplicaciones para enviar los datos para usted:
Entonces grep (awk o sed) la (s) página (s) web resultante (s).
Otro truco cuando raspa la pantalla es descargar un archivo HTML de muestra y analizarlo manualmente en vi (o VIM). Guarde las pulsaciones de teclas en un archivo y luego, cada vez que ejecute la consulta, aplique esas teclas a la (s) página (s) web resultante (s) para extraer los datos. Esta solución no es fácil de mantener, ni es 100% confiable (pero rara vez lo es rastrear la pantalla de un sitio web). Funciona y es rápido.
Ejemplo
Una clase Java semi-genérica para enviar formularios de la web (que trata específicamente con el registro en un sitio web) está por debajo, con la esperanza de que podría ser útil. No lo uses para el mal
import java.io.FileInputStream;
import java.util.Enumeration;
import java.util.Hashtable;
import java.util.Properties;
import com.meterware.httpunit.GetMethodWebRequest;
import com.meterware.httpunit.SubmitButton;
import com.meterware.httpunit.WebClient;
import com.meterware.httpunit.WebConversation;
import com.meterware.httpunit.WebForm;
import com.meterware.httpunit.WebLink;
import com.meterware.httpunit.WebRequest;
import com.meterware.httpunit.WebResponse;
public class FormElements extends Properties
{
private static final String FORM_URL = "form.url";
private static final String FORM_ACTION = "form.action";
/** These are properly provided property parameters. */
private static final String FORM_PARAM = "form.param.";
/** These are property parameters that are required; must have values. */
private static final String FORM_REQUIRED = "form.required.";
private Hashtable fields = new Hashtable(10);
private WebConversation webConversation;
public FormElements()
{
}
/**
* Retrieves the HTML page, populates the form data, then sends the
* information to the server.
*/
public void run()
throws Exception
{
WebResponse response = receive();
WebForm form = getWebForm(response);
populate(form);
form.submit();
}
protected WebResponse receive()
throws Exception
{
WebConversation webConversation = getWebConversation();
GetMethodWebRequest request = getGetMethodWebRequest();
// Fake the User-Agent so the site thinks that encryption is supported.
//
request.setHeaderField("User-Agent",
"Mozilla/5.0 (X11; U; Linux i686; en-US; rv\\:1.7.3) Gecko/20040913");
return webConversation.getResponse(request);
}
protected void populate(WebForm form)
throws Exception
{
// First set all the .param variables.
//
setParamVariables(form);
// Next, set the required variables.
//
setRequiredVariables(form);
}
protected void setParamVariables(WebForm form)
throws Exception
{
for(Enumeration e = propertyNames(); e.hasMoreElements();)
{
String property = (String)(e.nextElement());
if(property.startsWith(FORM_PARAM))
{
String fieldName = getProperty(property);
String propertyName = property.substring(FORM_PARAM.length());
String fieldValue = getField(propertyName);
// Skip blank fields (most likely, this is a blank last name, which
// means the form wants a full name).
//
if("".equals(fieldName))
continue;
// If this is the first name, and the last name parameter is blank,
// then append the last name field to the first name field.
//
if("first_name".equals(propertyName) &&
"".equals(getProperty(FORM_PARAM + "last_name")))
fieldValue += " " + getField("last_name");
showSet(fieldName, fieldValue);
form.setParameter(fieldName, fieldValue);
}
}
}
protected void setRequiredVariables(WebForm form)
throws Exception
{
for(Enumeration e = propertyNames(); e.hasMoreElements();)
{
String property = (String)(e.nextElement());
if(property.startsWith(FORM_REQUIRED))
{
String fieldValue = getProperty(property);
String fieldName = property.substring(FORM_REQUIRED.length());
// If the field starts with a ~, then copy the field.
//
if(fieldValue.startsWith("~"))
{
String copyProp = fieldValue.substring(1, fieldValue.length());
copyProp = getProperty(copyProp);
// Since the parameters have been copied into the form, we can
// eke out the duplicate values.
//
fieldValue = form.getParameterValue(copyProp);
}
showSet(fieldName, fieldValue);
form.setParameter(fieldName, fieldValue);
}
}
}
private void showSet(String fieldName, String fieldValue)
{
System.out.print("<p class='setting'>");
System.out.print(fieldName);
System.out.print(" = ");
System.out.print(fieldValue);
System.out.println("</p>");
}
private WebForm getWebForm(WebResponse response)
throws Exception
{
WebForm[] forms = response.getForms();
String action = getProperty(FORM_ACTION);
// Not supposed to break out of a for-loop, but it makes the code easy ...
//
for(int i = forms.length - 1; i >= 0; i--)
if(forms[ i ].getAction().equalsIgnoreCase(action))
return forms[ i ];
// Sadly, no form was found.
//
throw new Exception();
}
private GetMethodWebRequest getGetMethodWebRequest()
{
return new GetMethodWebRequest(getProperty(FORM_URL));
}
private WebConversation getWebConversation()
{
if(this.webConversation == null)
this.webConversation = new WebConversation();
return this.webConversation;
}
public void setField(String field, String value)
{
Hashtable fields = getFields();
fields.put(field, value);
}
private String getField(String field)
{
Hashtable<String, String> fields = getFields();
String result = fields.get(field);
return result == null ? "" : result;
}
private Hashtable getFields()
{
return this.fields;
}
public static void main(String args[])
throws Exception
{
FormElements formElements = new FormElements();
formElements.setField("first_name", args[1]);
formElements.setField("last_name", args[2]);
formElements.setField("email", args[3]);
formElements.setField("comments", args[4]);
FileInputStream fis = new FileInputStream(args[0]);
formElements.load(fis);
fis.close();
formElements.run();
}
}
un archivos de propiedades de ejemplo se vería así:
$ cat com.mellon.properties
form.url=https://www.mellon.com/contact/index.cfm
form.action=index.cfm
form.param.first_name=name
form.param.last_name=
form.param.email=emailhome
form.param.comments=comments
# Submit Button
#form.submit=submit
# Required Fields
#
form.required.to=zzwebmaster
form.required.phone=555-555-1212
form.required.besttime=5 to 7pm
Run es similar al siguiente (sustituya la ruta a HttpUnit y la clase FormElements por $ CLASSPATH):
java -cp $CLASSPATH FormElements com.mellon.properties "John" "Doe" "[email protected]" "To whom it may concern ..."
Legalidad
Otro answe mencionó que podría violar los términos de uso. Compruébalo primero, antes de dedicar algún tiempo a buscar una solución técnica. Extremadamente buen consejo.
Wow, gracias por esto. Hora de leerlo: D – kgrad
De nada; estaba sentado recogiendo polvo digital. –