Estoy trabajando en un proyecto de graduación para uno de mis cursos universitarios, y necesito encontrar algún lugar para ejecutar varios rastreadores que escribí en C#. Sin experiencia en alojamiento web, estoy un poco perdido. ¿Esto es algo que cualquier sitio permite? ¿Necesito un host especial que dé más acceso al servidor? El rastreador es una aplicación simple que hace su trabajo, luego escribe periódicamente información en una base de datos remota.¿Qué tipo de host web le permite ejecutar rastreadores en él?
Respuesta
Un rastreador web es una simulación de un usuario normal. Permite que los sitios como los navegadores lo hagan, obteniendo el código html (javascript, etc.) devuelto por el servidor (por lo que no hay acceso interno al código del servidor). Siendo eso, cualquier sitio puede ser rastreado.
Tenga en cuenta algunos web crawler ethics guidelines. Hay páginas que no debe indexar ni seguir sus enlaces. Y los desarrolladores web crean algunos archivos e instrucciones para los rastreadores web, diciendo lo que puede indexar o seguir.
Necesitará un VPS (servidor privado virtual) o un servidor dedicado completo. Los rastreadores no son más que aplicaciones que "rastrean" Internet. Si bien puede configurar un sitio web para que sea un rastreador, no es práctico porque tendría que acceder a la página web para que funcione el rastreador. Deberá leer los Términos de servicio (ToS) del host para ver cuáles son los términos de uso. Algunos de los servidores de precios más bajos cortarán su conexión con un motivo de "impacto negativo en la red" si intenta usar mucho ancho de banda aunque le hayan dado mucho que usar.
Los VPS cuestan alrededor de $ 30-80 para un servidor Linux y $ 60 + para un servidor Windows. Los servicios dedicados ejecutan $ 100 + para ambos servidores Linux y Windows.
No necesita ningún alojamiento web para ejecutar su araña. Solo solicite una PC con conexión web que pueda funcionar como un servidor dedicado, configure la base de datos y ejecute el rastreador desde allí.
Esto no parece tener nada que ver con web hosting. Solo necesita una máquina con conexión a Internet y un servidor de base de datos.
Me gustaría consultar con su universidad si fuera usted. Al menos en mi época, se podía organizar mucho internamente cuando se trataba de proyectos de graduación.
En caso de que eso suceda, podría buscar en una cuenta simple de VPS (Virtual Private Server). A menos que esté seguro de que su aplicación se ejecuta bajo Mono, necesitará una de Windows. Los límites de recursos suelen ser mucho más bajos de lo que obtendría de un servidor dedicado, pero son relativamente asequibles. Algunos ofrecerán una base de datos de MS SQL Server que puede usar junto a la cuenta de VPS (en otra máquina). La instalación de SQL Server en el propio VPS puede ser una licencia problemática.
Asegúrese de verificar los términos de uso antes de abrir una cuenta, así como las especificaciones del sistema (virtual). También verifique si hay algún tipo de período de contrato mínimo. A veces, esto puede durar más de un mes, especialmente si no hay una tarifa de configuración.
Si es posible, busque un host que se encuentre geográficamente cerca de usted. Un servidor del otro lado del mundo puede ser un poco molesto para acceder remotamente a través de Escritorio remoto.
Si no puede ejecutarlo fuera de su escritorio por alguna razón, necesitará un host que le permita ejecutar código C# arbitrario. La mayoría de los servidores web baratos no hacen esto debido a las posibles implicaciones de seguridad, ya que habrá varias otras personas corriendo en el mismo servidor.
Esto significa que deberá estar en un servidor donde tenga su propio sistema operativo.Ya sea un VPS - Servidor Virtual Privado, donde la virtualización se usa para darle su propio sistema operativo, pero comparte el hardware - o su propio servidor dedicado, donde tiene el hardware y el software para usted.
Tenga en cuenta que si está ejecutando en un servidor que se comparte de alguna manera, tendrá que asegurarse de estrangularse para no causar problemas a sus vecinos; su problema principal no será usar demasiada CPU o ancho de banda. Esto no es solo por cortesía: la mayoría de los servidores web suspenderán su hosting si está causando problemas en su red, como negar a los otros usuarios del hardware que está usando recursos, consumiéndolos todos ustedes. Por lo general, puedes reventar niveles de uso más altos, pero te cortarán si los mantienes durante un período de tiempo significativo.
80legs le permite usar sus rastreadores para procesar millones de páginas web con su propio programa.
Las tasas son:
- $ 2,00 por millón de páginas
- $ 0,03 por CPU horas
Afirman que arrastrarse 2 mil millones de páginas web al día.
- 1. Detección de rastreadores web "ocultos"
- 2. ¿Hay una lista de rastreadores web conocidos?
- 3. ¿Cómo ejecutar un script PHP continuamente en el host web?
- 4. cómo rastrean los rastreadores web javascript
- 5. Agregar un genérico le permite anular un método con un tipo de devolución diferente?
- 6. Protección del contenido del sitio web de los rastreadores
- 7. ¿Puedo bloquear los rastreadores de búsqueda para cada sitio en un servidor web Apache?
- 8. ¿Por qué JavaScript no le permite llamar directamente a los métodos de números?
- 9. HTML5 le permite interactuar con archivos de clientes locales desde un navegador
- 10. ¿Se le permite tener una entrada sin un valor?
- 11. Scala restricciones de tipo no permite nulos
- 12. Eclipse no permite ejecutar mi aplicación
- 13. ¿Por qué Web.py no me permite ejecutar un servidor en el puerto 80?
- 14. ¿Algún navegador web permite escribir en stdout?
- 15. ¿Cómo se permite a los rastreadores acceder a index.php únicamente, utilizando robots.txt?
- 16. ¿Por qué una clase base en C# permite implementar un contrato de interfaz sin heredar de él?
- 17. google analytics - varios rastreadores en una página (conflicto de cookies)
- 18. ¿Qué rastreadores usb (software) están disponibles para Windows?
- 19. Proteger las direcciones de correo electrónico de los robots de spam/rastreadores web
- 20. ¿Su cliente de correo electrónico le permite agregar encabezados personalizados programáticamente?
- 21. ¿Puedo crear un objeto del mismo tipo que él?
- 22. ¿Por qué TypeSynonymInstances no permite utilizar sinónimos de tipo aplicado parcialmente en los cabezales de instancia?
- 23. ¿Se le permite usar números como nombres de tabla en MySQL?
- 24. ¿Se permite el tipo de retorno booleano en C?
- 25. Ejecutar el comando Shell sobre MySql en el host remoto
- 26. ¿Por qué le gustaría poner un índice en una vista?
- 27. ¿Por qué no se permite la transición en un cambio de tipo?
- 28. ¿qué significa "CLR20r3"? (¿Qué versión del clr es él?)
- 29. Despliegue del marco de trabajo en el host web
- 30. ¿Qué le pasó a Maven Polyglot?
¿No puede simplemente ejecutarlo en su computadora de escritorio/portátil o en el servidor de la universidad? –