Estoy planteando esta pregunta en busca de consejos prácticos sobre cómo diseñar un sistema.¿Cuáles son las mejores prácticas para recopilar, mantener y garantizar la precisión de un gran conjunto de datos?
Sitios como amazon.com y pandora tienen y mantienen grandes conjuntos de datos para ejecutar su negocio principal. Por ejemplo, Amazon (y cualquier otro sitio importante de comercio electrónico) tiene a la venta millones de productos, imágenes de esos productos, precios, especificaciones, etc. etc.
Ignorando los datos provenientes de vendedores de terceros y el usuario generó contenido que todo ese "material" tenía que venir de alguna parte y lo mantiene alguien. También es increíblemente detallado y preciso. ¿Cómo? ¿Cómo lo hicieron? ¿Existe solo un ejército de empleados que ingresan datos o han ideado sistemas para manejar el trabajo pesado?
Mi empresa se encuentra en una situación similar. Mantenemos un catálogo enorme (10 de millones de registros) de piezas de automóviles y los automóviles que caben. Hemos estado en esto por un tiempo y hemos creado una serie de programas y procesos para mantener nuestro catálogo en crecimiento y preciso; sin embargo, parece que el catálogo crece a x elementos que necesitamos para hacer crecer el equipo a y.
Necesito encontrar algunas maneras de aumentar la eficiencia del equipo de datos y espero poder aprender del trabajo de otros. Cualquier sugerencia es apreciada, más bien serían enlaces a contenido que podría pasar algún tiempo leyendo.
gracias, lo estoy viendo ahora. –