Le document présente des méthodes pour la captation de données sur le web, en expliquant le rôle des web crawlers et des ressources nécessaires. Il décrit également la nature ouverte, hétérogène et dynamique du web ainsi que les normes et recommandations pour le traitement des données. Enfin, il mentionne des techniques spécifiques pour le téléchargement et l'extraction d'informations sur le web.