Ce document présente Spark SQL, une composante clé de la plateforme Apache Spark pour le traitement de données structurées et semi-structurées, en détaillant son architecture, ses API, et ses fonctionnalités. Il met en avant l'utilisation de Catalyst Optimizer pour optimiser les requêtes et introduit les objets tels que DataFrames et Datasets, ainsi que leurs opérations associées. L'étude aborde également la création, le chargement et la persistance des données dans divers formats.