Nous avons mis à jour notre politique de confidentialité. Cliquez ici pour consulter les détails. Cliquez ici pour consulter les détails.
Activez votre essai gratuit de 30 jours pour accéder à une lecture illimitée
Activez votre essai gratuit de 30 jours pour continuer votre lecture.
Télécharger pour lire hors ligne
No matter if your data pipelines are handling real-time event-driven streams, near-real-time streams, or batch processing jobs. When you work with a massive amount of data made out of small files, specifically parquet, your system performance will degrade.
A small file is one that is significantly smaller than the storage block size. Yes, even with object stores such as Amazon S3, Azure Blob, etc., there is minimum block size. Having a significantly smaller object file can result in wasted space on the disk since the storage is optimized to support fast read and write for minimal block size.
To understand why this happens, you need first to understand how cloud storage works with the Apache Spark engine. In this session, you will learn about Parquet, the Storage API calls, how they work together, why small files are a problem, and how you can leverage DeltaLake for a more straightforward, cleaner solution.
No matter if your data pipelines are handling real-time event-driven streams, near-real-time streams, or batch processing jobs. When you work with a massive amount of data made out of small files, specifically parquet, your system performance will degrade.
A small file is one that is significantly smaller than the storage block size. Yes, even with object stores such as Amazon S3, Azure Blob, etc., there is minimum block size. Having a significantly smaller object file can result in wasted space on the disk since the storage is optimized to support fast read and write for minimal block size.
To understand why this happens, you need first to understand how cloud storage works with the Apache Spark engine. In this session, you will learn about Parquet, the Storage API calls, how they work together, why small files are a problem, and how you can leverage DeltaLake for a more straightforward, cleaner solution.
Il semblerait que vous ayez déjà ajouté cette diapositive à .
Vous avez clippé votre première diapositive !
En clippant ainsi les diapos qui vous intéressent, vous pourrez les revoir plus tard. Personnalisez le nom d’un clipboard pour mettre de côté vos diapositives.La famille SlideShare vient de s'agrandir. Profitez de l'accès à des millions de livres numériques, livres audio, magazines et bien plus encore sur Scribd.
Annulez à tout moment.Lecture illimitée
Apprenez plus vite et de façon plus astucieuse avec les meilleurs spécialistes
Téléchargements illimités
Téléchargez et portez vos connaissances avec vous hors ligne et en déplacement
Vous bénéficiez également d'un accés gratuit à Scribd!
Accès instantané à des millions de livres numériques, de livres audio, de magazines, de podcasts, et bien plus encore.
Lisez et écoutez hors ligne depuis n'importe quel appareil.
Accès gratuit à des services premium tels que TuneIn, Mubi, et bien plus encore.
Nous avons mis à jour notre politique de confidentialité pour nous conformer à l'évolution des réglementations mondiales en matière de confidentialité et pour vous informer de la manière dont nous utilisons vos données de façon limitée.
Vous pouvez consulter les détails ci-dessous. En cliquant sur Accepter, vous acceptez la politique de confidentialité mise à jour.
Merci!