Machine learning y data science con scikit learn y pyspark
1. Machine learning y data
science en python con
scikit-learn y pyspark
José Manuel Ortega
2. Machine learning y data science con scikit-learn y pyspark
https://www.udemy.com/machine-learning-y-data-science-con-scikit-learn-y-pyspark
Aprende las principales técnicas de machine learning y
ciencia de datos para aplicarlas en proyectos con python
3.
4.
5.
6.
7. Introducción a la ciencia de datos y machine learning
● Definición de ciencia de datos
● Definición de machine learning
● Introducción al aprendizaje automático
● Tipos de aprendizaje automático
● Aprendizaje supervisado vs no supervisado
● Problema del sobreentrenamiento
● Pasos para construir un modelo de machine learning
8.
9. Librerías para tratamiento de datos con python
● Librerías de Python para machine learning:Numpy, SciPy,
Pandas
● Instalación anaconda + jupyter notebook
● Conjunto de datasets
● Introducción a pandas
● Librerías de visualización de datos con python
● Ejemplos prácticos tratamiento de datos con pandas
● Ejemplos prácticos visualización de datos
● Otras librerías de machine learning con python
10.
11. Scikit-learn como librería de machine learning
● Introducción a scikit-learn
● Instalación y módulos
● LinearRegression como algoritmo de regresión lineal
● LogisticRegression como algoritmo de regresión logística
● DecissionTreeClassifier y RandomForestClassifier como
algoritmos de árboles de decisión
● SVM como algoritmo de máquinas de vectores de soporte
12. Scikit-learn como librería de machine learning
● Implementación del algoritmo SVM en scikit-learn
● KNeighborsClassifier como algoritmo de clasificación
supervisada vecinos más cercanos
● Implementación de KNeighborsClassifier en scikit-learn
● Clustering y aprendizaje no supervisado
● K-means como algoritmo de clustering
● Implementación de K-means en scikit-learn
● Ejemplo con Iris / Titanic Dataset
13.
14.
15.
16.
17.
18. Pyspark como librería de big data y data science
● Introducción a Apache Spark
● Módulos de Apache Spark
● Spark para Científicos de Datos
● Instalación de Apache Spark
● Instalar y ejecutar Pyspark con docker
● Introducción a Pyspark
● Consola interactiva en pyspark
● SparkContext y esqueleto de una aplicación con pyspark
19. Pyspark como librería de big data y data science
● Datasets y RDD con pyspark
● Crear un RDD en python con pyspark
● Operaciones sobre un RDD
● Transformaciones sobre un RDD
● SparkSubmit para la ejecución de scripts python
● Map-reduce con pyspark
● Contador de palabras con pyspark
● Palabras más frecuentes de un texto con pyspark
● Lectura ficheros csv,json con pyspark
20. Pyspark como librería de big data y data science
● Trabajando con Spark SQL y dataframes
● MLlib como módulo de machine learning con pyspark
● Clustering con pyspark.Algoritmo Kmeans
● Ejemplo clasificación Spam con mLlib
21.
22.
23.
24. Sistemas de recomendación basados en contenido
● Definir sistema de recomendación
● Tipos de sistemas de recomendación
● Filtros basados en contenido (Content-Based Filtering)
● Filtros colaborativos (Collaborative Filtering)