Python para data science y big data esencial
Python está viviendo una segunda juventud como lenguaje de programación, ajustado codo con codo a una de las grandes necesidades de ésta década: el trabajo con grandes volúmenes de datos. En este curso, vas a aprender en primer lugar los fundamentos de Python para Data Science y visualización de datos, para posteriormente aplicarlos en el análisis de grandes volúmenes de datos usando el entorno Spark, una de las herramientas más populares del sector Big Data. El contenido del curso es práctico. Vamos a sentar las bases para que aprendas a desarrollar tu proyecto de datos, de principio a fin.
1. Introducción a Python para data science y big data
- Evaluación de las necesidades de big data
- Instalar Jupyter Notebook
- Instalar PySpark
- Evaluar la eficiencia del código
2. Gestión de datos en Python
- Introducción al Pandas
- Filtrar datos en Python
- Transformaciones de la base de datos
- Groupby: obtener información esencial
- Tratar datos duplicados y perdidos
- Introducción a la librería Numpy
3. Gestión de datos avanzada
- Correlaciones. Entender las relaciones entre las variables
- Test de la Chi-Cuadrado
- Análisis de datos extremos
- Principios de las bases de datos relacionales
- Transformar un dataframe en una base de datos relacional
- Joins. Trabajar con bases de datos relacionales
- Paralelizar loops en Python
4. Visualización de datos en Matplotlib
- Introducción al Matplotlib
- Modificar elementos del gráfico en Matplotlib
- Etiquetas y leyendas en Matplotlib
- Gráficos para series temporales en Matplotlib
- Histogramas y box plots en Matplotlib
- Nubes de puntos y mapas de calor en Matplotlib
- Introducción al Plotly. Visualización interactiva
- Gráficos avanzados con Plotly
- Visualización de Mapas con Plotly
5. Machine Learning esencial: Clustering
- Necesidades de Machine Learning: clustering y modelización
- Preparar los datos para Machine Learning
- K-Means, el algoritmo de clustering
- El algoritmo hierarchical clustering
6. Machine Learning esencial. Modelización
- Regresión lineal
- Regresión logística
- Naives Bayes Classifier
- Árboles de clasificación y regresión
- Random forest
- Support vector machine
- K-Nearest Neighbours
7. Trabajar con PySpark
- Introducción a PySpark
- Sintaxis en PySpark. Qué necesitamos saber
- Qué son los RDD (Resilient Distributed Databases)
- Funciones lambda
- Dataframes en PySpark
- Transformaciones básicas en PySpark
- Acciones básicas en PySpark
- Operaciones numéricas con RDD
8. PySpark avanzado
- Joins en PySpark
- Acumuladores. Cómo detectar patrones en nuestros datos
- Cómo construir funciones map
- Cómo construir funciones reduce
- Ejemplos básicos de MapReduce en PySpark
9. Desafío y solución: MapReduce
- Desafío: MapReduce aplicado con PySpark
- Resolución de los ejercicios de MapReduce
Capturas:
Datos técnicos:
USUARIOS PREMIUM
Descarga directa sin publicidad y cero acortadores
Uploaded, Uploadbin, File-Up, UptoBOX Katfile, Mega
¿Aun no tienes cuenta Premium? Clic Aquí
¿No sabes como descargar? Te dejamos un vídeo tutorial Clic Aquí