Python para data science y big data esencial

Python está viviendo una segunda juventud como lenguaje de programación, ajustado codo con codo a una de las grandes necesidades de ésta década: el trabajo con grandes volúmenes de datos. En este curso, vas a aprender en primer lugar los fundamentos de Python para Data Science y visualización de datos, para posteriormente aplicarlos en el análisis de grandes volúmenes de datos usando el entorno Spark, una de las herramientas más populares del sector Big Data. El contenido del curso es práctico. Vamos a sentar las bases para que aprendas a desarrollar tu proyecto de datos, de principio a fin.

1. Introducción a Python para data science y big data

  • Evaluación de las necesidades de big data
  • Instalar Jupyter Notebook
  • Instalar PySpark
  • Evaluar la eficiencia del código

 

2. Gestión de datos en Python

  • Introducción al Pandas
  • Filtrar datos en Python
  • Transformaciones de la base de datos
  • Groupby: obtener información esencial
  • Tratar datos duplicados y perdidos
  • Introducción a la librería Numpy
  •  

 

3. Gestión de datos avanzada

  • Correlaciones. Entender las relaciones entre las variables
  • Test de la Chi-Cuadrado
  • Análisis de datos extremos
  • Principios de las bases de datos relacionales
  • Transformar un dataframe en una base de datos relacional
  • Joins. Trabajar con bases de datos relacionales
  • Paralelizar loops en Python

 

4. Visualización de datos en Matplotlib

  • Introducción al Matplotlib
  • Modificar elementos del gráfico en Matplotlib
  • Etiquetas y leyendas en Matplotlib
  • Gráficos para series temporales en Matplotlib
  • Histogramas y box plots en Matplotlib
  • Nubes de puntos y mapas de calor en Matplotlib
  • Introducción al Plotly. Visualización interactiva
  • Gráficos avanzados con Plotly
  • Visualización de Mapas con Plotly

 

5. Machine Learning esencial: Clustering

  • Necesidades de Machine Learning: clustering y modelización
  • Preparar los datos para Machine Learning
  • K-Means, el algoritmo de clustering
  • El algoritmo hierarchical clustering

 

6. Machine Learning esencial. Modelización

  • Regresión lineal
  • Regresión logística
  • Naives Bayes Classifier
  • Árboles de clasificación y regresión
  • Random forest
  • Support vector machine
  • K-Nearest Neighbours

 

7. Trabajar con PySpark

  • Introducción a PySpark
  • Sintaxis en PySpark. Qué necesitamos saber
  • Qué son los RDD (Resilient Distributed Databases)
  • Funciones lambda
  • Dataframes en PySpark
  • Transformaciones básicas en PySpark
  • Acciones básicas en PySpark
  • Operaciones numéricas con RDD

 

8. PySpark avanzado

  • Joins en PySpark
  • Acumuladores. Cómo detectar patrones en nuestros datos
  • Cómo construir funciones map
  • Cómo construir funciones reduce
  • Ejemplos básicos de MapReduce en PySpark

 

9. Desafío y solución: MapReduce

  • Desafío: MapReduce aplicado con PySpark
  • Resolución de los ejercicios de MapReduce

Capturas:

 Curso-Python-para-data-science-y-big-data-esencialCurso-Python-para-data-science-y-big-data-esencialCurso-Python-para-data-science-y-big-data-esencialCurso-Python-para-data-science-y-big-data-esencial

 

Datos técnicos:

  • Formato: .MP4
  • Resolución: 1280x720p
  • Tamaño: 717 MB
  • Idioma: Español
  • Formadores: Joan Gasull Jolis
  • Contenido: 39 Videos
  • Duración: 4 h 45 min 4 seg
  • Nivel de la aptitud: Principiante + Intermedio
  • Archivos Base: NO Incluye
  • Fecha de publicación: 4 de Octubre de 2018
  • Empresa: Linkedin / Video2Brain

 

Link de descarga:

Uploaded, File-Up, Katfile, Mega

DESCARGAR

 

Contraseña / Password:
www.descargasnrq.com

 

¿No sabes como descargar? Te dejamos un vídeo tutorial  Clic Aquí

4 Comentarios

Dejar respuesta

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí