Lección 6.1 : Groupby en Dataframe Pandas
Groupby en DataFrame Pandas
Introducción
En esta lección, Yuscu Mejía nos enseñará cómo utilizar el método groupby
en Pandas para agrupar datos en un DataFrame. Aprenderemos a agrupar datos por una o más columnas, aplicar funciones de agregación y explorar las capacidades avanzadas de groupby
para el análisis de datos.
Características
El método groupby
en Pandas ofrece las siguientes características:
- Permite agrupar datos por una o más columnas.
- Facilita la aplicación de funciones de agregación, como suma, promedio y conteo, a los grupos.
- Proporciona herramientas avanzadas para el análisis y manipulación de datos agrupados.
Ejemplos
A continuación, Yuscu Mejía nos muestra algunos ejemplos de cómo utilizar el método groupby
en Pandas:
- Agrupar un DataFrame por una columna y calcular la suma de otra columna.
- Agrupar un DataFrame por múltiples columnas y calcular el promedio de los grupos.
- Aplicar funciones de agregación personalizadas a los grupos.
# Importar pandas
import pandas as pd
# Crear DataFrame de ejemplo
data = {'Categoria': ['A', 'A', 'B', 'B', 'C', 'C'],
'Valor': [10, 20, 30, 40, 50, 60]}
df = pd.DataFrame(data)
# Agrupar por 'Categoria' y calcular la suma de 'Valor'
grupo_suma = df.groupby('Categoria')['Valor'].sum()
print("Suma de 'Valor' por 'Categoria':")
print(grupo_suma)
# Agrupar por 'Categoria' y calcular el promedio de 'Valor'
grupo_promedio = df.groupby('Categoria')['Valor'].mean()
print("\nPromedio de 'Valor' por 'Categoria':")
print(grupo_promedio)
# Agrupar por 'Categoria' y aplicar una función de agregación personalizada
grupo_personalizado = df.groupby('Categoria')['Valor'].agg(lambda x: x.max() - x.min())
print("\nRango de 'Valor' por 'Categoria':")
print(grupo_personalizado)
Práctica
Aprende a utilizar el método groupby
en Pandas siguiendo nuestro tutorial en video, presentado por Yuscu Mejía:
Ejercicio 1: Agrupar por Columna y Calcular Suma
Utiliza el método groupby
para agrupar un DataFrame por una columna y calcular la suma de otra columna.
- a) Crea un DataFrame de ejemplo y agrúpalo por una columna específica.
- b) Calcula la suma de los valores de otra columna para cada grupo.
Ejercicio 2: Agrupar por Múltiples Columnas y Calcular Promedio
Utiliza el método groupby
para agrupar un DataFrame por múltiples columnas y calcular el promedio de los valores.
- a) Crea un DataFrame de ejemplo y agrúpalo por múltiples columnas.
- b) Calcula el promedio de los valores de otra columna para cada grupo.
#Ejercicio 1
a) Agrupar por Columna y Calcular Suma
import pandas as pd
# Crear DataFrame de ejemplo
data = {'Categoria': ['A', 'A', 'B', 'B', 'C', 'C'],
'Valor': [10, 20, 30, 40, 50, 60]}
df = pd.DataFrame(data)
# Agrupar por 'Categoria' y calcular la suma de 'Valor'
grupo_suma = df.groupby('Categoria')['Valor'].sum()
print("Suma de 'Valor' por 'Categoria':")
print(grupo_suma)
#Ejercicio 2
a) Agrupar por Múltiples Columnas y Calcular Promedio
# Agrupar por 'Categoria' y calcular el promedio de 'Valor'
grupo_promedio = df.groupby('Categoria')['Valor'].mean()
print("\nPromedio de 'Valor' por 'Categoria':")
print(grupo_promedio)