Día 1: Introducción a Pandas y Estructuras de Datos

Bienvenida
Hoy comenzamos nuestro viaje con Pandas , una biblioteca esencial para la manipulación y análisis de datos en Python. En este primer día, exploraremos qué es Pandas, sus estructuras principales (Series y DataFrames ) y cómo crearlas desde diferentes fuentes. Estos conceptos son fundamentales para preparar datos en proyectos de machine learning. ¡Vamos allá! 🏃🏻♂️
¿Qué es Pandas y por qué es útil?
Pandas es una biblioteca diseñada para el análisis y manipulación de datos estructurados. Es ampliamente utilizada en ciencia de datos y machine learning debido a su capacidad para manejar grandes volúmenes de datos de manera eficiente.
Instalación e Importación
Para instalar y importar Pandas, puedes usar la función import pandas as pd
.
pip install pandas
Luego, puedes importarlo en tu código:
import pandas as pd
Estructuras de Datos Principales
Series
Una estructura de datos unidimensional que representa una serie de valores con un etiquetado de índice.
serie = pd.Series([1, 2, 3])
Indices | Data |
---|---|
0 | 1 |
1 | 2 |
2 | 3 |
Ademas, puedes renombrar los índices de la serie:
serie = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
DataFrames
Una estructura de datos bidimensional que representa una tabla con filas y columnas.
data = {'A': [1, 2, 3], 'B': [4, 5, 6]}
A | B |
---|---|
1 | 4 |
2 | 5 |
3 | 6 |
Creación de DataFrames desde Archivos
Puedes crear un DataFrame a través de un archivo CSV o Excel. Para hacerlo, puedes usar la función read_csv()
, read_excel()
o read_json()
de Pandas.
# Desde CSV
df_csv = pd.read_csv('archivo.csv')
# Desde Excel
df_excel = pd.read_excel('archivo.xlsx')
# Desde JSON
df_json = pd.read_json('archivo.json')
Puedes explorar los otros métodos de lectura de archivos en la documentación oficial.
Atributos Básicos de los DataFrames
Columnas
Puedes acceder a las columnas de un DataFrame utilizando el atributo columns
:
print(df.columns)
Filas
Puedes acceder a las filas de un DataFrame utilizando el atributo index
:
print(df.index)
Valores
Puedes acceder a los valores de un DataFrame utilizando el atributo values
:
print(df.values)
Dimensiones
Puedes obtener el tamaño de un DataFrame utilizando el atributo shape
:
print(df.shape)
Tipos de Datos
Puedes obtener los tipos de datos de las columnas de un DataFrame utilizando el atributo dtypes
:
print(df.dtypes)
Información del DataFrame
Puedes obtener información sobre el DataFrame utilizando el atributo info
:
print(df.info())
Preguntas del Día 1
Prueba tus conocimientos sobre Pandas
¿Cuál es la diferencia entre una Serie y un DataFrame en Pandas?
¿Qué atributo se utiliza para conocer los tipos de datos de las columnas en un DataFrame?
Ejercicios con Pandas
- Crea una Serie a partir de una lista y un diccionario.
- Crea un DataFrame desde un diccionario y explora sus atributos básicos (.shape, .columns, .dtypes).
- Accede a las filas y columnas de un DataFrame.
¡Gran inicio! 🎉 Ahora tienes una base sólida para trabajar con Pandas. Mañana aprenderemos sobre indexación, selección y filtrado , habilidades clave para acceder a los datos que necesitas. ¡Sigue practicando y nos vemos pronto! 😊