DuckDB

🦆 ¿Qué es DuckDB y por qué está revolucionando el análisis de datos desde Python?

Si trabajás con datos en archivos CSV, Parquet o bases de datos y te frustrás por tener que moverlos a una base de datos tradicional o esperar minutos para que Pandas termine de agrupar… 💡 te conviene conocer DuckDB.

🔍 ¿Qué es DuckDB?

Es un motor de base de datos SQL embebido (como SQLite), pero optimizado para consultas analíticas (OLAP).

Se ejecuta en el mismo proceso que tu programa, no requiere instalación de servidores ni configuraciones complicadas.

🐍 ¿Cómo se usa desde Python?

Muy simple:

import duckdb
import pandas as pd

df = pd.read_csv("ventas.csv")

# Consultas SQL directamente sobre DataFrames
resultado = duckdb.query("SELECT categoria, SUM(monto) FROM df GROUP BY categoria").to_df()
print(resultado)

También podés leer archivos Parquet o CSV directamente sin cargarlos con Pandas:

duckdb.query("SELECT * FROM 'datos.parquet' WHERE fecha > '2024-01-01'").to_df()

✅ ¿Qué resuelve DuckDB?

🚀 Velocidad: Procesa grandes volúmenes de datos más rápido que Pandas en muchas operaciones.
🔌 Integración sin fricción con Python, Pandas y archivos locales.
📁 No requiere servidores ni conexiones remotas para usar SQL.
🧠 Ideal para notebooks, ETL, prototipos y análisis exploratorio.

🎯 ¿Cuándo usarlo?

Si tenés datasets grandes y Pandas se queda corto.
Si querés usar SQL directamente sobre tus archivos o DataFrames.
Si trabajás en notebooks y querés hacer queries potentes sin levantar una base de datos externa.

🔗 Bonus: DuckDB también se integra con Polars, Arrow y otras herramientas modernas.

Más información en el link 👇

An in-process SQL OLAP database management system

DuckDB is an in-process SQL OLAP database management system. Simple, feature-rich, fast & open source.

duckdb.org ↗

También publicado en LinkedIn.

Autor

Juan Pedro Bretti Mandarano