Resultados del benchmark entre Pandas, Polars y DuckDB

🚀 Benchmark de librerías para análisis de datos en Python
#

Comparé el rendimiento de Pandas 3.0, Polars y DuckDB procesando tablas grandes (5 millones de filas) y pequeñas. El objetivo: medir tiempo de ejecución y uso de RAM en operaciones típicas de análisis de datos.

📊 Resultados destacados
#

⚡ Polars fue la más rápida en casi todas las operaciones.
🧠 Pandas sigue siendo la más simple de usar y muy competitiva.
🐤 DuckDB brilla en consultas tipo SQL, pero mostró mayor consumo de memoria en transformaciones complejas cuando se le pide que escriba tablas. Pero mientras se utiliza el formato Arrow, es es más rápido.

🧩 Explicación en pocas palabras
#

Pandas → La librería clásica de Python para análisis de datos. Fácil, conocida, pero no la más rápida. Fácil escritura, lectura y debug.
Polars → Una alternativa moderna escrita en Rust. Muy rápida y eficiente en memoria. La lectura de CSV, los groupbys y los joins suelen obtener las mayores mejoras.
DuckDB → Un motor SQL embebido que permite trabajar con datos como si fueran tablas de base de datos. Útil cuando SQL resulta más claro que encadenar operaciones de DataFrames.

Si recién empezás, Pandas es el camino más amigable. Si buscás velocidad pura, Polars sorprende. Si buscas la máxima velocidad, ve con DuckDB.

Más información en el link 👇

GitHub - juanbretti/table_performance: Este test, compara las tres librerías analizando su tiempo de ejecución y consumo máximo de memoria RAM.

Este test, compara las tres librerías analizando su tiempo de ejecución y consumo máximo de memoria RAM. - juanbretti/table_performance

github.com ↗

Otros tests para considerar
#

DuckDB vs. Polars vs. Pandas: Benchmark & Comparison

DuckDB, Polars, and Pandas compared: Performance, memory, and scalability for large datasets. Benchmarks and practical insights.

www.codecentric.de ↗

GitHub - nanocubeai/nanocube: Lightning fast OLAP-style point queries on Pandas DataFrames.

Lightning fast OLAP-style point queries on Pandas DataFrames. - nanocubeai/nanocube

github.com ↗

Más en la siguiente referencia externa.

También publicado en LinkedIn.

Autor

Juan Pedro Bretti Mandarano

🚀 Benchmark de librerías para análisis de datos en Python#

📊 Resultados destacados#

🧩 Explicación en pocas palabras#