Programación web

18 febrero, 2022

Eliminar filas con un campo duplicado en csv con awk

Hoy vamos a ver como eliminar filas con un campo duplicado en csv con awk.

Si trabajas con grandes volúmenes de datos se puede dar fácilmente situación de que necesites eliminar todas las filas (menos la primera) de un csv en las que coincida solamente el valor de una de las celdas de las columnas.

Esto se puede hacer con awk desde linux o mac

El comando es el siguiente:

awk -F, '!seen[$1]++' csv_origen.csv > csv_destino.csv

Con esto se generará un csv de destino en los que se han eliminado todas las filas con el valor de la columna 1 duplicado (mantendrá solamente una fila con ese valor).

Si es el valor de otra columna simplemente cambia $1 por el valor que sea:

Campo en columna 2:

awk -F, ‘!seen[$2]++’ csv_origen.csv > csv_destino.csv

Campo en columna 3:

awk -F, ‘!seen[$3]++’ csv_origen.csv > csv_destino.csv

Y así sucesivamente.

Related articles

Web Scraping

Las Mejores Herramientas de Web Scraping Sin Código: Extrae Datos como un Pro (sin saber programar)

Programación web, Herramientas

/

6 junio, 2025

priorización en HTTP/2

En qué consiste la priorización en HTTP/2

Programación web

/

25 marzo, 2024

Qué es el DOM

¿Qué es el DOM y cómo reducir los DOM de gran tamaño?

Programación web

/

23 marzo, 2024

preconnect

Rel=»preconnect» para SEO: Mejorando la velocidad de carga y el rendimiento del sitio web

Programación web, SEO

/

22 marzo, 2024

preconnect

Rel=»preconnect» con Google Tag Manager y Google Captcha

Programación web, SEO

/

1 marzo, 2024

Cross-Origin Resource Sharing (CORS) y el atributo crossorigin

Programación web

/

1 febrero, 2024

grafana

Descubre Grafana: una guía completa para principiantes y expertos

Servidores, Programación web

/

27 abril, 2023

php

Comparativa entre FastCGI, FPM Apache, FPM Nginx y otras formas de ejecutar aplicaciones PHP

Programación web

/

17 abril, 2023

TypeScript vs JavaScript

TypeScript vs JavaScript: ¿cuáles son las diferencias?

Programación web, Comparativas y empresas

/

13 diciembre, 2022

Unknown collation: ‘utf8mb4_unicode_ci’ . — SOLUCIÓN

Servidores, Programación web

/

7 febrero, 2020

Variables Globales Prestashop

Variables globales en Prestashop 1.7

Diseño, Programación web

/

31 enero, 2020

error log

Error «is_dir(): open_basedir restriction in effect…» SOLUCIONADO

Programación web, Wordpress

/

19 marzo, 2019