Encontrar archivos duplicados

sept. 10, 2012·
Julio Batista Silva
Julio Batista Silva
· 1 min de lectura

Los archivos duplicados ocupan espacio innecesario en el disco. Por suerte existen herramientas que automatizan la búsqueda de duplicados.

Fdupes

Instala fdupes:

julio@acer ~> sudo pacman -S fdupes

Ejecuta fdupes en modo recursivo (-r) y redirige la salida a un archivo:

julio@acer ~/Documentos/Ebooks> fdupes -r . > dupes1.txt

En mi equipo, ese comando tardó solo 7 min para analizar 23.500 archivos. El archivo de salida, dupes1.txt, tenía 5714 líneas.

julio@acer ~/Documentos/Ebooks> fdupes -rf . > dupes2.txt

Tardó unos 7 min para analizar 23.500 archivos: dupes2.txt: 3878 líneas

Eliminando las líneas en blanco de dupes2.txt con sed -i '/^$/d' dupes2.txt, el archivo quedó con 2054 líneas.

Muchos de los archivos reconocidos como duplicados eran idénticos a propósito. Ejemplos de libros de programación a menudo se repiten. Algunos archivos de control de versiones (git, svn, etc.) fueron reconocidos como repetidos, pero no deben eliminarse.

Si quieres reducir el espacio ocupado en disco evitando romper algo, puedes crear un script que reemplace todos los duplicados por hardlinks.

Borra todos los archivos duplicados (cuidado con este script):

julio@acer ~/Documentos/Ebooks> while read f; do rm "$f"; done < dupes2.txt

Gemini

Una buena alternativa de pago para Mac es Gemini, que lista todos los duplicados en una interfaz amigable y permite visualizarlos antes de enviarlos a la papelera.

Julio Batista Silva
Autores
Senior Cloud Developer
comments powered by Disqus