Encontrar archivos duplicados

Los archivos duplicados ocupan espacio innecesario en el disco. Por suerte existen herramientas que automatizan la búsqueda de duplicados.
Fdupes
Instala fdupes:
julio@acer ~> sudo pacman -S fdupes
Ejecuta fdupes en modo recursivo (-r) y redirige la salida a un archivo:
julio@acer ~/Documentos/Ebooks> fdupes -r . > dupes1.txt
En mi equipo, ese comando tardó solo 7 min para analizar 23.500 archivos. El archivo de salida,
dupes1.txt, tenía 5714 líneas.
julio@acer ~/Documentos/Ebooks> fdupes -rf . > dupes2.txt
Tardó unos 7 min para analizar 23.500 archivos: dupes2.txt: 3878 líneas
Eliminando las líneas en blanco de dupes2.txt con sed -i '/^$/d' dupes2.txt, el archivo quedó
con 2054 líneas.
Muchos de los archivos reconocidos como duplicados eran idénticos a propósito. Ejemplos de libros de
programación a menudo se repiten. Algunos archivos de control de versiones (git, svn, etc.)
fueron reconocidos como repetidos, pero no deben eliminarse.
Si quieres reducir el espacio ocupado en disco evitando romper algo, puedes crear un script que reemplace todos los duplicados por hardlinks.
Borra todos los archivos duplicados (cuidado con este script):
julio@acer ~/Documentos/Ebooks> while read f; do rm "$f"; done < dupes2.txt
Gemini
Una buena alternativa de pago para Mac es Gemini, que lista todos los duplicados en una interfaz amigable y permite visualizarlos antes de enviarlos a la papelera.