Stane se vám, že chcete smazat zálohu složky, ale co čert nechtěl, nejste si jisti, zda se v ní přeci jen omylem nenachází nějaký zapomenutý originál. Synchronizér složek nelze použít, soubory se válí porůzně rozesetý – jeden skončil v složce backup, druhý ve složce archiv a kdo ví, co všechno je v šestigigové složce lze_smazat. Máte dvě možnosti. První, kterou zvolí většina lidí, je nechat zálohu navždy válet na disku. Druhá je použít program na odstranění duplikátů. Jedním z takových je deduplidog. Co umí a čím se liší od dalších deduplikačních softwarů? Pojďme se podívat, jak vypadá.
Bezpečná složka originálů
Nastavíme --original-dir jako bezpečné místo našich originálů, vůči kterým porovnáváme a s kterými se nic nesmí stát, a jako akci zvolíme --rename, přejmenování. Program proleze nejprve originály, nacachuje si je a porovnává s nimi jeden soubor za druhým v pracovní složce (té, která je podezřelá na výskyt duplikátů).
deduplidog --work-dir folder1 --original-dir folder2 --rename
V každém okamžiku program vypisuje, co se děje. Zde hlásí, že se hledají soubory s totožným jménem, datem a velikostí, ale nekontrolují se vadné sektory na disku.
Co s nalezenými soubory? Máme na výběr soubory buď odstranit, nahradit symlinkem, nebo přejmenovat. Ale i pokud jednu z akcí zvolíme, ve výchozím nastavení se nestane nic. Spustí se jen běh na prázdno. Až kdybychom zde k --rename připsali přepínač --execute, duplikované soubory by se přejmenovaly – před jejich jméno by se doplnil znak fajfky, aby bylo jasné, že tyto soubory byly označeny za duplikáty.
A žádný strach, případný již dříve existující soubor s fajfkou by přepsán nebyl, smyslem přejmenovávání je, aby nedošlo ke ztrátě dat, ani datové struktury. Duplikáty pak snadno naleznete příkazem find . -name "✓*".
Ještě bezpečnější možností je --inspect, kde program pouze vypíše seznam příkazů na řešení duplikací. Ty můžete po uvážení spustit sami.
V GUI okně jsme informováni, podle čeho se hledá – opět se jedná o rychlé hledání bez kontrolních součtů crc32.
Přepínač –inspect nám na obrazovku či do souboru vypsal všechny akce, které si můžeme pustit sami, abychom měli změny plně pod kontrolou. Zde je dog1.jpg jediný podezřelý soubor ze šesti možných a jeho přejmenováním, to je ten řádek s příkazem mv -n ..., ušetříme 42 kB.
Vyhledávání obrázků
Silnou stránkou programu je prohledávání podobných médií – obrázků a videí. Pomůže v situaci, kdy jste obrázky zmenšili (nebo stáhli z webu) a nyní si chcete nechat pouze originály v původní kvalitě. Slouží pro to přepínač --media-magic, který způsobí, že se nehledí k velikostem ani datům souboru – vždyť zmenšený obrázek má (skoro) vždy menší velikost. A pokud se změnil jeho formát z avif na jpg, nemůžeme spoléhat ani na jméno, proto se nezohledňuje ani přípona. Program každému obrázku se spočítá hash hodnotu, přes kterou odhaduje podobnost obsahu s jinými soubory.
V následujícím případě připojíme --accepted-img-hash-diff, aby práh podobnosti byl tolerantnější. A pojďme dat ještě parametr --ignore-name, díky čemuž program odhlédne i od jmen souborů. Porovná tak každý s každým, takže odhalí stejný obrázek v souborech jiných názvů, dog2_smaller.jpg a dog2.jpg.
deduplidog --media-magic --accepted-img-hash-diff 3 --ignore-name --replace-with-symlink
Nesrovnalosti
Jak vidíte, program po spuštění nezačne zběsile promazávat váš disk, nalezené změny vám podává jednu po druhé. K tomu slouží přepínač --confirm-one-by-one, který je ve výchozím nastavení zapnutý. Máte tak čas si rozmyslet, zda před sebou máte opravdový duplikát, nebo falešný nález. Program navíc aktivně hledá nesrovnalosti, jež byste mohli ocenit. Pokud je velikost údajného duplikátu větší nebo má starší časové razítko, vyvolá se varování a místo tlačítka Yes na potvrzení změny se vám nabídne No, aby nedošlo k mylnému zásahu.
Časová tolerance
Vyvoláte-li nápovědu pomocí --help, program na vás zaňafá několika zajímavými vlastnostmi. Jednou z nich je přepínač --tolerate-hour. Při přesouvání mezi souborovými systémy a letním časem se v praxi často stane, že soubory skončí posunuty o hodinu. Díky deduplidogu stále porovnáváte soubory, které mají (např.) stejné jméno a čas, ale ten čas už se může o hodinku dvě lišit.
Různá rozhraní
Protože využívá mininterface, běží jak z příkazové řádky, tak v terminálu, tak i v grafickém rozhraní. Předvyplňování v terminálu lze nainstalovat prostým deduplidog --integrate-to-system.
Jestli ještě nemáte svůj oblíbený deduplikátor, dejte šanci našemu pejskovi.
Projekt nema licenci tudiz jde o proprietarni software. Nesahat pouze koukat :-)
Dobrý den, díky za upozornění, v balíčkovači při instalaci normálně byla, teď jsem ji doplnil i pro lepší zobrazení na githubu.
libi se mi porovnavani obrazku…
je mozne podobnym stylem pridat featuru pro porovnani audia?