From 728931945644b1536632bd7bf3717f3a68b40038 Mon Sep 17 00:00:00 2001 From: Sergey Matveev Date: Sun, 22 Mar 2020 21:29:40 +0300 Subject: [PATCH] =?utf8?q?=D0=97=D0=B0=D1=80=D0=B5=D0=BB=D0=B8=D0=B7=D0=B8?= =?utf8?q?=D0=BB=20sgodup=200.2.0?= MIME-Version: 1.0 Content-Type: text/plain; charset=utf8 Content-Transfer-Encoding: 8bit С момента релиза первой версии aa85cb4318d211ca16c9f273acdbefb1344f9f86: * поменьше ест и выделяет памяти во время работы (ведь хранение данных о полумиллиона файлов, например, требует осязаемых объёмов) * можно указать минимальный размер файлов для рассмотрения * появился двухпроходный режим: вместо того, чтобы менять ссылки на файлы прямо во время работы, можно в stdout посылать netstring-сериализованные "задачи" для дедупликации. А отдельным аргументом заставлять их читать из stdin и заниматься уже только перелинковкой. Это позволяет полностью разделить процесс где есть только чтение и процесс где только запись * можно натравливать -basedir и -dupdir на одну и ту же директорию. Раньше тоже можно было, но при этом чуть ли не гарантированно получить что foo ссылается на bar, который ссылается на baz, который на foo * убрал разделение на две очереди для больших и маленьких файлов. В коде оно не шибко много чего проще и короче делает и просто файлы будут закрываться не так рано как могли бы -- не велика проблема -- 2.48.1