Оптимизируйте rsync, когда большие файлы перемещаются на исходном сервере.

Question 1

Предположим, у меня есть большое дерево директорий с большими файлами на диске A. Я делаю резервную копию этого дерева с помощью rsync -a --delete /A /B. Все хорошо. Между резервными копиями добавляются некоторые файлы, некоторые переименовываются, в общем, всё как обычно.

Интересно то, что A регулярно реорганизуется: файлы перемещаются (переименовываются, меняются директории или оба варианта). Поэтому rsync в конечном итоге удаляет файлы на B, чтобы снова скопировать их с A, и с большими файлами через сеть это занимает вечность.

Существует ли какой-нибудь параметр rsync, который я мог бы использовать? Я перечитал список параметров и не смог ничего найти, что могло бы подойти, что-то связанное с --size-only мне было бы вполне приемлемо (малый риск коллизий).

Я думаю, что решение, скорее всего, заключается в том, чтобы использовать сценарий, который проверяет размер файла + контрольную сумму и перемещает файлы на B перед запуском rsync, но это тоже не так просто. Есть идеи?

Question 2

Существует два основных подхода:

параметр --fuzzy, вместе с --compare-dest для указания дополнительных директорий для поиска эталонных файлов.
директория, полная жестких ссылок на большие файлы, которая передается первой и инициирует обнаружение жестких ссылок.

Первый подход не требует изменений в дереве файлов, которое вы передаете, но требует от вас составления списка директорий, из которых файлы обычно копируются, я не уверен, насколько хорошо алгоритм будет работать, если у вас длинный список эталонных директорий.

Более надежный подход требует специальной директории, которая передается первой и содержит жесткие ссылки на все файлы, которые стоит оптимизировать. Я бы сделал что-то вроде

find files -type f -size +2G | (while read f; do ln -f "$f" _links/`sha256sum "$f" | cut -d\  -f1`; done)

а затем передал _links перед files — вот так.

Ни один из этих вариантов не является особенно хорошим.

Question 3

Когда файлы перемещаются в пределах одной и той же файловой системы, они обычно сохраняют тот же номер инода. Вы можете, таким образом, создать список пар инода и имени файла на диске A сразу после резервной копии, а затем сформировать новый список перед новой резервной копией. Сравнив два списка, вы можете создать список команд перемещения, сопоставив иноды, где имена файлов различаются. Примените этот список перемещений к диску B перед выполнением резервного копирования. Вам, конечно, может понадобиться сначала создать новые директории. Вот объясняющий сценарий:

#!/bin/bash
list(){
  find A -type f -printf "%i %P\n" | # инод и путь не включая A
  sort
}

list >after
#... несколько дней спустя, перед резервной копией:
list >before
join -j 1 -o 1.2 2.2 after before | # один и тот же инод, старое и новое имя файла
awk '{if($1!=$2)printf "mv %s %s\n",$1,$2}' >cmds
(cd A; find . -type d -print0) |
(cd B; xargs -0 mkdir -p )
(cd B; sh -x ) <cmds
# теперь делаем резервную копию, и в конце:
mv before after

Это явно только для простых случаев. Он не обрабатывает директории или имена файлов с пробелами и специальными символами, и оставляет старые имена директорий. Возможно, его можно применить только к аккуратно названным огромным файлам (find ... -size +10M ...).

Оптимизируйте rsync, когда большие файлы перемещаются на исходном сервере.

Вопрос или проблема

Ответ или решение

Оптимизация rsync при перемещении крупных файлов

1. Использование параметров rsync

2. Использование жёстких ссылок

3. Сравнение инодов для определения перемещённых файлов

Заключение