В процессе подготовки к переносу Архивача на новый диск и расширению хранилища, мы с шокирующим удивлением обнаружили, что потеряли доступ к 3/4 (75%) нашего собственного хранилища медиаконтента (картинки и видео). Цифра 3/4 происходит из того, что медиаконтент был распределён по 4 жёстким дискам в равных долях, и незатронутым остался только 1 из 4 дисков. Наверное, это всё же лучше, чем потерять вообще всё...
Человеческий фактор + незапрошенное вмешательство программного обеспечения.
Мы изначально используем полнодисковое шифрование всех данных, что гарантирует безопасность от тов. майоров на случай, если они доберутся до сервера, но усложняет восстановление данных в случае нештатных ситуаций. То есть, все данные на каждом диске хранятся внутри одного большого шифрованного контейнера (LUKS), каждый контейнер имеет служебный заголовок, в котором хранятся ключи для шифрования/дешифрования самих данных. В процессе работы одной из программ (то ли отвечающей за разметку диска, то ли управления LVM томами) произошло негласное затирание начальных секторов существующих шифрованных томов другими данными, что сделало тома полностью нечитаемыми. Как выяснилось в дальнейшем, бэкапов заголовков шифрованных томов, которые могли бы решить неожиданную проблему с минимальными затратами, у нас тоже не оказалось (вот уж роковая небрежность). Таким образом, содержимое 3 дисков (а это десятки терабайт данных) стало полностью недоступным и не подлежит восстановлению.
Ежедневный бэкап производился только для программной составляющей Архивача и текстов сохранённых тредов, поскольку в сумме это занимает лишь несколько гигабайт. Полноценно бэкапить хранилище медиаконтента объёмом в десятки терабайт мы бы тоже хотели, но, к сожалению, для этого то не хватало материальных ресурсов, то мотивации улучшать то, что как-то работает. Вся работа по администрированию держится на плечах одного единственного человека, но в последние годы проект работал скорее в режиме автопилота, нежели как-то развивался. Стоит отметить, что интерес пользователей к какой-либо поддержке ресурса или хотя бы сохранению всех архивированных данных крайне невелик, никакие редкие донаты и реклама не покрывают всех сопутствующих затрат, и если бы не личный энтузиазм администрации, то всё могло бы закончиться гораздо раньше.
Несмотря на все невзгоды, Архивач продолжает работу с уцелевшими данными. По мере возможностей мы будем пытаться восстановить недостающие файлы из различных сторонних источников, однако нужно учитывать, что потеряно около 26 миллионов файлов, некоторые из которых были уникальными в масштабе всего Интернета.
Хоть какие-то хорошие новости заключаются в том, что мы точно знаем, какие именно файлы нам нужны — каждый когда-то сохранённый файл идентифицировался по MD5 хэшу от его содержимого, эта информация остаётся в нашей базе данных. Если вычислить хэши для какого-либо набора файлов, то мы узнаем, какие из них нам пригодятся для восстановления.
Наши планы по восстановлению утраченного контента: