Hereigo Я чесно кажучи і сам сумніваюся у підході вручну обробляти подібні об’єми, до того ж тут є питання стосовно самого формату збереження: можливо потрібно зберігати й копію оригінального HTML (що втрачає актуальність з новими версіями браузера і потребує окремої підтримки) адже авторський дизайн є теж частиною унікального контенту. Тут краще щоб автори самі завчасно подбали про стійку платформу для контенту.
Повертаючись до того що вже маємо, вчора я таки спробував створити репозиторій для одного з сайтів офлайн, портувавши тільки український його розділ у формат MD, при цьому перевіривши результат тільки поверхнево:
https://codeberg.org/uarchive/yakim.org.ua
і можу сказати, що це робота на мільйон, можливо для якогось інституту культури, де студенти могли б виконувати подібну роботу в оплачений державою час.
Сьогодні створив ще звичайний клон активного проєкту на GitHub, з метою децентралізації:
https://codeberg.org/uarchive/exception.net.ua
Власне, тестую дану концепцію в рамках тимчасової спільноти на Codeberg, куди можна додавати редакторів. Це прототип, подібний проєкт може бути забанений провайдером Git, тому його краще тримати на українському хостингу на базі якогось Gitea, можливо навіть в локальних / підпільних мережах.
Також не здивуюсь, якщо автори повернуться і замість “дякую” отримаю наїзд в плані використання копірайтів. Звісно це малоймовірно, бо я сподіваюсь що мої наміри тут очевидні, але не виключаю іншого сценарію.
Думки поки такі, ще в мене є ідея організувати певний розділ архівів на Толоці по типу групи “Хранителі”. Формат торентів тут зійде для різних статичних файлів, по типу книг у форматі PDF. Звичайний контент же краще хешувати саме засобами CSV, через можливість командної роботи, правок та збереження історії змін.
Робота з контентом - це лише мала частина, тут ще є питання системного адміністрування, децентралізації / стійкості до потенційних форс-мажорів з адмінами. У цьому плані Git доволі зручний, через свою децентралізовану природу. А сирий формат Markdown - дозволяє легко редагувати та генерувати контент в актуальному на час читання форматі, бо HTML це все таки програма, а Md - адаптивний формат текстової бази.
Стосовно Вікіпедії, то хто працював з нею мабуть знає, що модерується вона доволі вузьким колом модераторів і часто містить дезінформацію. Сьогодні одні правила - завтра інші. Хоча в якомусь сенсі я також думав відновити свою роботу там, бо ті сервіси де я пишу сьогодні, ризикують поповнити собою Веб-архів швидше за інфо-гіганта.