Воспользовавшись избытком свободного времени и неисправимой привычкой лепить велосипеды, решил реализовать удобный, хотя бы для себя, способ выкачивания годноты с реактора. Плюс иметь возможность спасти то, что возможно уже завтра будет потерто копирастами или другими "обеспокоенными".
Я видел несколько схожих решений и они либо не уже поддерживаются, либо являются подключаемыми библиотеками. Какие-то generic решения я не искал (см. пункт про велосипеды).
Что это?
Это CLI crawler, для выкачивания изображений (включая фул), gif, mp4, webm из страницы, которую вы укажите и сохранит все куда скажете. Если crawler найдет на странице пагинацию, то он попытается выкачать каждую страницу. Хотя вы можете указать так не делать.
Ссылка на проект на github.
Как начать?
Скачайте билд и запустите его из командной строки (для windows тоже). Windows может ругаться потому как это хрен пойми чей билд. Мак может ругаться потому что не может проверить поставщика. Линуксу насрать. Выполните .\reactor-crw_0.0.1_Windows_64bit.exe --help (либо ознакомьтесь с доступными флагами на странице github).
Пример запуска на windows:
Краткий FAQ
О:Если качаете NSFW, то не забудьте указать флагом свои куки (посмотреть куки можно в браузере).
О: Насколько шустро все отработает. Укажите слишком большое значение и реактор вас накажет. Для тега в ~4500 изображений я ставил 3.
О:Текущая версия далека от идеала. Если поделитесь деталями ошибки - буду весьма признателен.
О:Можно. Если кто-то умеет в UI, то я только за.
Подробнее
парсер,сделал сам,нарисовал сам, сфоткал сам, написал сам, придумал сам, перевел сам,песочница,reactor-crw
просматривается в браузере, и есть возможность выкачивания (видео -инструкция https://disk.yandex.ru/d/E8TGuQoWOHW2yg )
https://chrome.google.com/webstore/detail/kellyc-image-downloader/mbhkdmjolnhcppnkldbdfaomeabjiofm
совместим с AutoPagerize https://chrome.google.com/webstore/detail/autopagerize/igiofjhpmpihnifddepnpngfjhkfenbp
и отдельно рекомендую еще поставить редирект с всяких непонятных поддоменнов на богоподобный old.reactor.cc - https://greasyfork.org/users/675552
раньше я вручную подгружал все страницы AutoPagerize и с помощью wget уже загружал по прямому линку изображения, но поскольку ркн и авторскому не отображалось, то эти пикчи скипались.
если затестишь этот cli и он нормально работает, то отпиши. тоже попробую, но пока что радиоволны для меня лучший вариант))
а под остальные сайты - pixiv, twitter; использую gallery-dl
Приехала моя кобылка
Т.к. ради новых картинок, не хотелось бы докачивать еще раз все что там есть.
напиши еще куда тебе донат кинуть
Нужное значение кук можно увидеть например в консоли браузера (f12 для включения). Загрузите страницу с включенной консолью и во вкладке сеть одним из запросов будет joyreactor.cc. Кликнув по этому полю, будут показаны параметры запроса/ответа. Вкладка "заголовки", "заголовки запроса".
или некоторые юзают Get cookies.txt, тк сразу сохраняет в текстовой файл
Можно ли ускорить процесс подсчета и скачивания?
sudo tcpdump -vvAls0 | grep 'Cookie'
( из браузера мне их в виде строчки получить не удавалось )