JoySave v26
Предлагаю всем заинтересованным скачивалку картинок.
Умеет качать целый список разных тегов, для каждого группирует картинки в папки по некоторому количеству страниц этого тега на реакторе, умеет само паковать в CBZ (по сути - в ZIP, только переименованный).
Описание есть в самой проге. Там по-русски. Но опишу немного и тут.На вкладке Main таблица заполняется ссылками для сохранения. Копируем адрес в строке адреса браузера, вставляем в клетку URL. Например, переходим в раздел "Котэ". Получится https://joyreactor.cc/tag/котэ. Хотим больше котиков? Переключаем на "Бездну" и копируем. Получается https://joyreactor.cc/tag/котэ/all. Вобщем, понятно. Но если копируете не на последней странице, то в адресе будет номер страницы, например https://joyreactor.cc/tag/котэ/best/2698. Вот его не надо. Номер подставляться будет автоматически, так что номер и последний "/" сотрите.
В столбцах Begin и End вводим номера страниц с какого по какое сохранять. Столбец Folder - это название папки, куда будет сохраняться картинки. Т.е. если введем "SuperCat", то будет сохраняться в папке Pic/SuperCat. Если оставить пустым, то будет имя папки будет номер из столбца No.
Если пустое хоть одно из полей [URL, Begin, End], то строка пропускается. Это удобно, чтоб держать записи на будущее. Например, скачали котиков до страницы 200. Очистим поле Begin, и у нас сохранен адрес и последняя скачанная страница. Когда накопятся новые картинки, то в поле Begin поставим те же 200, а в End уже, например, 250.
Имеет смысл закрыть прогу после заполнения таблицы, чтоб сохранила всё. А то вдруг глюканет и вылетит без сохранения!
Крутилки на главной странице без надобности не трогайте, они сами меняются.
Больше описаний в самой проге на вкладке Help. Не буду копировать сюда весь текст - его много. Только настроек немного еще опишу.
Cookies нужны чтоб качать картинки из-под своего аккаунта (например, чтоб качать избранное, или секретные разделы). Куки можно взять из расширений браузера. Например, для Хрома - Cookie Editor. Достаточно только joyreactor_sess3=значение_этого_поля.
Далее крутилка Timer. Это сколько миллисекунд минимум задержки между запросами (получением постов, скачиванием картинок и прочее). Не ставь мало - заблокируют.
Pages in folder - сколько страниц группируется в подпапку. На мой вкус 50 - оптимально. Больше за раз посмотреть напряжно.
К сожалению, под Linux почему-то не работает HTTP-прокси. SOCKS работает. Прога не многопоточная, потому часто "задумывается", особенно на тяжелых картинках и при упаковке в CBZ. И вообще, это то еще глюкалово, написанное по-быстрому на коленке.
Пишите замечания, ругательства, пожелания.
Подробнее
JoySave 0.26 ^ _ □ X * Main Settings Help Start URL https://blizzard.reactor.cc Stop Path /tag/Starcraft File https://blizzard.reactor.cc/post/1812 ▲ 0 -w Begin 1 ’W End 150 ’W Page ▲ 2 ’W No URL Begin End Folder 00 https://blizzard.reactor.cc/tag/Starcn 1 150 star_craft 01 https://joyreactor.ee/tag/KOT3/best 1 100 cat 02 https://joyreactor.cc/tag/geek 50 geek 03 https://joyreactor.cc/tag/Mrpbi/all 200 500 games 04 05 https://joyreactor.cc/tag/art/new 1 200 art 06 07 Run Tot: 62 Post: 0 Img: 1/15
JoySave 0.26 ^ _ □ X Main Settings Help Cookies joyreactor_sess3=ver3123213213213213213213213213123213123213213123123123; Timer: 300 ^ Pages in folder 50 ^ Proxy host Proxy port Proxy • None IRIhttp Proxy user Proxy pass SOCKS4 SOCKS5 V Pack to CBZ <✓ Del folder after Pack Stop Tot: 94 Post: 0 Img: 18/30
joyreactor,парсер,реактор скачать,JoySave
По итогу может возникнуть ситуация, когда один и тот же файл будет находиться в системе хранения в 4ёх экземплярах - в директории автора арта, в директории персонажа, в директории больших сисек и в директории милф, например. В результате в никуда расходуется во-первых дисковое пространство, а во-вторых самой оболочке приходится обрабатывать больше файлов, и это бьёт по быстродействию.
Я себе потихоньку пишу что-то вроде файлового менеджера, который фасует контент по категориям в зависимости от тегов, которые исчерпывающе описывают единицу контента, и которые при этом хранятся в названии файла, а сами файлы все тусуются в одной и той же директории на диске. Собственно, поэтому и интересуюсь данным вопросом.
Сохранение по папкам это конечно хорошо, но я уже сейчас могу загрузить все фото из какого-нибудь длиннопоста через KellyC нажатием одной кнопки, после чего весь блок картинок переименовать в соответствии с логикой хранилища и тегов, прогнав через свой код на питоне, поэтому сохранение папками для меня не очень востребовано. А вот возможность по одной кнопке сохранить любую пикчу, сохранив её теговое описание, составленное живыми людьми и которым я мог бы в дальнейшем воспользоваться, было бы очень круто.
1)отстучалась обратно в джой по имени картинки
2) перескачала эту картинку со всеми тэгами
3)удалила ранее скачанную с неполными тэгами.
З.ы.: и новую губозакаточную машинку, а то текущая стёрлась
Я свой архив время от времени прочесываю этой утилитой: https://schinagl.priv.at/nt/dupemerge/dupemerge.html
Позволяет разбивать архив пикч по папкам-тегам, но не забивать место на винте дублями.
Хардлинки тем и хороши, что им не нужна какая-то отдельная папка с оригиналами. Это не ярлыки.
Та утилита, ссылку на которую я приводил выше, при сканировании вычисляет хэши по которым потом и сравнивает файлы, поэтому дополнительно держать их где-то в отдельном месте не требуется и имена у файлов могут быть изначально любыми.
Да, это дает лишний трафик при сохранении дублей и временная потеря места на винте в промежутке между операциями по дедупликации, но после следующего прогона архива dupemerge дубли заменяются на хардлинки и все становится красиво.
Ну и я скачиваю картинки в основном через imgbrd-grabber - тот как раз ведет базу данных хэшей и при сохранении уже имеющегося в архиве изображения сразу создает хардлинк. Поэтому дедупликацию я провожу раз в несколько месяцев и то больше для самоуспокоения.
По поводу отличий от парсера от KellyC - их не мало. В моем можешь заранее сделать список на сотню тегов, еще качаешь не полностью весь тег, а только указанные страницы. Еще выкачиваются картинки из комментов к тегам, так как там часто пихают "продолжения" (правда, и мусора там много). Плюс разбиение на подпапки по страницам и автоматическая их упаковка. И еще прокси. И куки :-)
*Щя чекнул другой качалкой, думаю а чо это там у меня файлов меньше получилось... гляжу а тут вытянуло по 23 кб картинки в 10 шакалов из 10. А там стоить ограничение, потому он такие мелочевки пропускает.
Ну я фотошоп а не программист) Но мне кажется это не слишком сложно.
Такой зубр как ты должен смоч ;)
П.С.
Спс за прогу.
TL;DR моего путешествия по поиску "чозанахъ?" в то время: крякнутая IDE вшивала какую-то херню в исполняемые фыйлы. Пересобрав на другой IDE с другим кряком было уже норм.
после запуска появляются файлы
Pic
list.csv
libeay32.dll
ssleay32.dll
программа запускается, данные вводятся нормально,
страницы успешно не спеша переключаются, видимость работы есть
а результата - те скачанного нет совсем
Как я понимаю ты студент или только решил вкатываться в программирование? Если интересно, напиши в ЛС, помогу с ревью кода и дам направляющие, как улучшить качество твоих приложений.
А про номерованные подпапки - поставь в "Pages in folder" огромное число, 2 лярда даже можно :-) Тогда создаться только подпапка "0", и всё туда будет складываться :-)
Опцию "не качать из комментов" уже сделал - скоро выложу новую версию :-)
Буду признателен за помощь)
Вот прямые ссылки:
Windows: https://github.com/corax4/JoySave/releases/download/v26.0.0/JoySave.zip
Linux: https://github.com/corax4/JoySave/releases/download/v26.0.0/JoySave.tar.gz
Если кому надо, могу собрать и для Linux x86, можно и не на GTK2, а на QT5. Но пока не вижу в этом потребности. Можно еще и Windows x64, но и та что есть - будет работать на х64, так что тоже смысла не вижу. Вот только МакОси у меня нет чтоб под нее попытаться собрать.
Просто непонятно, где сами картинки по тегу, а где комменты, путиница получается)
как с джойлоудером
Слегка скомкано но тем не менее напишу.
Смотри какая ерунда. Качаю по одному тегу. Поставил 1-100 закачало, папки насоздавало как надо. Потом поставил 100-110 (условно) и снова начинает с папки "0" и т.д. (** это еще перепроверю т.к. мб у меня там имя папки поменялось) Было бы очень круто сделать какой-то выключатель типа "продолжать нумерацию".. или как-то так. Что б проверялись имена подпапок в целевом каталоге и в случае если "папка не пустая" продолжалась нумерация со следующего номера.
Или (ваще кру) что б под тегом был собственный счетчик созданных каталогов и скачанных страниц. И когда добавляешь страницы что б он сверялся с этим счетчиком и или "докачивал" 50 (или сколько поставил пихать в 1 папку) страниц в последний созданный каталог (если не менялся общий путь сохранения (хотя это можно и пропустить)) и потом создавал следующую папку.
П.С.
Я если что-то начинаю парсить то не включаю сразу все страницы ибо то свет рубанули то инет отпал то качалка крашнулась..
+ Когда считывает адреса картинок из постов (в поле адреса адрес поста) то прога фризит слегонца. Типа захотел окошко передвинуть или свернуть/развернуть а она так с задержкой двигается. При этом в общем по система загрузка ЦП от проги подскакивает с 0,2-0,5% до 1,7% (примерно)
Это я перебдел. Сорян.
Зато нашел другой косяк.
Если начал качать. Потом нажал СТОП и дописал еще страниц (было 80-100 поставил 80-110) потом нажимаешь СТАРТ - и прога качает всё равно по старому до 100-й и останавливается, типа отработала. надо снова запускать закачку.
Я понимаю это сделано для того что б она помнила где качала. Но она же постранично посты считывает а не сразу весь диапазон. Думаю это можно добавить (но автору виднее).