Что это?Это CLI crawler, для выкачивания изображений (включая фул), gif, mp4, webm из страницы, кото / reactor-crw :: сделал сам (нарисовал сам, сфоткал сам, написал сам, придумал сам, перевел сам) :: парсер

Воспользовавшись избытком свободного времени и неисправимой привычкой лепить велосипеды, решил реализовать удобный, хотя бы для себя, способ выкачивания годноты с реактора. Плюс иметь возможность спасти то, что возможно уже завтра будет потерто копирастами или другими "обеспокоенными".

парсер,сделал сам,нарисовал сам, сфоткал сам, написал сам, придумал сам, перевел сам,песочница,reactor-crw

Я видел несколько схожих решений и они либо не уже поддерживаются, либо являются подключаемыми библиотеками. Какие-то generic решения я не искал (см. пункт про велосипеды).

Что это?

Это CLI crawler, для выкачивания изображений (включая фул), gif, mp4, webm из страницы, которую вы укажите и сохранит все куда скажете. Если crawler найдет на странице пагинацию, то он попытается выкачать каждую страницу. Хотя вы можете указать так не делать.

Ссылка на проект на github.

Как начать?

Скачайте билд и запустите его из командной строки (для windows тоже). Windows может ругаться потому как это хрен пойми чей билд. Мак может ругаться потому что не может проверить поставщика. Линуксу насрать. Выполните .\reactor-crw_0.0.1_Windows_64bit.exe --help (либо ознакомьтесь с доступными флагами на странице github).

Пример запуска на windows:

ссылка на гифку парсер,сделал сам,нарисовал сам, сфоткал сам, написал сам, придумал сам, перевел сам,песочница,reactor-crw

Краткий FAQ

В:Какие страницы можно передавать?

О:Любые. Передайте ссылку на тег и будет выкачан весь контент по нему. Или ссылку на закладки. Если передать ссылку на конкретный пост, не забудьте указать флаг -o (--single-page).

В:Почему некоторые изображения не скачались?
О:Если качаете NSFW, то не забудьте указать флагом свои куки (посмотреть куки можно в браузере).

В:Что делает флаг -w (--workers)?
О: Насколько шустро все отработает. Укажите слишком большое значение и реактор вас накажет. Для тега в ~4500 изображений я ставил 3.

В:Ничего не работает/не качает. Какая-то ошибка и все.
О:Текущая версия далека от идеала. Если поделитесь деталями ошибки - буду весьма признателен.

В:Можно ли человеческий UI для всего этого?
О:Можно. Если кто-то умеет в UI, то я только за.

Если остались вопросы, постараюсь ответить в комментариях.

Подробнее

парсер,сделал сам,нарисовал сам, сфоткал сам, написал сам, придумал сам, перевел сам,песочница,reactor-crw

Еще на тему

сделал сам(39539)

песочница(701832)

Развернуть

Комментарии 6917.10.202123:46ссылка82.1

Занятная вещица. А все, что я отложил в избранное оно сможет скачать?

Legolazz 18.10.202100:11 ответить ссылка -1.1

Так точно. -p "http://joyreactor.cc/user/ник/favorite". Но не забудьте указать куки -с.

avpretty 18.10.202100:53 ответить ссылка ↑ 1.6

Порождение винтов больших обьемов...

Resetnik 18.10.202109:58 ответить ссылка ↑ 0.0

Он работает на контенте скрытом "заблочено по запросу правопидорасов"? Или он скачивает только то что и сам можешь увидеть?

agri 18.10.202100:13 ответить ссылка 1.3

А разве оно скрытое, а не удалённое?

SanLucifer 18.10.202100:41 ответить ссылка ↑ -0.3

Id поста есть? есть? значит пост на месте

BlinkRaven 18.10.202100:47 ответить ссылка ↑ 1.5

Если инет тупит, то иногда может погрузится сам контент. А уже потом веселый экран. И так же иногда вылезает от побочных тегов. И через KellyC открывается. крч все муторно.

Violence 18.10.202104:09 ответить ссылка ↑ 1.0

По сути, только то что "сам видишь". Т.е. то что все видят плюс то что видно через твой акк, если используешь куки флагом -с.

avpretty 18.10.202100:56 ответить ссылка ↑ 0.3

Через апи можно вытащить потертые копирастами, цензурой изображения.

ivdos 18.10.202101:39 ответить ссылка ↑ 0.3

Или через m.joyreactor.cc

Демократизатор 18.10.202101:40 ответить ссылка ↑ 0.2

В будущем думал добавить краулер и для апи, но пока просто html.

avpretty 18.10.202101:54 ответить ссылка ↑ 0.4

Стоп, стоп, стоп.. у джойчика есть апишечка?? О_О

PsyNoise 18.10.202104:55 ответить ссылка ↑ 1.1

https://api.joyreactor.cc/graphql-playground

avpretty 18.10.202105:00 ответить ссылка ↑ 1.4

Включите torghost && сделайте запрос через онион реактора.

FEAR2k 18.10.202106:46 ответить ссылка ↑ 0.0

KellyC Image Downloader работает на заблокированном по авторскому, по роскомпозорному; + позволяет писать комментарии/читать
просматривается в браузере, и есть возможность выкачивания (видео -инструкция https://disk.yandex.ru/d/E8TGuQoWOHW2yg )
https://chrome.google.com/webstore/detail/kellyc-image-downloader/mbhkdmjolnhcppnkldbdfaomeabjiofm
совместим с AutoPagerize https://chrome.google.com/webstore/detail/autopagerize/igiofjhpmpihnifddepnpngfjhkfenbp
и отдельно рекомендую еще поставить редирект с всяких непонятных поддоменнов на богоподобный old.reactor.cc - https://greasyfork.org/users/675552

TLD228 23.10.202102:31 ответить ссылка ↑ 0.4

творение радиоволны с недавних пор очень плохо работает если более 100 страниц нужно для загрузки, надеюсь хоть тут нормально.

SWaad 23.10.202113:45 ответить ссылка ↑ 0.0

я не скачиваю по 100 страниц, ну т.е это смешно мало и обычно никогда с таким количеством проблем не возникало. даже проблем с выкачиванием 3911 страниц нет, если по 1200 загружать профили. однако ситуация меняется если один профиль будет содержать столько страниц.
раньше я вручную подгружал все страницы AutoPagerize и с помощью wget уже загружал по прямому линку изображения, но поскольку ркн и авторскому не отображалось, то эти пикчи скипались.
если затестишь этот cli и он нормально работает, то отпиши. тоже попробую, но пока что радиоволны для меня лучший вариант))
а под остальные сайты - pixiv, twitter; использую gallery-dl

TLD228 23.10.202115:57 ответить ссылка ↑ 0.0

Добра тебе.

Хермоус Мора 18.10.202100:31 ответить ссылка 1.6

Russ_Dry 18.10.202100:40 ответить ссылка 4.6

Работает только с реактором?

agri 18.10.202101:00 ответить ссылка 0.1

Да. Ссылку можно указать какую угодно, но правила парсера заточены именно под реактор.

avpretty 18.10.202101:06 ответить ссылка ↑ 0.4

Оно не украдет мой пароль?

Wunschpunsch 18.10.202101:13 ответить ссылка 0.0

Все уже давно знают твой пароль. Можешь смело использовать, ты нам нужен не до такой степени, чтобы ещё раз портить тебе акк.

Хермоус Мора 18.10.202101:17 ответить ссылка ↑ 6.4

Нет. Но опять таки, код открыт. При должном упорстве можно самостоятельно убедиться.

avpretty 18.10.202101:44 ответить ссылка ↑ 0.8

такие штуки не будут забивать канал сервера, делая остальным проблемы с доступом к реактору?

Mahin 18.10.202101:20 ответить ссылка -0.7

Главное не злоупотреблять флагом -w (--workers). По умолчанию 1. Рекомендую ставить не больше 4 и только там где действительно много контента. Но даже если создать большую нагрузку, сервер реактора быстро заблочит тебя (ненадолго).

avpretty 18.10.202101:47 ответить ссылка ↑ 0.9

Как то настроить под ВПН можно?

MAJI9R 18.10.202101:30 ответить ссылка 0.0

Есть какие-то особенности работы реактора под vpn? Я иногда сижу под vpn, но на работу парсера это никак не влияло.

avpretty 18.10.202101:52 ответить ссылка ↑ 0.0

О. Думал сам написать, но всё мотивации не было. Надо бы потестить.

SlayerGGXX 18.10.202102:09 ответить ссылка 0.5

есть же уже KellyC ?

donotblink 18.10.202102:10 ответить ссылка -0.1

Есть, но если я правильно понял, там можно работать только с тем, что добавлено в закладки. Я бы не хотел весь nsfw по ведьмаку добавлять в закладки только что бы скачать (тогда уж сразу скачивать проще). Здесь же можно просто указать ссылку и будет выкачан весь тег.

avpretty 18.10.202102:53 ответить ссылка ↑ 0.8

нет, у меня рядом с постом кнопочка скачать, без добавления в избранное

donotblink 18.10.202102:57 ответить ссылка ↑ 0.2

Ну вот... 64 бита... :(
Приехала моя кобылка

KeepClear 18.10.202108:48 ответить ссылка -0.3

Как-то писал подобный скрипт, который качал все картинки с лисами из фэндома с ними, и сортировал по видам, отбрасывал рисунки и в общем неплохо ориентировался в тэгах. Но в какой то момент понял, что реактора для этого мало и отказался от этой идеи

Erop1928 18.10.202109:25 ответить ссылка 0.0

А ничего, что есть встроенный wget? А?

Vinegar 18.10.202109:36 ответить ссылка 0.1

Оп, кодопидор. Угомонись, днищенский вгет не всем удобен

skavem 18.10.202110:11 ответить ссылка ↑ 1.1

Так у автора поста, поди тупо обертка над тем же wget-ом стоит, причем консольная. А команда будет отличаться на один аргумент.

Vinegar 18.10.202111:11 ответить ссылка ↑ -0.5

43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60 61 62
63
64
65
66
67
68
func (t *HttpTransport) FetchData(url string) (io.ReadCloser, error) { req, err := t.prepareRequest(http.MethodGet, url) if err != nil {
return nil, err
>
res, err := t.client.Do(req) if err !=

y2k_ 18.10.202109:55 ответить ссылка 0.5

* Что то на програмистском

jjmara 18.10.202110:32 ответить ссылка 0.8

надо еще возможность докачивать дельту.
Т.к. ради новых картинок, не хотелось бы докачивать еще раз все что там есть.

Moons2605 18.10.202110:51 ответить ссылка 0.4

Да, это можно.

avpretty 18.10.202112:27 ответить ссылка ↑ 0.0

Чувак, работает на любой странице? А в ТОРе? а по ссылкам выкачивает?

alekspulja 18.10.202111:58 ответить ссылка 0.0

На любой. В торе не пробовал, но должно быть все ок. Главное иметь возможноть получить респонс в html и парсер все вытащит. "а по ссылкам выкачивает?" собственно он сам находит ссылки на контент и скачивает.

avpretty 18.10.202112:29 ответить ссылка ↑ 0.0

Надо стащить.

alekspulja 18.10.202117:30 ответить ссылка ↑ 0.0

У меня вопрос: а где взять избыток свободного времени?

Memfus 18.10.202114:23 ответить ссылка 0.2

Уволиться.

avpretty 18.10.202114:53 ответить ссылка ↑ 0.1

А говорили что нельзя интернет скачать.

exzombskif 18.10.202115:23 ответить ссылка 0.0

Можно ли выкачать комменты ?

Alterbooksego 18.10.202117:53 ответить ссылка 0.0

Нет, но если такая фича действительно нужна, то можно сделать. Как собственно и скачивание текстовых постов. Проблема только в формате, т.е. в каком виде это будет сохраняться у конечного пользователя. Если есть виденье как это можно реализовать - https://github.com/reactor-joy/reactor-crw/issues (создать issue и описать суть и результат), либо напишите тут коментом.

avpretty 18.10.202118:17 ответить ссылка ↑ 0.1

Я как лох и пидр сделал issue =)

напиши еще куда тебе донат кинуть

Alterbooksego 18.10.202120:56 ответить ссылка ↑ 0.1

Все ок, так и надо. Донатов не надо, для реакторчан все безвозмездно.

avpretty 18.10.202121:42 ответить ссылка ↑ 0.0

Почему-то некоторые картинки неоткрываются и разрешение файла указано как 0х0 это недокачались получается?, можно как-то перекачать недоскачанные без повторного скачивания всех?

sporki 19.10.202100:54 ответить ссылка 0.0

Пока что скачанные файлы не учитываются. Постараюсь как можно быстрее это поправить. Насчет битых файлов, то тут только нужно у себя воспроизвести. Скиньте ссылку на страницу/тег/пост (можно в личку).

avpretty 19.10.202113:51 ответить ссылка ↑ 0.0

Спасибо, уже разобрался файлы вроде не битые в тотал коммандере предпросмотром открываются, а в просмотрщике картинок FSViewer- нет, и через просмотрщик фотографий встроенный тоже открываются

sporki 19.10.202117:31 ответить ссылка ↑ 0.0

И еще вопрос вот например по тегу написано 1000 сообщений а скачивается всего 400 , и я так понял это изза куков, я не понимаю как их правильно указать и какого они должны быть вида?

sporki 19.10.202117:34 ответить ссылка ↑ 0.1

Нужен флаг -с. Типа так: -c "__utma=что-то; __utmz=что-то; _ga=что-то; showVideoGif3=1; joyreactor_sess3=id сессии; _gid=GA1.2.996184876.1634569741; __utmc=что-то; __utmb=что-то; __utmt=1"

Нужное значение кук можно увидеть например в консоли браузера (f12 для включения). Загрузите страницу с включенной консолью и во вкладке сеть одним из запросов будет joyreactor.cc. Кликнув по этому полю, будут показаны параметры запроса/ответа. Вкладка "заголовки", "заголовки запроса".

avpretty 19.10.202120:08 ответить ссылка ↑ 0.0

Во спасибо а то я просто вводил __utma, получается все куки нужно перечислить

sporki 20.10.202106:26 ответить ссылка ↑ 0.0

а чего не сделал как у JDownloader чтобы с помощью https://www.editthiscookie.com/ экспортировать все в буфер обмена и затем вставлялся в какой-нить блокнот, директорию которой указываешь вместо "Типа так"
или некоторые юзают Get cookies.txt, тк сразу сохраняет в текстовой файл

TLD228 23.10.202102:37 ответить ссылка ↑ 0.0

О. Это что за шелл на винде такой симпатичный?

Raz0r 19.10.202117:36 ответить ссылка 0.0

Это Windows Terminal. Можно поставить через microsoft store. Затем на него накатывается https://ohmyposh.dev/docs/ . Довольно много гайдов уже есть.

avpretty 19.10.202120:10 ответить ссылка ↑ 0.3

Но по сути это все тот же powershell.

avpretty 19.10.202120:13 ответить ссылка ↑ 0.3

Во, Oh My Posh -- это здорово, спасибо.

Raz0r 19.10.202120:25 ответить ссылка ↑ 0.0

А какие куки надо вставлять, чет не понял

RaCc0oN 20.10.202101:02 ответить ссылка 0.0

Смотрите мой ответ sporki выше.

avpretty 20.10.202101:04 ответить ссылка ↑ 0.0

А как работать с поиском?
Можно ли ускорить процесс подсчета и скачивания?

RaCc0oN 20.10.202101:36 ответить ссылка ↑ 0.0

http://joyreactor.cc/tag/pixiv110714, http://pornreactor.cc/tag/less - эти 2 тега реально не качает или я что то не так делаю? часто nsfw качает и без указания куки, но иногда не качает теги с какими ни будь лендскейпами - No links were found. Stopping...

glukkain 20.10.202115:15 ответить ссылка 0.4

Спасибо. Проверю.

avpretty 20.10.202118:19 ответить ссылка ↑ 0.2

Хочу поделиться простым способом вытасикивания кук при использовании линукса:

sudo tcpdump -vvAls0 | grep 'Cookie'

( из браузера мне их в виде строчки получить не удавалось )

Alterbooksego 06.12.202115:42 ответить ссылка 0.0

Только зарегистрированные и активированные пользователи могут добавлять комментарии.

Похожие темы