Кстати когда работал в Бельгии, было тоже лайтово достаточно. По сути я мог ходить на работу 10 часов из 40 и делать больше, чем чуваки делали за свои 40 часов. Я, конечно, машина, но это уже эребор.

Честно говоря не вижу смысла работать больше 6 часов в день, вообще мне нравится идея с 4-дневкой. 4 дня по 6 часов + 2 часа сверху домой под пиво посмотреть курсы и почитать книги, вот это действительно продуктивно, ворк-лайф баланс, всё такое.
Сижу в Сингапуре с пацанами из всяких Стэнфордов, в основном все азиаты. Торчат на работе гору времени, но на самом деле протирают штаны в чатиках и разговорах ни о чём.
Да на самом деле не в МЛе дело.
А в итеративных методах (оптимизации), просто для масс МЛ будет явно более понятным термином.
Всё ещё pix2pix или на что-то другое перешёл?
Ну что, полетели в телеграмм? (+375 (29) 333 06 30)
Не борются. В том смысле, что глобальная оптимизация охренеть какая затратная, а зачастую нам достаточно неидеального решения задачи. Например, можно запускать локальные методы с некоторым образом распределённых точек. Можно искать эти точки посредством какого-нибудь приближения вроде grid search, то есть по сути эвристически потыкать в разные регионы функции, увидеть где получше всего выходит и там начать оптимизацию.
Потом сами методы оптимизации модифицируются, например, градиентный спуск может учитывать аналог импульса в своём движении, можно делать "проверку" потенциального шага и если он не очень, то откатываться обратно и модифицировать шаг. Там очень много всяких фич, если хочешь без особой детальности разобраться, то в Николенко есть глава по этому поводу, он там и ссылки даёт на отдельные ресурсы, чтобы разобраться глубже.
Тут проблема заключается в следующем: большая часть ресирчеров 1) Плохо знакомы с основами теоретической информатики, 2) Плохо знакомы с языковым инструментарием, и когда появляются МЛ задачи, то 3) Плохо знакомы с теорией под машинным обучением.

В итоге получается, что многие ресирчеры (кроме парней в CS области) допускают множество ошибок в своём использовании инструментов информатики(Помню не так давно читал пэйпер SEGAN, у них есть реализация модели на гитхабе и она убийственна).

Какое-то время уже общаюсь с парнями из ODSа, там достаточно людей, которые после PhD по физике перекатываются в DS(особенно на примере Владимира Игловикова, который сейчас вообще в Lyft попал), и у них можно заметить расслоение между теми, кто разобрался и не разобрался в основах информатики просто по их речи с применением каких-то терминов. Просто для этого нужно потратить годик-другой, чтобы действительно разбираться.

Насчёт курсов в интернетах: на самом деле очень мало стоящих и достаточно фундаментальных. Например, на курсере есть Deep Learning от Ынга и его же используют в Стэнфорде на CS230. У Яндекса курс по С++ довольно-таки полноценный. У Стэнфорда по алгоритмам достаточно обширный курс. Но так или иначе они рекомендуют литературу, которая гораздо глубже всё это покрывает.

Несомненно, ML у Ынга на курсере рассчитан на гуманитариев практически, так как он не требует даже понимания производных, переводя всё в общее понимание. Но в то же время на Stanford Engineering Everywhere есть тот же самый CS229 Ынга, в котором он начинает с выведение функции ошибки как логарифма постериорной вероятности из нормального распределения данных.
То есть в целом кроме очень крутых книжек, которых гора публикуется(которые я благополучно спиратил), существует и ряд курсов, которые очень и очень неплохи, в том числе и от ODS.

Да, здесь есть проблема и проблема в том, что область всё ещё не в состоянии отсеивать тех, кто ни черта не понимает в подкапотных вещах. Поэтому и существует расслоение, о котором я говорил. Самое смешное, что по сути градиентный спуск это идея из выпуклой оптимизации, хотя работаем мы не с такими функциями, и тут уже появляется много эвристик для его модификации. Но так или иначе сама область оптимизации очень сильно базируется на математическом анализе, поэтому говорить о нематематичности этого было бы смешно, хех.

В целом здесь есть такая вещь, когда общаешься с инвесторами или менеджерами, то "Мы будем применять машинное обучение" сразу призывает хайповый интерес от несведущих, тонны инвестиций и так далее. Поэтому зачастую совершенно бестолковые парни зарекаются на эту тему, а наивные управленцы раскидываются деньгами в надежде хайпануть.
Ресирчер врывается в тред.
Проблема в том, что в СНГ всё ещё существует нехватка соображающих в этой теме товарищей, а рынок при этом кластеризован ввиду незнания того, а что действительно такое хороший МЛ. Кластера два. Первый это компании, которые уже разобрались в том, что хорошо и что плохо, у них опытные товарищи и вилка ЗП в России около 200-600к. Второй это компании, слабо разбирающиеся в этом и приравнивающие МЛ парней к обычным девелоперам, поэтому и ЗП около 100-250к. Например, в РБ сейчас даже такой кластеризации нет и предложения выше 5к долляров для МЛ парней единичные.

По поводу математики - рандомное тыкание методов из библиотек и слоев из кераса "потому что так сказали в интернете" очень маловероятно приведёт к хорошему результату, а если концептуально и приведёт, то к достаточно низкому по точности.
И здесь встаёт вопрос того, насколько глубоко нужно понимать математику под капотом для того, чтобы инженерить или ресирчить.

Фактически в нормальном мире происходит разделение на три слоя МЛ парней: МЛ инженеры, МЛ ресирч инженеры, МЛ ресирчеры. Существуют ещё дата саентисты, но тут всё до жути размыто зачастую, особенно в СНГ. Кого только ДС не называют: и бизнес-аналитиков, и МЛ инженеров, и математиков-статистов, и так далее. Так что останемся пока на тех трёх парнях выше.

МЛ инженер это тот парень, который знает об основных задачах в своей области(Под-область МЛа), о том, как их решать, как оптимизировать. Попутно он может хорошо реализовать решение на целевом языке и платформе. То есть это что-то среднее между обычным программером и парнем, понимающем в МЛе. Соответственно необходимая ему математика имеет такой минимум:
Векторный анализ(Хватит Странга), линейная алгебра(Странг \ Хоффман), теорвер(Росс \ ДеГрут), оптимизация(Бойд) на уровне бакалаврских книжек.

МЛ ресирч инженер это тот парень, который заточен больше под то, чтобы реализовать конкретный алгоритм либо как-то его модифицировать попутно, но без подвязки к эффективности на какой-то платформе. По сути они занимаются чтением пэйперов либо дискассами с локальными саентистами, а потом это всё по-хорошему реализуют. Математическая база уже требует возможности читать пэйперы в какой-то области локальной. Соответственно здесь понимание методов должно быть уже на уровне вероятностно-статистических методов или, например, гомеоморфизмов и гиперплоскостей. То есть де факто здесь это уровень graduate degree, возможно MS, возможно PhD.

МЛ ресирчеры, очевидно, занимаются ресирчем, зачастую делают образную реализацию своих изобретений(потому что код у них отвратный), а потом ресирч инженеры занимаются нормальной реализацией. Здесь уже встаёт вопрос в способностях к ресирчу и пока что мало кто берёт парней без PhD, хотя на самом деле достаточно инициативного ума и некоторых фич исследовательского мышления. А математика здесь уже может быть безумной.
Когда надрочишься таких лолей клепать с годик, то и за полчаса можно будет сварганить, конечно.