С виртухи нашел https://towardsdatascience.com/a-guide-to-building-an-image-duplicate-finder-system-4a46021410f1 и результат теста для его датасета интересные но непонятно подойдут ли для контента с реактора. Я проверил реализацию с EfficientNet-b0 and Euclidean Distance и вроед норм но нужен датасет с реактора и по хорошему нужно сравнить с текущей реализацией. Получение фичей работает быстро но у меня размер векторов фичей выходит на 80кб что на 1кк картинок выйдет за 80гб. Далее мне было лень эксперементировать но один мой знакомый(https://chat.openai.com/share/f3ae236e-42f5-4ffd-b1f0-bfbb21c6c0d6) подсказал как можно пожать фичи. В конце нужно по ним будет искать и тут есть варианты https://stackoverflow.com/questions/48019842/get-minimum-euclidean-distance-between-a-given-vector-and-vectors-in-the-databas. faiss я поставилл но далльше не стал ковыряться.
Далее мне было лень эксперементировать но один мой знакомый(https://chat.openai.com/share/f3ae236e-42f5-4ffd-b1f0-bfbb21c6c0d6) подсказал как можно пожать фичи.
В конце нужно по ним будет искать и тут есть варианты https://stackoverflow.com/questions/48019842/get-minimum-euclidean-distance-between-a-given-vector-and-vectors-in-the-databas. faiss я поставилл но далльше не стал ковыряться.