Сложный поиск и удаление дубликатов изображений

В одном из контент-проектов встала задача оптимизировать базу изображений, убрав дубли.

Исходные параметры базы:

  • размер базы — 32 000 изображений, 38 Гб.
  • формы — JPG, PNG, TIFF, GIF.
  • характер дублей — полные дубли, изменённый цвет, яркость и контрастность, размеры и соотношение сторон, поворот.
Читать далее «Сложный поиск и удаление дубликатов изображений»