Разработка парсера карт и создание GUI приложения
Успешно реализован масштабный и технически сложный проект по сбору данных (Web Scraping) с интерактивной карты сайта Urbexology и разработке сопутствующего программного обеспечения.
Что было реализовано:
1. Алгоритм адаптивного сканирования (Quadtree Bounding Box): Создан рекурсивный алгоритм обхода всей земного шара, который позволил собрать и дедуплицировать 597 306 уникальных локаций.
2. Деобфускация и реверс-инжиниринг: Успешно расшифрован кастомный алгоритм защиты сайта (XOR + Caesar сдвиг), а также математически восстановлены реальные координаты точек по формулам синуса/косинуса индекса.
3. Высокопроизводительный многопоточный сбор деталей: Разработан и оптимизирован движок на 25 потоков (ThreadPoolExecutor) с безопасными задержками для сбора обсуждений, комментариев и фото без блокировок.
4. Реляционная база данных: Все данные структурированы, связаны (Foreign Keys) и сохранены в оптимизированный файл SQLite (.db) с настроенными индексами для мгновенных поисковых запросов.
5. Премиальное GUI-приложение (EXE): На базе Tkinter разработано нативное Windows-приложение в стильном темном дизайне (Premium Dark Mode) для автоматического скачивания медиафайлов (65 818 фото) на локальный диск. Приложение поддерживает Пауза/Продолжение, полную Остановку с сохранением состояния, выбор лимитов и детальное логирование в реальном времени.
Результаты проекта:
Собрано уникальных локаций: 597 306
Найдено фотографий: 65 818
Обработано обсуждений: 66 301
Инструменты: Python, Tkinter, PyInstaller, SQLite, Многопоточность, ООП.
#web_scraping #scraping #python #gui #sqlite #reverse_engineering #automation #multithreading #parser #crawler
Что было реализовано:
1. Алгоритм адаптивного сканирования (Quadtree Bounding Box): Создан рекурсивный алгоритм обхода всей земного шара, который позволил собрать и дедуплицировать 597 306 уникальных локаций.
2. Деобфускация и реверс-инжиниринг: Успешно расшифрован кастомный алгоритм защиты сайта (XOR + Caesar сдвиг), а также математически восстановлены реальные координаты точек по формулам синуса/косинуса индекса.
3. Высокопроизводительный многопоточный сбор деталей: Разработан и оптимизирован движок на 25 потоков (ThreadPoolExecutor) с безопасными задержками для сбора обсуждений, комментариев и фото без блокировок.
4. Реляционная база данных: Все данные структурированы, связаны (Foreign Keys) и сохранены в оптимизированный файл SQLite (.db) с настроенными индексами для мгновенных поисковых запросов.
5. Премиальное GUI-приложение (EXE): На базе Tkinter разработано нативное Windows-приложение в стильном темном дизайне (Premium Dark Mode) для автоматического скачивания медиафайлов (65 818 фото) на локальный диск. Приложение поддерживает Пауза/Продолжение, полную Остановку с сохранением состояния, выбор лимитов и детальное логирование в реальном времени.
Результаты проекта:
Собрано уникальных локаций: 597 306
Найдено фотографий: 65 818
Обработано обсуждений: 66 301
Инструменты: Python, Tkinter, PyInstaller, SQLite, Многопоточность, ООП.
#web_scraping #scraping #python #gui #sqlite #reverse_engineering #automation #multithreading #parser #crawler