Идентификация браузеров
Отпечаток браузера / Browser fingerprint
Лыкошин Александр
2023-24
#### Browser fingerprinting (отпечаток браузера) - Технология идентификации пользователей (браузеров) в интернете - *Таргетированная реклама*, улучшение пользовательского опыта, более точное предоставление услуги - Антифрод, детектирование ботов - Заказчик: SberADS - Ожидаемый эффект - Текущий процент кроссдоменной идентификации пользователей ~70%, потенциал инициативы - 80% - Прогноз увеличения выручки - 100..200 млн.руб. в год (основан на консервативной оценке в 2..3% от годовой выручки)
### Исходные данные для формирования отпечатка - Базовые характеристики браузера: - Языки браузера, временная зона, наименование браузера, тип операционной системы, разрядность, число потоков, цвета, монохром, и др. - Методы, позволяющие по косвенным признакам определить программную конфигурацию системы: - Идентификация шрифтов (по фактическому размеру выведенного текста) - Идентификация блокировок рекламы (частично) - Отрисовка 2D сцен - Наиболее современные методы, использующие 3D графику (зависят от видеокарты, драйверов, версии библиотеки) - Отрисовка 3D сцен - Алгоритм `drawnApart` (временные задержки при отрисовке 3D сцен)
### Основные этапы - Разработка первой версии прототипа. - Интеграция в SberADS, начало сбора данных на ограниченном числе сайтов. - Разработка алгоритма формирования фингерпринта, доработки прототипа. - Пилотирование на расширенном числе сайтов. - Ввод в пром.эксплуатацию.
### Реализована система сбора отпечатков браузеров - Клиентская часть - сбор более 60 различных характеристик и тестов браузера, анонимизация (хеширование) пользовательских данных - интеграция с счетчиком top100 Рамблера - получение значения фингерпринта, формируемого текущей реализацией Рамблер. - интегрирована в сайты [top100.rambler.ru](https://top100.rambler.ru) и [stats.top100.rambler.ru](https://stats.top100.rambler.ru) - Серверная часть - Сбор дополнительных данных (IP адрес, заголовки HTTP, формирование дополнительного отпечаток SSL), сохранение в базе данных - Минимальный пользовательский интерфейс для выборочного просмотра данных
![./2023-09-14-arch.jpg](./2023-09-14-arch.jpg)
### Препятствия - Устаревание методов сбора данных, побочные эффекты - Протестирован, отключен из-за побочных эффектов метод идентификации расширений браузера. - Недостаточность тестов WebGL - Проверка гипотезы об эффективности WebGL для идентификации показала её недостаточность на большом числе браузеров; необходимо использование дополнительных характеристик - Особенности доступных данных (трафик на доступных сайтах) - Малое число записей (в сравнении с общим объемом), в исходных данных которых содержится идентификационная информация о клиенте и/или браузере (авторизованная зона)
### Текущий статус: - Сбор данных: собрано 2 млн записей (~66 ГБ) - С нашей стороны: - Расширение перечня методов сбора информации (добавлен DrawnApart) - Дальнейшая интеграция с Рамблер (добавлено получение существующей версии фингерпринта от Рамблер; необходимо реализовать передачу нашей версии фингерпринта) - Со стороны Лаборатории кибербезопасности: - Обучение нейросети, подборка оптимальной архитектуры - Следующий этап: доработки и пилотирование на б*о*льшем трафике
## Спасибо за внимание #### Вопросы..?