Мед-Риск

MedRiskBot

Техническая информация о роботе, обращающемся к вашему сайту, и инструкции по отказу от сканирования для веб-мастеров.

Идентификация робота

Наш робот идентифицирует себя следующим заголовком User-Agent:

MedRiskBot/1.0 (+https://med-risk.ru/bot)

Ссылка +https://med-risk.ru/bot ведёт на эту страницу и позволяет верифицировать источник запросов.

Что мы делаем

  • загружаем только те страницы, адреса которых пользователь самостоятельно ввёл в форму проверки на сайте med-risk.ru;
  • анализируем публично доступный HTML, заголовки HTTP, файл robots.txt, sitemap.xml, наличие.well-known/security.txt;
  • используем результаты анализа только для формирования отчёта для того пользователя, который инициировал проверку;
  • соблюдаем стандарт Robots Exclusion Protocol (RFC 9309) и директивы robots.txt.

Что мы не делаем

  • не отправляем запросы методами POST / PUT / DELETE / PATCH — только GET и HEAD;
  • не пытаемся обойти аутентификацию, не подбираем пароли, не используем cookies авторизованных пользователей;
  • не выполняем сканирование уязвимостей (SQLi, XSS, перебор паролей и т. п.);
  • не сохраняем и не публикуем содержимое ваших страниц — сохраняем только выдержки, необходимые для подтверждения конкретного нарушения в отчёте заказчика;
  • не индексируем сайт в поисковых целях и не передаём содержимое третьим лицам, за исключением обработчиков, указанных в нашей Политике обработки ПДн.

Технические ограничения

  • Частота запросов: не более 1 запроса в секунду на один домен.
  • Таймаут: 10 секунд на один HTTP-запрос, после чего запрос считается неуспешным и не повторяется.
  • Глубина сканирования: не более указанного пользователем числа страниц (по умолчанию — только заданный URL без перехода по ссылкам).
  • Redirects: следуем не более чем по 5 HTTP-редиректам.
  • Размер ответа: не более 5 МБ на один ресурс (превышающие лимит ресурсы не загружаются).

IP-адреса

В текущей версии Сервис развёрнут на временной инфраструктуре. Список IP-адресов, с которых производятся запросы, будет опубликован после переезда на российский VPS. После публикации этот раздел будет обновлён списком статических IPv4- и IPv6-адресов для внесения их в ваши белые списки.

До момента публикации вы можете идентифицировать наш робот исключительно по заголовку User-Agent, указанному выше.

Как запретить сканирование (opt-out)

Если вы не хотите, чтобы наш робот обращался к вашему сайту, добавьте в файл /robots.txt следующие директивы:

User-agent: MedRiskBot
Disallow: /

Робот соблюдает указания robots.txt и не выполняет загрузку запрещённых страниц. Изменения в robots.txt учитываются в течение 24 часов (до этого времени может использоваться закэшированная версия файла).

Также для отказа на уровне сети возможно блокирование запросов по User-Agent на уровне WAF / веб-сервера (пример для nginx):

if ($http_user_agent ~* "MedRiskBot") {
    return 403;
}

Контакты

Жалобы, вопросы о поведении робота, запросы на удаление данных проверки вашего сайта: