Как Replit понимает код в масштабе: приватность, данные и продукт

Replit хранит сотни миллионов репозиториев и считает, что у них одно из самых полных представлений о том, как пишется софт. В блоге они объясняют, как устроена инфраструктура и что из этого получается.
Приватность — жёсткое ограничение. Для аналитики и обучения моделей используются только публичные Repls: код enterprise-аккаунтов и приватные проекты не трогают. Даже для публичных репозиториев данные анонимизируются, PII удаляется.
Уникальность — в детализации. Operational Transformation даёт временную шкалу изменений, логи выполнения — контекст запусков, стектрейсы и LSP — траектории отладки. Плюс данные об окружении и деплоях. В итоге получается очень плотная картина разработки.
Это даёт стратегическое преимущество: понимание того, что строят пользователи, помогает делать точечные инструменты. Например, популярность реляционных БД подтолкнула к улучшению Postgres, а спрос на API-обёртки — к появлению Replit ModelFarm.
Источник: How Replit makes sense of code at scale