varvaratikh 39 минут назад GitHub стал однообразнее после появления ChatGPT? Средний 11 мин 849 Open source * GitHub * Искусственный интеллект Big Data * Аналитика После появления ChatGPT и массового распространения...

Значимый прорыв формирует отрасль ИИ: varvaratikh 39 минут назад GitHub стал однообразнее после появления ChatGPT? Средний 11 мин 849 Open source * GitHub * Искусственный интеллект Big Data * Аналитика После появления ChatGPT и массового распространения GitHub Copilot, Cursor, Claude Code, Windsurf и других AI-инструментов разработка стала заметно быстрее. Код, тесты, README, комментарии и небольшие utility-функции теперь можно получить за секунды.

Но вместе с этим появился менее очевидный вопрос: если миллионы разработчиков используют похожие модели и похожие промпты, не становится ли открытый код более однообразным? В этой статье я проверяю эту гипотезу на данных GitHub за 2019-2025 годы. В качестве основного источника используется GH Archive через BigQuery: это публичный архив событий GitHub, где можно анализировать PushEvent, PullRequestEvent, CreateEvent, IssuesEvent, ForkEvent, WatchEvent и другие типы активности.

Технические детали

Дополнительно анализируется небольшая выборка публичных репозиториев: README, комментарии, имена функций и структура проектов. Главная идея работы - GitHub Uniformity Index, или GUI: составной индекс, который измеряет однообразие open source по нескольким признакам одновременно. В него входят похожесть README, повторяемость commit messages и комментариев, концентрация имен функций, proxy-метрика AST similarity и похожесть структуры проектов.

Это не попытка угадать, какой конкретный файл был написан нейросетью. Такой задачи здесь нет: надежного способа массово отличать AI-код от человеческого кода не существует. Цель другая - проверить, изменились ли статистические свойства GitHub после того, как генеративный ИИ стал обычным инструментом разработки.

30 ноября 2022 года OpenAI представила ChatGPT. Для широкой аудитории это стало началом генеративного AI-бума; для разработчиков - моментом, после которого код все чаще пишется не в одиночку, а в диалоге с моделью. Обычно влияние AI на программирование обсуждают через скорость.

Отраслевые последствия

Стали ли разработчики быстрее закрывать задачи? Увеличилось ли число pull request? Сократилось ли время на boilerplate?

Эти вопросы важны, но они не исчерпывают тему. Есть более тихий и, возможно, более интересный вопрос: что происходит с разнообразием кода? Open source всегда был не только производственной средой, но и культурной экосистемой.

В нем живут разные стили проектирования, разные README, разные соглашения об именовании, разные архитектурные привычки и разные способы объяснять код. Если же все больше людей обращаются к похожим моделям, обученным на похожих корпусах, возникает гипотеза о стандартизации. Код может стать не обязательно хуже, но более предсказуемым.

Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.

GitHub стал однообразнее после появления ChatGPT?

Технические детали

Отраслевые последствия

Related Prediction Markets

Related News