Запись Запросов в ClickHouse с использованием Данных GitHub

Этот набор данных содержит все коммиты и изменения для репозитория ClickHouse. Он может быть сгенерирован с использованием встроенного инструмента git-import, поставляемого с ClickHouse.

Сгенерированные данные предоставляют файл tsv для каждой из следующих таблиц:

commits - коммиты со статистикой.
file_changes - файлы, измененные в каждом коммите с информацией об изменении и статистикой.
line_changes - каждая измененная строка в каждом измененном файле в каждом коммите с полной информацией о строке и информацией о предыдущем изменении этой строки.

На 8 ноября 2022 года каждый TSV имеет приблизительно следующий размер и количество строк:

commits - 7.8M - 266,051 строк
file_changes - 53M - 266,051 строк
line_changes - 2.7G - 7,535,157 строк

Генерация данных

Это необязательно. Мы распространяем данные бесплатно - смотрите Скачивание и вставка данных.

Это займет около 3 минут (на 8 ноября 2022 года на MacBook Pro 2021) для завершения для репозитория ClickHouse.

Полный список доступных опций можно получить из встроенной справки инструмента.

Эта справка также предоставляет DDL для каждой из вышеупомянутых таблиц, например:

Эти запросы должны работать на любом репозитории. Не стесняйтесь исследовать и сообщать о своих находках. Несколько рекомендаций относительно времени выполнения (на ноябрь 2022 года):

Linux - ~/clickhouse git-import - 160 минут

Скачивание и вставка данных

Следующие данные могут быть использованы для воспроизведения рабочей среды. В качестве альтернативы этот набор данных доступен в play.clickhouse.com - смотрите Запросы для получения дополнительных сведений.

Сгенерированные файлы для следующих репозиториев можно найти ниже:

ClickHouse (8 ноября 2022 года)
Linux (8 ноября 2022 года)

Чтобы вставить эти данные, подготовьте базу данных, выполнив следующие запросы:

Вставьте данные, используя INSERT INTO SELECT и функцию s3. Например, ниже мы вставляем файлы ClickHouse в каждую из их соответствующих таблиц:

commits

file_changes

line_changes

Запросы

Инструмент предлагает несколько запросов через свой вывод справки. Мы ответили на них в дополнение к некоторым дополнительным вспомогательным вопросам. Эти запросы имеют примерно возрастающую сложность по сравнению с произвольным порядком инструмента.

Этот набор данных доступен в play.clickhouse.com в базах данных git_clickhouse. Мы предоставляем ссылку на эту среду для всех запросов, адаптируя имя базы данных по мере необходимости. Обратите внимание, что результаты игры могут отличаться от представленных здесь из-за различий во времени сбора данных.

История одного файла

Самые простые запросы. Здесь мы рассматриваем все сообщения коммитов для StorageReplicatedMergeTree.cpp. Поскольку они, вероятно, более интересные, мы сортируем по самым последним сообщениям первыми.

Генерация данных​

Скачивание и вставка данных​

Запросы​

История одного файла​

Найти текущие активные файлы​

Список файлов с наибольшим количеством модификаций​

В какой день недели обычно происходят коммиты?​

История подкаталога/файла - количество строк, коммитов и участников за время​

Список файлов с максимальным количеством авторов​

Самые старые строки кода в репозитории​

Файлы с самой длинной историей​

Распределение участников по документации и коду за месяц​

Авторы с самым разнообразным влиянием​

Любимые файлы для автора​

Самые большие файлы с наименьшим количеством авторов​

Распределение коммитов и строк кода по времени; по дням недели, авторам; для конкретных подкаталогов​

Матрица авторов, показывающая, какие авторы перерабатывают код других авторов​

Кто является автором с наибольшим процентом вкладов по дням недели?​

Распределение возраста кода по репозиторию​

Какой процент кода для автора был удалён другими авторами?​

Список файлов, которые были переписаны наибольшее количество раз​

Какой день недели имеет наибольшие шансы остаться в репозитории?​

Файлы отсортированные по среднему возрасти кода​

Кто чаще всего пишет больше тестов / CPP кода / комментариев?​

Как меняются коммиты автора со временем в отношении % кода/комментариев?​

Каково среднее время, прежде чем код будет переписан, и медиана (период полураспада кода)?​

Какое худшее время для написания кода с точки зрения высокой вероятности переписывания?​

Код каких авторов является самым «липким»?​

Наибольшее количество последовательных дней коммитов автором​

История коммитов файла построчно​

Нерешенные вопросы​

Git blame​

Связанный контент​

Генерация данных

Скачивание и вставка данных

Запросы

История одного файла

Найти текущие активные файлы

Список файлов с наибольшим количеством модификаций

В какой день недели обычно происходят коммиты?

История подкаталога/файла - количество строк, коммитов и участников за время

Список файлов с максимальным количеством авторов

Самые старые строки кода в репозитории

Файлы с самой длинной историей

Распределение участников по документации и коду за месяц

Авторы с самым разнообразным влиянием

Любимые файлы для автора

Самые большие файлы с наименьшим количеством авторов

Распределение коммитов и строк кода по времени; по дням недели, авторам; для конкретных подкаталогов

Матрица авторов, показывающая, какие авторы перерабатывают код других авторов

Кто является автором с наибольшим процентом вкладов по дням недели?

Распределение возраста кода по репозиторию

Какой процент кода для автора был удалён другими авторами?

Список файлов, которые были переписаны наибольшее количество раз

Какой день недели имеет наибольшие шансы остаться в репозитории?

Файлы отсортированные по среднему возрасти кода

Кто чаще всего пишет больше тестов / CPP кода / комментариев?

Как меняются коммиты автора со временем в отношении % кода/комментариев?

Каково среднее время, прежде чем код будет переписан, и медиана (период полураспада кода)?

Какое худшее время для написания кода с точки зрения высокой вероятности переписывания?

Код каких авторов является самым «липким»?

Наибольшее количество последовательных дней коммитов автором

История коммитов файла построчно

Нерешенные вопросы

Git blame

Связанный контент