
Инфраструктура для изучения основ машинного обучения на локальном компьютере с помощью Apache Spark
VOrlyanskiy 27 минут назад Инфраструктура для изучения основ машинного обучения на локальном компьютере с помощью Apache Spark Средний 4 мин 1.2K PostgreSQL * SQL * Базы данных * Машинное обучение * СоавторДанная статья...
Anthropic — What company has the best second artificial intelligence model at the end of June?
В сфере искусственного интеллекта произошло заметное событие. VOrlyanskiy 27 минут назад Инфраструктура для изучения основ машинного обучения на локальном компьютере с помощью Apache Spark Средний 4 мин 1. 2K PostgreSQL * SQL * Базы данных * Машинное обучение * СоавторДанная статья создана с помощью @svantonov за что ему отдельная благодарность и признательность за помощь. Без него данный результат был бы не достижим.
Описание задачиПрочитав несколько книг по машинному обучению, я решил проверить идеи из книг в тестовых задачах. Тестовые задачи решил создать самостоятельно, опираясь на прошлый опыт. Первой задачей будет следующая.
Технические детали
Предположим, откуда-то получаются файлы нескольких типов, например 10 различных типов. Один из получаемых типов будет вызывать увеличение загрузки процессора. Необходимо найти, какой тип файлов вызывает загрузку процессора, применив машинное обучение.
Прекрасно понимая, что эту задачу можно решить с помощью SQL. Но в рамках этой и следующих статей изучается машинное обучение, а не SQL. Эта статья посвящена описанию того, как создать исходные данные для анализа и запустить базовую инфраструктуру машинного обучения на локальном компьютере, но при этом готовую к практически бесконечному масштабированию благодаря использованию Apache Spark.
БД с исходными даннымиОписание базы данныхСтруктура базы данных сделана максимально простой. В качестве БД выбран PostgreSQL. Для хранения информации о времени пришедших типов файлов создана таблица received_types.
Отраслевые последствия
В ней два значимых поля: тип пришедшего файла и время его получения. Для хранения информации о загрузке процессора создана таблица cpu_load. В ней три значимых поля:time_frame_start - время начала периода сбора информации о загрузке CPU.
time_frame_finish - время окончания периода сбора информации о загрузке CPU. Процент загрузки CPUПрямой связи между таблицами received_types и cpu_load нет. Связь между ними будет создаваться через поля времени.
Скрипт заполнения базы данныхДля начального заполнения базы данных создан скрипт, работающий как анонимная процедура или анонимный блок кода. Какой именно тип файла будет создавать увеличенную нагрузку на процессор, определяется в скрипте. На первом этапе, скрипт последовательно создает записи в таблице received_types о пришедших типах файлов.
Этот прогресс даёт важные сигналы о будущем отрасли, и технологический мир внимательно наблюдает.





