Список сокращений
1. МО – машинное обучение
2. ИИ – искусственный интеллект
3. СЗ – супервизированное обучение
4. БЗ – безнадзорное обучение
5. ПЗ – полузаданные обучение
6. НС – нейронная сеть
7. SVM – метод опорных векторов
8. RF – случайный лес
9. CNN – сверточная нейронная сеть
10. RNN – рекуррентная нейронная сеть
11. MLP – многослойный персептрон
12. SGD – стохастический градиентный спуск
13. NLP – обработка естественного языка
14. CV – компьютерное зрение
15. DL – глубокое обучение
16. ROI – возврат инвестиций
17. KPI – ключевые показатели эффективности
18. CRM – управление взаимоотношениями с клиентами
19. ERP – система планирования ресурсов предприятия
20. BI – бизнес-аналитика
Глава 1: Введение в машинное обучение и его роль в бизнесе
1.1. Основные понятия и термины в машинном обучении
Обучение с учителем – форма машинного обучения, где системе предоставляется обучающая выборка с входными данными и соответствующими выходными значениями.
Признаки – характеристики или свойства объектов, которые описывают данные.
Метки (выходные значения, целевые переменные) – значения, которые система должна предсказывать или классифицировать на основе входных данных.
Модель – математическая функция, которая принимает входные данные и выдает предсказания или классификации.
Обучение – процесс, в ходе которого модель настраивается на основе обучающей выборки для минимизации ошибки предсказания.
Тестирование – процесс оценки производительности модели на новых данных, не участвующих в обучении, с целью оценки ее обобщающей способности.
Переобучение – состояние модели, когда она становится слишком сложной и настраивается на шум в данных, в результате чего ее способность обобщения страдает.
Недообучение – состояние модели, когда она слишком проста и не способна выявить сложные закономерности в данных, что приводит к низкой производительности на новых данных.
Гиперпараметры – параметры модели, которые задаются вручную перед началом обучения и влияют на ее поведение и производительность, например, скорость обучения, количество эпох и размер скрытых слоев в нейронной сети.
Алгоритмы обучения – методы и процедуры, используемые для обучения моделей на основе обучающих данных, например, линейная регрессия, метод опорных векторов (SVM), деревья решений, нейронные сети и другие.
Регуляризация – техника, используемая для предотвращения переобучения модели путем добавления штрафов или ограничений на значения параметров модели.
Кросс-валидация – метод оценки производительности модели, который заключается в разделении обучающей выборки на несколько подмножеств (фолдов) для обучения и тестирования модели, с последующим усреднением результатов.
Метрики оценки – числовые значения, используемые для измерения качества предсказаний модели, например, точность, полнота, F-мера, среднеквадратическая ошибка (MSE) и другие.
Разделение выборки – процесс разбиения общего набора данных на обучающую, тестовую и, иногда, валидационную выборки для обучения, тестирования и настройки модели соответственно.
Размер выборки – количество образцов данных, доступных для обучения модели.
Препроцессинг данных – этап подготовки данных перед обучением модели, включающий операции, такие как нормализация, масштабирование, заполнение пропущенных значений, кодирование категориальных признаков и другие.