Повышение градиента

Что такое повышение градиента?

Gradient Boosting — это система повышения машинного обучения, представляющая собой дерево решений для больших и сложных данных. Он основан на предположении, что следующая возможная модель минимизирует грубую ошибку прогноза в сочетании с предыдущим набором моделей. Деревья решений используются для наилучших прогнозов.

Повышение градиента также известно как модель статистического прогнозирования. Он работает аналогично другим методам повышения, хотя позволяет обобщать и оптимизировать дифференциальные функции потерь. Один из них использует повышение градиента в первую очередь в процедурах регрессии. Он широко используется в инвестиционном и финансовом секторах для дальнейшего улучшения продуктов и услуг. подробнее и классификация.

Оглавление

Программы для Windows, мобильные приложения, игры - ВСЁ БЕСПЛАТНО, в нашем закрытом телеграмм канале - Подписывайтесь:)

Что такое повышение градиента?

Повышение градиента — это метод машинного обучения, который упрощает прогнозирование.
Его можно использовать для решения многих повседневных жизненных проблем. Однако бустинг лучше всего работает при заданном наборе ограничений и в заданном наборе ситуаций.
Три основных элемента этого метода повышения — это функция потерь, слабый ученик и аддитивная модель.
Техника регуляризации используется для уменьшения эффекта переобучения.
Одним из аспектов повышения градиента является регуляризация за счет усадки. Если скорость обучения меньше 0,1, очень важно обобщить модель прогнозирования.

Объяснение

Повышение градиента создает модели на основе предсказания в виде комбинации моделей слабого предсказания. Слабые гипотезы — это параметры, эффективность которых несколько выше, чем у случайно выбранных вариантов. Лео Брейман, американский статистик, интерпретировал, что бустинг может быть алгоритмом оптимизации при использовании с подходящими функциями затрат. Можно оптимизировать функции стоимости, итеративно выбирая слабые гипотезы или функцию с относительно отрицательным градиентом. Метод градиентного бустинга претерпел множество дальнейших разработок для оптимизации функций затрат.

Как работает повышение градиента?

Работа повышения градиента вращается вокруг трех основных элементов. Вот они:

Функция потерь
Слабый ученик
Аддитивная модель

#1 – Функция потерь

Основной целью здесь является оптимизация функции потерь. Функция потерь изменяется с различными типами задач. Можно легко определить собственную стандартную функцию потерь, но она должна быть дифференцируемой.

В качестве примера можно сказать, что регрессия может использовать квадрат ошибки, а классификация может использовать алгоритмическую потерю. Одна из лучших особенностей повышения градиента заключается в том, что с каждой структурой не требуется новый алгоритм повышения для каждой рассматриваемой функции потерь. Таким образом, более общей структуры будет достаточно.

#2 – Слабый ученик

Слабые ученики предназначены для того, чтобы делать прогнозы. Дерево решений — это, по сути, слабый ученик. Определенные деревья регрессии используются для реальных выходных значений, используемых для разделения. Мы можем исправить напоминания в моделях прогнозирования. Оценки чистоты, такие как Джини, выбирают лучшие точки разделения, которые в дальнейшем строят деревья.

Когда дело доходит до другого метода повышения, называемого Adaboost, используются деревья решений с одним разбросом. В случае большего количества уровней (скажем, от 5 до 10) мы можем использовать деревья большего размера. Лучше ограничивать или ограничивать слабых учащихся в использовании количества листовых узлов, количества слоев, количества разбиений или даже количества слоев.

№3 – Аддитивная модель

В модели нет модификаций уже существующих деревьев, но одновременно добавляется большее количество деревьев.

Во время добавления деревьев процедура градиентного спуска минимизирует потери. Он минимизирует заданное количество параметров. Чтобы уменьшить ошибку, обновление весов происходит только после вычисления ошибки.

Подмодели слабых учеников заменяют параметры. После вычисления потерь мы должны добавить в модель дерево таким образом, чтобы уменьшить потери, чтобы мы могли выполнить процедуру градиентного спуска. В конце концов, мы можем добавить вывод в последовательность деревьев.

Примеры повышения градиента

Возьмем пример игрока в гольф, который должен ударить по мячу, чтобы достичь цели.

Это доступный набор данных:

Используя функцию поворота, мы можем найти среднее решение для каждого климатического условия.

Так что для солнечного климата решение должно быть 23 (холодный), 25 (жаркий) и 52 (мягкий). Из приведенных выше фактических данных для дня 1 и дня 2 мы можем наблюдать следующие ошибки.

Мы рассчитаем вышеуказанные ошибки для всех дней в цикле и создадим новый набор данных. Делаем это 4-5 раз для подсчета ошибок. Это можно сделать с помощью автоматизированного программного обеспечения.

Результат выглядит следующим образом:

Регуляризация повышения градиента

Мы используем метод регуляризации, чтобы в основном уменьшить эффект переобучения. M — один из самых популярных параметров регуляризации. Таким образом, M обозначает количество деревьев во всей модели. Это также устраняет деградацию после сужения соответствующих процедур подгонки.

Чем больше количество градиентов, усиливающих итерации, тем больше уменьшается количество ошибок, но это увеличивает проблемы переобучения. Таким образом, мы можем сказать, что мониторинг ошибки необходим для выбора с использованием оптимального значения.

Глубина деревьев в дереве решений может быть эффективным параметром для регуляризации. Это можно сделать в качестве дополнительной меры, используя итерации повышения градиента. Чем глубже деревья, тем выше вероятность переобучения обучающих данных.

Алгоритм повышения градиента

Цель алгоритма состоит в том, чтобы определить функцию потерь, а затем принять меры для уменьшения указанной функции. Мы можем использовать MSE, т. е. среднеквадратичную ошибку, в качестве функции потерь. Он определяется следующим образом:

ПОТЕРИ = ∑ (ý – þ)2

В которой

Италия = целевое значение функции
þ = прогнозируемое значение функции

Квадрат отклонений, а затем сумма этих квадратов называется функцией потерь.

Наша цель — свести функцию потерь как можно ближе к нулю. Чтобы уменьшить функцию потерь, мы будем использовать градиентный спуск и регулярно обновлять значения прогноза. Поэтому нам нужно выяснить, где MSE наименьшая. Используя следующую формулу, можно получить минимальную MSE:

Следовательно, основная цель состоит в том, чтобы уменьшить сумму остатков как можно меньше.

Градиент, повышающий усадку

Другой важной частью повышения градиента является регуляризация за счет сжатия. Shrinkage изменяет правило обновления. Правило обновления — это не что иное, как скорость обучения. Было замечено, что если скорость обучения меньше 0,1, очень важно обобщить модель прогнозирования. Однако, если скорость обучения равна единице, может быть значительное улучшение повышения градиента даже при отсутствии сжатия. Но это увеличивает время вычислений. Если скорость обучения низкая, требования к количеству итераций выше.

Часто задаваемые вопросы (FAQ)

Что такое повышение градиента в машинном обучении?

Повышение градиента — это метод повышения в машинном обучении, при котором модель прогнозирования формируется на основе комбинации более слабых моделей прогнозирования.

Как работает повышение градиента?

Алгоритм повышения градиента содержит три элемента. Функция потерь изменяется в зависимости от решаемой проблемы, слабых учеников, которые используются для прогнозирования, и аддитивной модели, в которой деревья добавляются с помощью процедуры градиентного спуска. Метод предсказывает наилучшую возможную модель, комбинируя следующую модель с предыдущими, что минимизирует ошибку.

Когда использовать повышение градиента?

Повышение градиента обычно используется для уменьшения вероятности ошибки при обработке больших и сложных данных. Кроме того, он используется для создания наилучших прогнозов в процедурах регрессии и классификации.

Повышение градиента

Что такое повышение градиента?