Итерационный алгоритм оптимизации, который обновляет параметры модели, используя случайный пример из обучающей выборки на каждом шаге. SGD позволяет значительно ускорить процесс обучения нейросетей на больших массивах данных по сравнению с классическим градиентным спуском.