Influence of network neurons number to network training and forecast accuracy


如何引用文章

全文:

详细

The authors analyze neural network training error dependence on the neurons number. The effect of hard deterioration of training and forecast parameters at some values of neurons number has been found, which can be connected with entry conditions influence, bringing the casual component in the initial configuration of weight factors values of neural network.

全文:

Вопрос о необходимых и достаточных свойствах сети для решения того или иного рода задач является одним из направлений нейрокомпьютерной науки. Принято считать, что в большинстве случаев в процессе обучения нейросети оптимальный вариант ее параметров получается на основе интуитивного подбора. Тем не менее большое значение имеет зависимость качества обучения и прогноза нейронной сети от параметров самой сети, которая может быть нетривиальной и требует специального исследования для любого класса задач. Знание зависимостей такого рода может помочь в решении важнейшей проблемы нейрокомпьютеринга - ускорения процесса обучения нейронных сетей. В данной работе была поставлена цель исследовать зависимость параметров обучения и прогноза нейронной сети от числа нейронов. В эксперименте была использована нейросетевая надстройка «Модели», разработанная в Институте биофизики СО РАН, реализующая оперативный синтез аналитических моделей с регулируемым уровнем сглаживания эмпирических данных, функционирующая в среде MS Excel. В математическом отношении программа осуществляет нелинейную многомерную регрессию. В качестве интерполирующего используется один из вариантов многомерных представлений в виде интегралов Фурье с заменой интегралов конечными суммами. Используемая нейронная сеть по своей структуре может называться двухслойной, так как содержит «основной» слой нелинейных элементов типа Asin(œx + ф) и дополнительный слой линейных элементов. При оптимизации используется метод быстрого вычисления многомерных градиентов, известный в рамках нейросетевой идеологии под именем back propagation (обратного распространения ошибки) или метода множителей Лагранжа, лежащий также в основе теории оптимального управления, и метод сопряженных градиентов [1; 2]. Среди задаваемых параметров в данной работе используются следующие: число нейронов, число итераций при обучении, значение спектральной плотности, размер обучающей и тестовой выборок. Нейрон в терминах данной компьютерной среды - это условный элементарный компонент сети, выполняющий роль преобразователя входных сигналов. Под итерацией понимается дискретное изменение весовых коэффициентов нейронной сети, играющее роль единичного интервала времени в процессе решения задачи. Параметр «спектр» определяется как максимальный уровень допустимой нелинейности синтезируемой модели, пропорциональный уровню спектральной плотности. Обучающая выборка содержит последовательность входных данных нейронной сети, используемых для настройки внутрисетевых связей, т. е. непосредственно для процесса обучения. Тестовая выборка - это совокупность данных, имеющих ту же внутреннюю закономерность, что и задачи обучающей выборки, но не включенных в нее. Успешность обучения оценивается по таким параметрам, как ошибка обучения нейронной сети, представляющая собой среднеквадратичное отклонение предсказаний сети от эмпирических входных данных, составляю щих обучающую выборку, и ошибка прогноза нейронной сети для тестовых задач, не участвующих в обучении. В работе использовалась тестовая задача распознавания периодической закономерности. В качестве модельного объекта была выбрана функция sin(x). На единственный вход сети подавались значения функции sin(x) и они же служили эталоном для сравнения, что по сути является элементарным тождественным преобразованием. Согласно теореме Вейерштрасса о возможности равномерной аппроксимации непрерывной действительной функции, определенной в диапазоне [-1,1], с помощью полиномов с любой точностью, а также теоретическим доказательствам полноты класса функций, вычислимых нейросетями [3], бесспорным является то, что при довольно слабых ограничениях нейросеть успешно решает задачи распознавания закономерностей типа sin(x). Соответственно, именно это обстоятельство лежит в основе выбора функции sin(x) в данной работе, и задача выяснить, может ли нейросеть распознать эту периодичность, не ставилась, так как основной вопрос данной работы - это выявление параметров, влияющих на процесс обучения нейросети, и однозначен ли этот механизм. В ходе вычислительного эксперимента отслеживалась обучаемость нейронной сети и динамика параметров обучаемости сети в зависимости от числа нейронов. Под обучаемостью нейросети здесь понимается такое количественное значение ошибок обучения и прогноза, которое соответствует прогнозным значениям функции синус, качественно воспроизводящим форму кривой синуса. По нашему мнению, такой критерий, как качественное воспроизведение нейросетью периодической закономерности, вполне адекватно соответствует цели данной работы. Оценка ошибки обучения при каждом значении числа нейронов проводилась в 50-кратной повторности. Достоверность отличий ошибок обучения нейросети при попарно различных значениях числа нейронов проверялась наиболее распространенными непараметрическими критериями сравнения двух независимых групп (критерий серий Вальда-Вольфовица, критерий Колмогорова-Смирнова, U-критерий Манна-Уитни ). На предварительном этапе вычислений было установлено, что задача распознавания синуса нейронной сетью решается удовлетворительно, если обучающая выборка содержит не менее % периода синуса, что соответствует 30 значениям данных в обучающей выборке. Это означает, что на основе информации о 3/4 периода входной функции нейросеть в состоянии воспроизводить эту функцию на любом заданном интервале тестовой выборки. Размер тестовой выборки, предлагаемой для прогноза нейросети, был ограничен 5 У периода синуса, что обусловлено соображениями достаточности. Запуски решения задачи распознавания периодичности нейронной сетью, сопровождаемые отслеживанием динамики обучаемости нейросети, проводились при разных значениях числа нейронов, прочие же па 57 Вестник СибГАУ. № 1(47). 2013 раметры нейронных сетей были одинаковыми. По снятым данным выполнено 9 вычислений средних параметров обучаемости нейронной сети, каждое из которых рассчитывалось для семейства нейронных сетей (50 нейросетей с совпадающими параметрами). Нельзя не отметить роль количества итераций в поставленном эксперименте: минимальное количество итераций было выбрано исходя из вероятного значительного практического значения, которое могут иметь сведения о работе нейронных сетей в таком жестком режиме. В созданных условиях нейронная сеть осуществляет однократный просмотр обучающей выборки, что соответствует начальной стадии обучения. Именно с этой точки зрения можно рассматривать процесс обучения нейронной сети как эволюцию показателей ее обучения на разных этапах, и уже на этих первых шагах обучения наблюдается неожиданный, нестандартный эффект. В процессе эксперимента были отмечены близкие значения средних ошибок обучения и прогноза нейронной сети, свидетельствующие об удовлетворительном распознавании нейронной сетью предложенной периодичности, что не противоречит теоретическим представлениям. По полученным результатам построена зависимость средней ошибки обучения в абсолютном виде от числа нейронов, представленная на рис. 1. Согласно данным рис. 1, наблюдаются нерегулярные эффекты влияния значения числа нейронов (например, число нейронов N = 4, 7, 9) на средние ошибки обучения. При указанных значениях числа нейронов параметры обучаемости нейросети резко ухудшаются по отношению к значениям ошибок слева и справа от них. В ходе эксперимента обнаружено, что для большинства значений числа нейронов обучение и прогноз в семействе нейронных сетей характеризуются небольшим разбросом значений ошибок, однако выщеленныю значения числа нейронов (N = 4, 7, 9) отличаются значительной дисперсией полученных результатов. Таблица 1 Статистическая оценка значимости максимумов при числе итераций - 1 Сравниваемые пары значений ошибок обучения нейросетей Достоверность различий средних на уровне p < 0,05 Для 2 нейронов и 4 нейронов Значимо по трем критериям Для 5 нейронов и 7 нейронов Не значимо Для 8 нейронов и 9 нейронов Значимо по одному критерию Что касается вероятных причин данного явления, то, возможно, выявленный эффект может быть связан с чувствительностью нейронной сети при небольшом числе итераций к влиянию начальных условий, содержащих случайную компоненту. Различные значения начальных условий могут существенно менять картину результатов благодаря формированию более или менее благоприятных для обучения стартовых значений весовых коэффициентов. Поскольку резкие ухудшения параметров обучения и прогноза нейронной сети при некоторых значениях числа нейронов (см. рис. 1) могут быть связаны с минимальным числом итераций, была построена зависимость ошибки обучения от числа нейронов при числе итераций 1 000, отображенная на рис. 2. Из полученной кривой следует, что установленный ранее эффект влияния числа нейронов на успешность обучения нейронной сети (см. рис. 1) сохраняется. 1,ооЕ-оа і 1.00Е-09 1.0DE-10 1.00Е-11 1,ООЕ-12 Рис. 1. Влияние числа нейронов на ошибку обучения (-◦-) нейронной сети при следующих условиях: значение спектральной плотности - 0,1, число итераций - 1 Помимо этого была произведена статистическая оценка значимости наблюдаемых максимумов, результаты которой представлены в табл. 1. Сравнивая данные табл. 1 и кривую, изображенную на рис. 1, можно заметить, что наличие второго максимума не подтверждается статистическими критериями из-за значительной дисперсии экспериментальных данных. ЧИСЛО HClipOKOR Рис. 2 Влияние числа нейронов на ошибку обучения (-◦-) нейронной сети при следующих условиях: значение спектральной плотности - 0.1, число итераций - 1 000 Как и на первом этапе эксперимента была проведена оценка статистической значимости максимумов полученной кривой, отображенная в табл. 2, которая позволяет заключить, что эффект резкого ухудшения обучения при некоторых значениях количества нейронов имеет устойчивую тенденцию сохраняться и при больших значениях числа итераций. То обстоятельство, что максимумы кривых на рис. 1 и 2 не всегда совпадают, вероятно, может быть связано с тем, что конкретный вид зависимости ошибки обучения нейронной сети от количества нейронов зависит от длительности обучения (количеством итераций) и его выявление требует дальнейших экспериментов с нейронными сетями. 58 Математика, механика, информатика Таблица 2 Статистическая оценка значимости максимумов при числе итераций - 1000 Сравниваемые пары значений ошибок обучения нейросетей Достоверность различий средних на уровне p < 0,05 Для 2 нейронов и 3 нейронов Значимо по трем критериям Для 4 нейронов и 5 нейронов Значимо по двум критериям Для 6 нейронов и 7 нейронов Значимо по одному критерию Для 9 нейронов и 10 нейронов Не значимо Полученные кривые зависимости параметров обучения и прогноза нейронной сети от числа нейронов характеризуются значительной немонотонностью. Природа наблюдаемого эффекта заложена в самом вычислительном механизме нейронной сети и предположительно отражает чувствительность нейронной сети к начальным условиям. Выявленный эффект влияния количества нейронов на обучаемость нейронной сети может иметь важное практическое и теоретическое значение. Проведена проверка на наличие эффекта переобучения нейронной сети на каждом этапе эксперимента путем включения в тестовую выборку значений синуса с отличным шагом и некратными значениями по сравнению со значениями обучающей выборки: переобучения нейронной сети не выявлено. * Авторы благодарят сотрудников Института биофизики СО РАН Барцева С. И. и Щемеля А. Л. за любезное предоставление нейронной сети и ценный вклад при обсуждении результатов, а также профессора СФУ Миркеса Е. М. Библиографические ссылки
×

参考

  1. Барцев С. И., Охонин В. А. Адаптивные сети обработки информации // Препринт ИФ СО АН СССР, Красноярск, 1986. № 59Б.
  2. Горбань А. Н. Обучение нейронных сетей. М.: ParaGraph, 1990. (English Translation: AMSE Transaction, Scientific Siberian, A. 1993. Vol. 6. Neurocomputing. Р. 1-134)
  3. Носков М. В., Симонов К. В., Щемель А. Л. Нелинейная многопараметрическая регрессия данных наблюдений // Вопросы математического анализа. Красноярск: ИЦП КГТУ, 2003. Вып. 7. С. 103-120.

补充文件

附件文件
动作
1. JATS XML

版权所有 © Lorents V.A., Gavrikov V.L., Khlebopros R.G., 2013

Creative Commons License
此作品已接受知识共享署名 4.0国际许可协议的许可
##common.cookie##