Оценка точности прогнозирования случайной величины

Наиболее простой способ охарактеризовать точность прогноза это указать размах колебаний значений случайной величины в выборке. Размах колебаний – это разность между максимальным и минимальными значениями, чем он больше, тем меньше точность прогноза. Но у этой характеристики есть существенный недостаток – при наличии выбросов (аномально больших и аномально малых значений), размах колебаний занижает оценку точности, так как реагирует только на них.

Более объективной характеристикой колеблемости случайной величины должна была бы являться или сумма отклонений случайной величины от своего среднего значения или, что еще лучше, среднее значение этого отклонения. Но в силу того, что отклонения случайной величины от среднего значения могут быть как положительные, так и отрицательные их сумма имеет тенденцию стремиться к нулю. Для устранения этого недостатка необходимо использовать или абсолютные значения этих отклонений или квадраты отклонений. Абсолютные значения представляют меньшие возможности для теоретических построений, по этому исторически сложилось так, что в качестве основного измерителя колеблемости случайной величины используется дисперсия. Дисперсия это средний квадрат отклонения случайной величины от своего среднего значения. Для генеральной совокупности дисперсия определяется по формуле:

где:         – i-е значение из генеральной совокупности случайной величины;

        – ее среднее значение;

        – число значений случайной величины в генеральной совокупности.

Еще один вариант формулы для расчета дисперсии, удобный при ручном счете или в случае, когда появляются новые значения случайной величины, имеет вид:

.

В случае, когда генеральная совокупность не известна, а известна лишь только выборка из нее, то оценка дисперсии генеральной совокупности по данным выборки должна производится по несколько модифицированным формулам:

.

Дисперсия является универсальным показателем степени колеблемости случайной величины, а значит и точности прогноза, но у нее имеется существенный недостаток – это величина по своей сути не имеет единиц измерения (прибыль измеряется в рублях, дисперсия прибыли это рубли в квадрате). По этому наряду с дисперсией для характеристики колеблемости исходных данных используется производная от дисперсии величина – стандартное отклонение (второе название – среднеквадратическое отклонение) , равное корню квадратному от дисперсии, т.е.:

.

В отличии от дисперсии стандартное отклонение имеет туже размерность, что и характеризуемая им случайная величина.

Для полной характеристики точности полученного прогноза одной лишь дисперсии или стандартного отклонения недостаточно, необходимо еще указать тип распределения случайной величины.

Если взять гистограмму случайной величины и начать увеличивать число интервалов по которым она построена (уменьшать их величину) то гистограмма начнет уменьшаться по высоте и становиться все более гладкой (рис 7). При бесконечно большом числе значений случайной величины и бесконечно малой величине интервалов гистограмма превратится в плавную кривую. Полученная таким образом кривая называется кривой плотности распределения или второе название – функция плотности распределения.

Рис 7. Схема получения кривой плотности распределения.

Высота кривой плотности распределения показывает вероятность появления заданного значения случайной величины. Площадь под кривой плотности распределения принимается равной единице. Это вероятность появления любого значения случайной величины в диапазоне от до . Тогда отношение площади фигуры ограниченной кривой плотности распределения и двумя вертикальными отрезками проходящими через и к площади всей фигуры под кривой плотности распределения равно вероятности появления очередного значения случайной величины в диапазоне от до (рис 8, а).

В пределе может быть равно , тогда площадь левой части фигуры будет равна вероятности появления очередного значения случайной величины меньшего или равного (рис 8, б). В случае, когда = , то правая часть фигуры будет равна вероятности появления очередного значения случайной величины большего или равного (рис 8, в).

Помимо функции плотности распределения для характеристики типа распределения может использоваться функция, показывающая вероятность появления очередного значения случайной величины меньшего или равного заданному значению. Это кумулятивная (накопленная) функция распределения. Точки на кривой распределения представляют собой значения площади под кривой плотности распределения в диапазоне от до , иными словами они равны интегралу

где:         – функция плотности распределения.

Рис 8. Использование кривой плотности распределения для определения вероятности появления очередного значения случайной величины в заданном диапазоне.

По графику кумулятивной кривой распределения помимо вероятности появления значения случайной величины в заданных пределах, можно определить ее ожидаемое значение (такое , для которого функция распределения равна 0,5), ожидаемый убыток () и ожидаемый доход (). Ожидаемый убыток это расстояние от оси ординат до центра тяжести фигуры, образованной функцией распределения и осями координат. Ожидаемый доход это расстояние от оси ординат до центра тяжести фигуры образованной осью ординат, функцией распределения и горизонтальной прямой, проходящей через 1 на оси ординат (рис.9).

Рис 9. Использования функции распределения для нахождения ожидаемого дохода и убытка.

Математически ожидаемый убыток равен

а ожидаемый доход

Типов распределения случайной величины существует очень много, но наиболее часто встречается на практике нормальное распределение. Его наибольшая распространенность доказана математически. Согласно одному из вариантов предельной теоремы теории вероятности, если исследуемая случайная величина зависит от многих других случайных величин и среди этих влияющих величин нет превалирующих по силе влияния, то исследуемая случайная величина будет иметь распределение близкое к нормальному вне зависимости от того какие распределения имеют влияющие величины.

Нормальное распределение имеет форму колоколо-образной симметричной кривой, наивысшая точка которой соответствует , а высота и ширина определяются значением . Функция плотности нормального распределения описывается зависимостью вида:

На рис.10 показаны кривые плотности нормального распределения трех случайных величин, иллюстрирующие влияние параметров случайной величины на кривую плотности нормального распределения. Как следует из этих графиков положение кривой на числовой оси определяется средним значением случайной величины — средина кривой плотности нормального распределения соответствует, а форма кривой – ее высота и ширина — определяются стандартным отклонением .

Рис 10. Влияние параметров случайной величины на положение и форму кривой плотности нормального распределения.

В зависимости от конкретных значений и существует бесчисленное множество вариантов кривой плотности распределения. Тем не менее, за счет алгебраического преобразования случайной величины все это многообразие может быть сведено к одному единственному варианту.

Если вычесть из значений случайной величины ее среднее значение, т.е. осуществить замену координаты на , то все кривые плотности распределения располагаются симметрично оси ординат (рис.11а). Различия между ними сохраняются лишь только в высоте и ширине. Высота каждой из них равна и при становится равной , т.е. случайная величина превращается в обычную детерминированную. Еще одно преобразование заключающееся в делении на стандартное отклонение приводит к тому, что кривые плотности нормального распределений любой случайной величины преобразуется к одной единственной кривой – функции плотности вероятности стандартизованного нормального распределения.

На горизонтальной оси в этом случае откладываются не значения случайной величины, а их безразмерные аналоги, измеренные в стандартных отклонениях.

Рис 11. Преобразование нормального распределения к стандартизованному виду.

Кривая плотности стандартизованного нормального распределения детально изучена. Ее значения, а также значения кумулятивной функции, приводятся практически во всех учебниках по теории вероятности и статистике. Это позволяет легко осуществлять расчеты вероятности появления того или иного события для любой случайной величины имеющей нормальное распределение. Так, например, для определения вероятности появления очередного значения случайной величины, равного необходимо найти , далее по таблице плотности вероятности стандартного нормального распределения найти эту вероятность. В случае, если необходимо найти вероятность того, что очередное значение случайной величины не превысит , то опять необходимо вначале осуществить переход от к и затем искать эту вероятность по таблице появления очередного значения случайной величины в диапазоне от до . Единственная трудность встречающаяся при этом  заключается в том, что в различных источниках приводятся различные варианты диапазона для которого осуществлен расчет вероятности появления случайной величины в заданном диапазоне. Этот диапазон может быть в классическом виде от до ; от 0 до , от до . В случае, если расчеты вероятности осуществляются в электронной таблице, то задача существенно упрощается, т.к. в ней имеется специальная функция, позволяющая без использования z — преобразования осуществлять расчет вероятности появления заданного значения случайной величины или того, что она не превысит заданную величину. Все остальные варианты легко находятся согласно схеме рис.6.

Вероятность того, что очередное значение случайной величины окажется не менее находится по формуле:

,

вероятность того, что очередное значение случайной величины окажется в диапазоне от до — по формуле:

,

вне этого диапазона:

Для экспрессных оценок вероятности появления того или иного события полезно знать некоторые базовые соотношения для нормального распределения:

вероятность попадания очередного значения случайной величины в интервал

       составляет ≈ 68,3%, т.е. шансы примерно 2 к 1

       составляет ≈ 95,5 %, т.е. шансы примерно 20 к 1

       составляет  99,7%, т.е. шансы примерно 300 к 1.

Или иной вариант, более удобный для практики:

существует 10% вероятность того, что очередное значение окажется вне пределов (1 шанс из 10);

5% вероятность выхода за пределы (1 шанс из 20);

1% вероятность выхода за пределы (1 шанс из 100).

При работе с выборками всегда возникает вопрос о том насколько обосновано избранное для расчетов то или иное распределение и каковы ошибки при неверно выбранном типе распределения. Русским математиком Чебышевым была доказана теорема о том, что в случае любого распределения вероятность выхода очередного значения за пределы не превышает 10%. Иными словами любые ошибки в выборе распределения грозят нам погрешностями не превышающими 10%, в то время как попытки оценок вероятности «на глазок» очевидно чреваты куда более существенными промахами.

В заключение отметим, что задача прогнозирования случайной величины по выборке ее предыдущих значений или по значениям, характерным для объектов того же класса сводится:

к нахождению медианы, среднего значения или моды служащих в качестве прогнозного значения;

указанию пределов и вероятности попадания прогноза в эти пределы в качестве характеристики точности прогноза.

В качестве альтернативного способа характеристики точности прогноза можно указать вероятность получения и ожидаемую величину отрицательного значения прогнозируемой величины и вероятность и ожидаемую величину положительного значения.