Лабораторные работы по Теории вероятностей и математической статистики
Лабораторный практикум
«ИССЛЕДОВАНИЕ СТАТИСТИЧЕСКИХ ФУНКЦИЙ.
СТАТИСТИЧЕСКИЕ МЕТОДЫ ОБРАБОТКИ ДАННЫХ».
Лабораторная работа 1.Обработка опытных данных
Задание 1.1 Основным объектом исследования в математической статистике является выборка. Выборкой объема n называются числа x1 , x2 , …, xn, получаемые на практике при n – кратном повторении эксперимента в неизменных условиях. На практике выборку чаще всего представляют статистическим рядом. Для этого вся числовая ось, на которой лежат значения выборки, разбивается на k интервалов (это число выбирается произвольно от 5 до 10), которые обычно равны, вычисляются середины интервалов zi, и считается число элементов выборки, попадающих в каждый интервал ni. Статистическим рядом называется последовательность пар (zi , ni). Рассмотрим решение задачи на ЭВМ в программе EXCEL на следующем примере.
Лист 1 необходимо переименовать как «Задание 1.1».
Дана выборка
14 18 16 21 12 19 27 19 15 20 27 29 22 28 19 17 18 24
23 22 19 20 23 21 19
Построим статистический ряд, полигон, гистограмму и кумулятивную кривую. Откроем книгу программы EXCEL. Напишем заголовок в ячейке А1 - Исходный массив. Введем в первый столбец (ячейки А2-А26) исходные данные. Определим область чисел, на какой лежат данные. Для этого найдем максимальный и минимальный элементы выборки. Введем в В1 подпись «Максимум», а в С2 - подпись «Минимум». В ячейках В2 и С2 определим функции «МАХ» и «MIN». Для этого ставим курсор в В2 и вызываем мастер функций, нажав на кнопку fx , в открывшемся окне в поле «Категория» выбираем «Статистические», и ниже ищем функцию МАКС и вызываем ее двойным щелчком мыши по названию. В качестве аргумента функции (в графе «Число 1») обведем область данных (ячейки А2- А26). Поле «Число 2» оставляем пустым. Нажимаем «ОК». Результатом будет число 29. Ставим курсор в ячейку С2 и аналогично вводим функцию МИН. Результат – число 12. Видно, что все данные укладываются на отрезке [12;30]. Разделим его на девять (выбирается произвольно от 5 до 10) интервалов по 2 единицы каждый.
В ячейку D1 напишем заголовок «Диапазоны», и введем в столбец значения интервалов, начиная с ячейки D2:
12-14, 14-16, 16-18, 18-20, 20-22, 22-24, 24-26, 26-28, 28-30.
В ячейку Е1 напишем заголовок «Массив верхних границ диапазонов» и в ячейки E2-Е10 введём верхние границы интервалов группировки – числа 14, 16, 18, 20, 22, 24, 26, 28, 30. Для вычисления частот ni используют функцию ЧАСТОТА, находящуюся в категории «Статистические». Введем ее в ячейку F2. В строке «Массив данных» введем диапазон выборки (ячейки А2-А26). В строке «Массив интервалов» введем диапазон верхних границ интервалов группировки (ячейки E2-E10). Результат функции является массивом и выводится в ячейках F2-F10. Для полного вывода (не только первого числа в Е1) нужно выделить ячейки F2-F10, обведя их мышью, и нажать F2, а далее одновременно CTRL+SHIFT+ENTER. Результат – частоты интервалов:
2,2,3,7,4,3,0,3,1.
(или просто после ввода формулы необходимо вместо ENTER нажать сочетание клавиш CTRL+SHIFT+ENTER).
Для построения гистограммы нужно выбрать ВСТАВКА/ДИАГРАММА или нажать на соответствующий значок на основной панели (при этом курсор должен стоять в свободной ячейке). Далее выбрать тип: ГИСТОГРАММА, вид по выбору, нажать «ДАЛЕЕ», в строке «ДИАПАЗОН» обвести частоты F2-F10, перейти на вкладку «РЯД», в строке « ПОДПИСИ ОСИ Х» ввести интервалы в ячейках E2-E10, нажать «ДАЛЕЕ» ввести название «ГИСТОГРАММА», подписи осей: ось Х - «ИНТЕРВАЛЫ» и ось Y - «ЧАСТОТА», нажать «ГОТОВО».
Для создания полигона перейти на пустую ячейку и сделать то же самое, только вместо типа диаграммы «ГИСТОГРАММА», выбрать «ГРАФИК».
Для построения кумулятивной кривой нужно посчитать накопленные частоты. Для этого в ячейку G2 вводим «=F2», в G3 – вводим «=G2+F3» и автозаполнением перетаскиваем эту ячейку до G10. Далее строим график как и в случае полигона, но в строке «ДИАПАЗОН» вводим накопленные частоты, ссылаясь на G2- G10, а на вкладке «РЯД», в строке « ПОДПИСИ ОСИ Х» вводим интервалы в ячейках E2-E10.
Задание 1.2
Переименуйте Лист 2 - «Задание 1.2».
Необходимо провести аналогичную работу с расчетом и построением для следующей выборки.
Отчетность по лабораторным работам
По результатам выполнения лабораторной работы студент представляет отчет. Отчет должен содержать:
результативные таблицы с рассчитанными обобщающими показателями;
рисунки статистических графиков;
заключения о статистических свойствах изучаемой совокупности, сделанные на основе анализа таблиц и графиков;
Материалы отчета располагаются в следующем порядке:
Титульный лист.
Постановка задачи статистического исследования, включая исходные данные варианта.
Распечатка рабочего файла с результативными таблицами и графиками (при копировании таблиц из Excel в Word следует предварительно снять цветную заливку заголовков таблиц Excel).
Выводы о статистических свойствах изучаемой совокупности, сделанные на заключительном этапе работы на основе анализа полученных обобщающих показателей и статистических графиков.
Выводы излагаются в текстовой форме в порядке и сопровождаются ссылками на соответствующие результативные таблицы и графики.
Подготовка отчета производится вне рамок времени, отведенного на выполнение лабораторной работы.
Студент, не сдавший отчет по лабораторной работе, считается не выполнившим учебный план и к дифференцированному зачету не допускается.
Лабораторная работа 2. Точечное оценивание.
Точечные оценки параметров распределения это оценки, полученные по выборке и приближенно равные оцениваемым параметрам.
Основными точечными оценками являются:
Объем выборки n – количество элементов в выборке.
Выборочное среднее – оценка математического ожидания, среднеарифметическое элементов выборки.
Выборочная дисперсия S2 – среднее квадратов отклонения элементов выборки от выборочного среднего, является оценкой дисперсии, характеризует разброс выборочных значений.
Стандартное отклонение S – корень из дисперсии.
Медиана h – средний элемент вариационного ряда или полусумма двух средних элементов, если объем выборки четный.
Мода d – наиболее часто повторяющийся элемент.
Коэффициент эксцесса δ - характеризует «островерхость» гистограммы или полигона по сравнению с кривой Гаусса нормального распределения.
Коэффициент асимметрии γ - характеризует степень симметричности гистограммы или полигона.
Задание 2.1
Запускаем программу EXCEL, первый лист.
Переименовать Лист 1- «Задание 2.1» Вводим исходные данные в ячейки А2-А26 из Лабораторной работы 1.Задание 1.1. Находим числовые характеристики. Для ввода функций выделяем два столбца, например В и С, в первом вводим название характеристики, во втором – функцию. В ячейки В1-В9 вводим подписи числовых характеристик, то есть вписываем в эти ячейки первый столбец таблицы приведенной ниже. В С1 вводим текст «Функция» и ниже определяем функции, соответствующие названию (из второй колонки таблицы). Все функции вызываются нажатием на кнопку fx , находятся в категории «Статистические» и в качестве массива данных (поле «ЧИСЛО 1»), указывается ссылка на А2-А26. Например, для ввода первой из них ставим курсор в С2, нажимаем fx , выбираем категорию «Статистические» и функцию «Счет», в открывшемся окне ставим курсор в поле «Число 1» и обводим курсором ячейки А2-А26, нажимаем «ОК». Также поступаем и с другими функциями.
Характеристика Функция
Объем выборки СЧЁТ(массив данных)
Выборочное среднее СРЗНАЧ(массив данных)
Дисперсия ДИСП(массив данных)
Стандартное отклонение СТАНДОТКЛОН(массив данных)
Медиана МЕДИАНА(массив данных)
Мода МОДА(массив данных)
Коэффициент эксцесса ЭКСЦЕСС(массив данных)
Коэффициент асимметрии СКОС(массив данных)
Существует другой способ вычисления числовых характеристик выборки. Для этого ставим курсор в свободную ячейку (например, D2). Затем вызываем в меню «Сервис» подменю «Анализ данных» (Data Analysis1). Если в меню «Сервис» отсутствует этот пункт, то в меню «Сервис» нужно выбрать пункт «Надстройки» и в нем поставить флажок напротив пункта «Пакет анализа» (Analysis ToolPak). После этого в меню «Сервис» появится «Анализ данных» (Data Analysis). В окне «Анализ данных» нужно выбрать пункт «Описательная статистика» (Descriptive Statistics). В появившемся окне в поле «Входной интервал» (Input Range) делаем ссылку на выборку А2-А26, помещая курсор в поле и обводя эти ячейки.
Оставляем группирование «По столбцам» (Columns). В разделе «Параметры вывода» (Output Options) ставим флажок на «Выходной интервал» (Output Range) и в соседнем поле задаем ссылку на верхнюю левую ячейку области вывода (например D2), ставим флажок напротив «Описательная статистика» (Summary Statistics), нажимаем «ОК». Результат – основные характеристики выборки (сделайте шире столбец D, переместив его границу в заголовке).
Задание 2.2
Переименовать Лист 2- Задание 2.2. Выполнить тот же самый алгоритм действий, как в Задании 2.1, но для данных из Лабораторной работы 1. Задание 1.2.
Лабораторная работа 3. Интервальное оценивание.
Рассмотрим теперь методы интервального оценивания. Доверительным интервалом называется интервал (a;b) , в который с заданной вероятностью р попадает оцениваемый параметр. Вероятность р называется доверительной. Вместо нее часто задают величину α =1- p , называемую уровнем значимости. Если выборка объема п представляет случайную величину, распределенную нормально, то доверительные интервалы для матожидания и дисперсии равны
Где - квантили распределения Стьюдента и хи-квадрат, α =1- p . Возвращаемся на лист 1 электронной таблицы с данными
примера и для них вычислим доверительные интервалы при р=0,05.
Вводим данные согласно рисунку:
Для вычисления величины служит функция «ДОВЕРИТ» категории «Статистические» с тремя параметрами «Альфа» - уровень значимости α =1- p , «Стандоткл» - среднеквадратическое тклонение S, «Размер» - объем выборки п. Таким образом, вводим в Н3 функцию:
=СРЗНАЧ(А1:А25)-ДОВЕРИТ(I1;СТАНДОТКЛОН(А1:А25);25)
а в ячейку I3 функцию:
=СРЗНАЧ(А1:А25)+ДОВЕРИТ(I1;СТАНДОТКЛОН(А1:А25);25)
Для вычисления доверительного интервала для дисперсии следует отметить, что функция вычисления квантили распределения хи-квадрат (обратного распределения хи-квадрат) называется «ХИ2ОБР» (категория «Статистические») и имеет два параметра: первый «Вероятность» содержит доверительную вероятность р, второй – степень свободы п-1.
Вводим в соответствии с данными условиями и формулой для доверительного интервала в ячейку Н4 запись:
=ДИСП(A1:A25)*24/ХИ2ОБР(0,025;24)
а в ячейку I4 запись: =ДИСП(A1:A25)*24/ХИ2ОБР(0,975;24).
Получаем значения границ доверительных интервалов.