Лабораторная работа по теории вероятностей и математической статистике


Лабораторная работа № 1
Обработка статистических данных
Цель: Научиться основным методам обработки данных, представленных выборкой. Изучить графические представления данных.
Теоретические сведения
Пусть изучается некоторая случайная величина X, над которой проводится ряд независимых испытаний. В каждом из этих испытаний СВ X принимает то или иное значение.
Пусть значение случайная величина приняла раз, значение – раз, …, значение – раз. При этом , где n – объем выборки.
Наблюдаемые значения называют вариантами, а последовательность вариант, записанных в порядке возрастания – вариационным рядом.
Операция расположения значений в порядке возрастания называется ранжированием статистических данных.
Числа наблюдений , показывающие сколько раз встречаются варианты в ряде наблюдений называются частотами.
Отношение частот к объему выборки называются относительными частотами (или частостями):

Статистическим распределением выборки (или статистическим рядом) называют перечень вариант и соответствующих им частот или относительных частот.
Статистическое распределение частот задается в виде таблицы, первая строка которой содержит варианты , а вторая соответствующие им частоты (или относительные частоты ).



В случае, когда число значений случайной величины X (признака) достаточно велико или признак является непрерывным (т.е. СВ X может принять любые значения из некоторого интервала), то составляют интервальный статистический ряд. В первую строку таблицы статистического распределения вписывают частичные промежутки , которые берут обычно одинаковыми по длине . Для определения величины интервала можно использовать формулу Стерджеса:

За начало первого интервала рекомендуется брать величину . Во вторую строку интервального статистического ряда записывают количество наблюдений попавших в соответствующий интервал.
Эмпирической функцией распределения (функцией распределения выборки) называют функцию , определяющую для каждого значения x относительную частоту события :

Для определения значений эмпирической функции распределения можно использовать равенство:

Полигоном частот называют ломанную линию, отрезки которой соединяют точки , , …, . Для построения полигона частот по оси абсцисс откладывают варианты , а на оси ординат – соответствующие им частоты .
Полигоном относительных частот называют ломанную, отрезки которой соединяют точки , , …, . Для построения полигона относительных частот по оси абсцисс откладывают варианты , а на оси ординат – соответствующие им относительные частоты .
В случае непрерывного признака целесообразно строить гистограмму частот, для чего интервал, в котором заключены все наблюдаемые значения, разбивают на несколько частичных интервалов длиной h и находят для каждого частичного интервала – сумму частот вариант, попавших в i-й интервал.
Гистограммой частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которых служат частичные интервалы длиной h, а высоты равны отношению (плотность частоты).
Для построения гистограммы частот на оси абсцисс откладывают частичные интервалы, а высоты равны отношению . Площадь i-го частичного прямоугольника равна – сумме частот вариант i-го интервала, следовательно, площадь гистограммы частот равна сумме всех частот, т.е. объему выборки.
Выборочным средним называется среднее арифметическое всех значений выборки:
или
В случае интервального статистического ряда в качестве берут середины его интервалов, а в качестве – соответствующие им частоты.
Выборочной дисперсией называется среднее арифметическое квадратов отклонений значений выборки от выборочной средней :
или
Выборочная дисперсия может также быть определена по формуле

Выборочное среднее квадратическое отклонение определяется по формуле:

Выборочное среднее квадратическое отклонение измеряется в тех же единицах, что и изучаемый признак
Исправленной выборочной дисперсией называется величина , определяемая равенством:
, т.е.
Исправленным выборочным квадратическим отклонением называется величина S, определяемая равенством:

Для непрерывно распределенного признака формулы для выборочных средних будут теми же самыми, но за значения следует выбирать середины промежутков , т.е. .
Размахом вариации (выборки) называется число

где – наибольший вариант ряда, – наименьший вариант ряда.
Модой вариационного ряда называется вариант, имеющий наибольшую частоту.
Медианой вариационного ряда называется значение признака, приходящееся на середину ряда.
Если ряд имеет четное количество членов, т.е. , то . Если имеет нечетное количество членов ряда, т.е. , то .
Пример: Дана выборка числа проданных автомобилей торговой фирмой за 25 недель:
14, 18, 16, 21, 12, 19, 27, 19, 15, 20, 27, 29, 22, 28, 19, 17, 18, 24, 23, 22, 19, 20, 23, 21, 19Построить: вариационный ряд, дискретный статистический ряд, интервальный статистический ряд, полигон, гистограммы и кумулятивную кривую, найти числовые характеристики.
Решение:
Запустите Microsoft Excel.
Введите в ячейку А1 - Данные
Введите в первый столбец (А2:А25) исходные данные
В ячейку B1 введите Ранж. данные
Выделите диапазон и скопируйте в ячейки В2:В25
Выполните сортировку массива данных в ячейках В2:В25 по возрастанию.

Подготовьте таблицу по образцу:

Чтобы определить объем выборки, используем функцию СЧЁТ(), которая подсчитывает количество ячеек в диапазоне, содержащих числа. В ячейку Е2 введите формулу
=СЧЁТ(B2:B26)Чтобы подсчитать, сколько раз каждое значение встречается в выборке будем использовать функцию СЧЁТЕСЛИ(диапазон;критерий), которая подсчитывает количество ячеек в диапазоне, удовлетворяющих критерию. В ячейку Е5 введите формулу
=СЧЁТЕСЛИ($B$2:$B$26;E4)Скопируйте формулу в ячейки F5:S5 с помощью автозаполнения
Для определения относительных частот в ячейку Е6 введите формулу
=E5/$E$2
Скопируйте формулу в ячейки F6:S6 с помощью автозаполнения
Дополните таблицу по образцу:

В ячейку Е10 введите формулу для определения максимального значения:
=МАКС(B2:B26)В ячейку Е12 введите формулу для определения минимального значения:
=МИН(B2:B26)В ячейку Е14 введите формулу для определения количества интервалов , округлив полученное число до большего по модулю целого числа
=ОКРУГЛВВЕРХ(1+LOG(E2;2);0)
В ячейку Е16 введите формулу для определения длины интервала
=(E10-E12)/E14
Дополните таблицу по образцу

Ячейки I9:I15 содержат левые границы интервалов, а ячейки J9:J15 содержат правые границы интервалов. Заполните ячейки по образцу:

Для заполнения столбца Частоты будем использовать функцию ЧАСТОТА(массив_данных;массив_интервалов), которая вычисляет частоту появления значений в интервале значений и возвращает массив чисел. Для этого в ячейку К9 введите формулу
=ЧАСТОТА(B2:B26;J9:J15)Выделите диапазон К9:К15, начиная с ячейки К9, нажмите функциональную клавишу на клавиатуре F2 (для перехода в режим редактирования ячейки) и нажмите комбинацию клавиш Ctrl+Shift+Enter.
Для построения кумулятивной кривой необходимо подсчитать накопленные частоты. Для этого дополните таблицу по образцу:

В ячейку L9 введите формулу
=K9
В ячейку L10 введите формулу
=L9+K10
Скопируйте формулу из ячейки L10 в ячейки L11:L15:

Дополните таблицу по образцу:

Для вычисления выборочного среднего введите в ячейку Е20 формулу
=СРЗНАЧ(B2:B26)Для вычисления выборочной дисперсии введите в ячейку Е22 формулу
=ДИСП(B2:B26)Для вычисления выборочного среднего квадратического отклонения введите в ячейку Е24 формулу
=КОРЕНЬ(E22)
Для вычисления размаха вариации введите в ячейку H20 формулу
=E10-E12
Для вычисления моды введите в ячейку H22 формулу
=МОДА(B2:B26)Для вычисления медианы введите в ячейку H24 формулу
=МЕДИАНА(B2:B26)Для построения полигона частот выделите диапазон D4:S5 перейдите на вкладку Вставка в группе Диаграмма раскройте кнопку-список и выберите нужный тип диаграммы

Получим

Для построения гистограммы частот выделите диапазон К8:К15 перейдите на вкладку Вставка в группе Диаграмма раскройте кнопку-список и выберите нужный тип Гистограмма:

Для построения гистограммы частот выделите диапазон L8:L15 перейдите на вкладку Вставка в группе Диаграмма раскройте кнопку-список и выберите нужный тип График:

Самостоятельная работа
Дана выборка выручки магазина за последние 30 дней. Построить: вариационный ряд, дискретный статистический ряд, интервальный статистический ряд, полигон, гистограммы и кумулятивную кривую, найти числовые характеристики.
Вариант Выборка
1. 18 19 21 18 16 19 18 16 17 18 15 22 18 17 22
14 19 16 14 14 22 14 21 18 16 12 19 18 18 15
2. 22 23 23 22 21 20 21 18 16 22 18 25 13 23 17
24 21 17 19 27 26 25 21 26 19 24 20 18 23 18
3. 37 32 29 32 28 32 33 35 30 36 32 28 34 32 32
27 32 38 38 32 29 30 39 39 31 30 31 39 29 33
4. 46 43 36 44 39 47 41 47 41 50 50 49 41 40 50
45 46 47 44 48 46 48 46 51 41 47 51 52 40 47
5. 72 74 69 71 73 68 73 77 76 77 76 76 76 64 65
75 70 75 71 69 72 69 78 72 67 72 81 75 72 69
6. 52 51 46 43 50 50 53 57 48 55 56 45 55 51 55
41 54 60 52 52 59 49 51 50 47 49 57 54 54 42
7. 44 44 46 45 49 44 47 47 36 37 35 40 35 39 41
34 38 42 44 42 35 43 45 39 33 39 45 47 41 45
8. 59 60 65 50 55 64 66 63 55 62 60 58 67 58 65
63 59 57 65 56 66 59 59 60 61 65 59 50 64 63
9. 55 71 66 74 71 70 68 76 75 73 65 75 73 70 67
59 63 68 65 65 81 69 64 57 58 68 70 71 71 71
10. 65 72 69 68 62 71 74 74 70 67 76 73 79 77 70
65 70 66 75 66 74 75 84 87 71 69 67 67 75 60
11. 68 63 72 62 58 77 67 67 71 72 75 73 70 66 73
70 69 78 73 64 71 69 73 71 71 68 65 66 69 74
12. 18 19 21 18 16 19 18 16 17 18 15 22 18 17 22
14 19 16 14 14 22 14 21 18 16 12 19 18 18 15
13. 31 33 21 34 27 29 17 31 15 25 30 33 16 14 35
29 19 25 15 35 35 14 24 34 24 32 26 20 21 36
14. 57 70 52 73 56 55 63 67 52 74 54 53 67 66 52
68 67 58 51 51 73 61 56 58 65 63 70 54 58 58
15. 31 12 29 31 27 22 17 24 30 11 19 18 11 26 23
18 22 14 28 17 14 26 16 28 24 24 24 28 29 14