Решение задач по статистике: вариационный ряд, гистограмма, корреляция, регрессия

Photo

Привет! Сейчас помогу разобраться с этими заданиями.

Задание 1

1. Группировка данных в вариационный ряд

Вариационный ряд - это упорядоченный набор данных. Сначала нужно отсортировать данные по возрастанию:

20, 20, 20, 20, 20, 25, 25, 26, 26, 27, 27, 27, 28, 28, 28, 30, 30, 30, 30, 31, 31, 32, 32, 32, 32, 32, 32, 32, 33, 33, 34, 34, 35, 35, 35, 36, 36, 37, 37, 37, 38, 39, 40, 40, 43, 43, 45, 45, 50

2. Построение гистограммы

Для построения гистограммы нужно разбить данные на интервалы и посчитать частоту попадания значений в каждый интервал. Например, можно взять интервалы длиной 5 кг:

  • 20-25: 7
  • 25-30: 9
  • 30-35: 15
  • 35-40: 9
  • 40-45: 5
  • 45-50: 3

Гистограмма строится по этим данным, где по оси X откладываются интервалы, а по оси Y - частоты.

3. Расчет статистик

  1. Среднее арифметическое: Сумма всех значений, деленная на количество значений.

    $\bar{x} = \frac{\sum_{i=1}^{n} x_i}{n}$

    $\bar{x} = \frac{20+20+...+50}{49} = \frac{1568}{49} \approx 32.0$
    2. Размах: Разница между максимальным и минимальным значениями.

    $R = x_{max} - x_{min}$

    $R = 50 - 20 = 30$
    3. Мода: Значение, которое встречается наиболее часто. В данном случае, мода - 32 (встречается 7 раз).
    4. Медиана: Значение, которое делит упорядоченный набор данных пополам. Так как у нас 49 значений, медиана - это 25-е значение в упорядоченном ряду, то есть 32.
    5. Коэффициент вариации: Отношение стандартного отклонения к среднему арифметическому, выраженное в процентах.

    $CV = \frac{\sigma}{\bar{x}} \cdot 100\%$

    Сначала нужно рассчитать стандартное отклонение ($\sigma$):

    $\sigma = \sqrt{\frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1}}$

    $\sigma \approx 6.84$

    $CV = \frac{6.84}{32.0} \cdot 100\% \approx 21.38\%$
    6. Среднее линейное отклонение: Среднее арифметическое абсолютных отклонений от среднего.

    $MAD = \frac{\sum_{i=1}^{n} |x_i - \bar{x}|}{n}$

    $MAD \approx 5.35$
    7. Дисперсия: Средний квадрат отклонений от среднего.

    $D = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1}$

    $D \approx 46.79$
    8. Среднее квадратическое отклонение: Квадратный корень из дисперсии (то есть стандартное отклонение).

    $\sigma = \sqrt{D} \approx 6.84$

4. Расчет средней квадратической ошибки для генеральной средней

  1. Средняя квадратическая ошибка (стандартная ошибка):

    $SE = \frac{\sigma}{\sqrt{n}}$

    $SE = \frac{6.84}{\sqrt{49}} \approx 0.98$
    2. Коэффициент Стьюдента: Для 49 значений и доверительной вероятности, например, 95%, коэффициент Стьюдента (t) примерно равен 2.01 (можно найти в таблице Стьюдента).
    3. Интервал для генеральной средней:

    $CI = \bar{x} \pm t \cdot SE$

    $CI = 32.0 \pm 2.01 \cdot 0.98$

    $CI = 32.0 \pm 1.97$

    Интервал: (30.03, 33.97)

5. Расчет квартилей и перцентилей

  1. Квартили:
    • $Q_1$ (25-й перцентиль): 25% данных ниже этого значения. $Q_1 = 27$
    • $Q_2$ (50-й перцентиль, медиана): 50% данных ниже этого значения. $Q_2 = 32$
    • $Q_3$ (75-й перцентиль): 75% данных ниже этого значения. $Q_3 = 36$
  2. Перцентили:
    • 25-й перцентиль: $P_{25} = Q_1 = 27$
    • 50-й перцентиль: $P_{50} = Q_2 = 32$
    • 70-й перцентиль: $P_{70} \approx 35$

6. Расчет асимметрии и эксцесса

  1. Асимметрия:

    $AS = \frac{\frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^3}{\sigma^3}$

    $AS \approx 0.27$ (небольшая положительная асимметрия)
    2. Эксцесс:

    $EX = \frac{\frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^4}{\sigma^4} - 3$

    $EX \approx -0.77$ (плосковершинное распределение)

7. Вывод о нормальности распределения

Поскольку асимметрия близка к 0, а эксцесс отрицательный, можно сказать, что распределение близко к нормальному, но немного плосковершинное.

Задание 2

Расчет коэффициента корреляции

Для расчета коэффициента корреляции между температурой воды ($x$) и содержанием аммонийного азота ($y$) используем формулу:

$r = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \bar{x})^2 \sum_{i=1}^{n} (y_i - \bar{y})^2}}$

Сначала рассчитаем средние значения для температуры и содержания азота:

$\bar{x} = \frac{18+17+17+16+17+16+18+17+15+15+14+14+14+14+15+17}{16} = \frac{252}{16} = 15.75$

$\bar{y} = \frac{24+23.5+25.8+25.9+26.4+25.1+24.6+25.9+25.7+25+24.5+25.2+25.3+24.1+25+24.6}{16} = \frac{400.2}{16} = 25.0125$

Теперь рассчитаем коэффициент корреляции:

$r \approx 0.15$

Расчет корреляционного отношения

Корреляционное отношение (η) показывает, насколько хорошо зависимость между переменными описывается какой-либо функцией (не обязательно линейной). В данном случае, поскольку коэффициент корреляции уже рассчитан, можно использовать его для оценки корреляционного отношения. Если зависимость близка к линейной, то η ≈ |r|.

$\eta \approx |0.15| = 0.15$

Расчет коэффициента детерминации

Коэффициент детерминации ($R^2$) показывает, какая доля дисперсии одной переменной объясняется дисперсией другой переменной. Он равен квадрату коэффициента корреляции:

$R^2 = r^2$

$R^2 = (0.15)^2 = 0.0225$

Это означает, что только 2.25% вариации содержания аммонийного азота объясняется изменением температуры воды.

Задание 3

1. Найти коэффициенты регрессии y по x и x по y

Для начала обозначим жирномолочность матерей как $x$, а жирномолочность дочерей как $y$.

Коэффициент регрессии $y$ по $x$ ($b_{yx}$) рассчитывается по формуле:

$b_{yx} = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n} (x_i - \bar{x})^2}$

Коэффициент регрессии $x$ по $y$ ($b_{xy}$) рассчитывается по формуле:

$b_{xy} = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n} (y_i - \bar{y})^2}$

Сначала рассчитаем средние значения $\bar{x}$ и $\bar{y}$:

$\bar{x} = \frac{4.05 + 3.76 + 3.17 + 3.61 + 3.27 + 3.61 + 3.8 + 3.65 + 3.34 + 3.65 + 3.4 + 3.11}{12} = \frac{42.42}{12} = 3.535$

$\bar{y} = \frac{3.79 + 3.57 + 3.11 + 3.61 + 3.44 + 3.71 + 3.61 + 2.98 + 3.3 + 3.6 + 3.45 + 3.65}{12} = \frac{41.82}{12} = 3.485$

Теперь рассчитаем числители и знаменатели для коэффициентов регрессии:

$\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y}) \approx 0.444$

$\sum_{i=1}^{n} (x_i - \bar{x})^2 \approx 0.604$

$\sum_{i=1}^{n} (y_i - \bar{y})^2 \approx 0.434$

Подставим значения в формулы:

$b_{yx} = \frac{0.444}{0.604} \approx 0.735$

$b_{xy} = \frac{0.444}{0.434} \approx 1.023$

2. Найти уравнение регрессии и коэффициент детерминации

Уравнение регрессии $y$ по $x$ имеет вид:

$y = a + b_{yx}x$

Чтобы найти $a$, используем формулу:

$a = \bar{y} - b_{yx}\bar{x}$

$a = 3.485 - 0.735 \cdot 3.535 \approx 0.88$

Итак, уравнение регрессии $y$ по $x$:

$y = 0.88 + 0.735x$

Коэффициент детерминации ($R^2$) рассчитывается как квадрат коэффициента корреляции ($r$):

$R^2 = r^2$

Коэффициент корреляции $r$ можно найти как:

$r = \sqrt{b_{yx} \cdot b_{xy}} = \sqrt{0.735 \cdot 1.023} \approx 0.867$

$R^2 = (0.867)^2 \approx 0.752$

Это означает, что примерно 75.2% вариации жирномолочности дочерей объясняется вариацией жирномолочности матерей.

3. Графическое представление уравнения регрессии

Чтобы представить уравнение регрессии графически, нужно построить прямую $y = 0.88 + 0.735x$ на графике, где по оси $x$ отложена жирномолочность матерей, а по оси $y$ - жирномолочность дочерей.

thinking img
progress gif

Текст скопирован
Готово
Ошибка
×