Решение задач по статистике: вариационный ряд, гистограмма, корреляция, регрессия

Photo

Привет! Сейчас помогу разобраться с этими заданиями.

Задание 1

1. Группировка данных в вариационный ряд

Вариационный ряд - это упорядоченный набор данных. Сначала нужно отсортировать данные по возрастанию:

20, 20, 20, 20, 20, 25, 25, 26, 26, 27, 27, 27, 28, 28, 28, 30, 30, 30, 30, 31, 31, 32, 32, 32, 32, 32, 32, 32, 33, 33, 34, 34, 35, 35, 35, 36, 36, 37, 37, 37, 38, 39, 40, 40, 43, 43, 45, 45, 50

2. Построение гистограммы

Для построения гистограммы нужно разбить данные на интервалы и посчитать частоту попадания значений в каждый интервал. Например, можно взять интервалы длиной 5 кг:

  • 20-25: 7
  • 25-30: 9
  • 30-35: 15
  • 35-40: 9
  • 40-45: 5
  • 45-50: 3

Гистограмма строится по этим данным, где по оси X откладываются интервалы, а по оси Y - частоты.

3. Расчет статистик

  1. Среднее арифметическое: Сумма всех значений, деленная на количество значений.

    \(\bar{x} = \frac{\sum_{i=1}^{n} x_i}{n}\)

    \(\bar{x} = \frac{20+20+...+50}{49} = \frac{1568}{49} \approx 32.0\)
    2. Размах: Разница между максимальным и минимальным значениями.

    \(R = x_{max} - x_{min}\)

    \(R = 50 - 20 = 30\)
    3. Мода: Значение, которое встречается наиболее часто. В данном случае, мода - 32 (встречается 7 раз).
    4. Медиана: Значение, которое делит упорядоченный набор данных пополам. Так как у нас 49 значений, медиана - это 25-е значение в упорядоченном ряду, то есть 32.
    5. Коэффициент вариации: Отношение стандартного отклонения к среднему арифметическому, выраженное в процентах.

    \(CV = \frac{\sigma}{\bar{x}} \cdot 100\%\)

    Сначала нужно рассчитать стандартное отклонение (\(\sigma\)):

    \(\sigma = \sqrt{\frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1}}\)

    \(\sigma \approx 6.84\)

    \(CV = \frac{6.84}{32.0} \cdot 100\% \approx 21.38\%\)
    6. Среднее линейное отклонение: Среднее арифметическое абсолютных отклонений от среднего.

    \(MAD = \frac{\sum_{i=1}^{n} |x_i - \bar{x}|}{n}\)

    \(MAD \approx 5.35\)
    7. Дисперсия: Средний квадрат отклонений от среднего.

    \(D = \frac{\sum_{i=1}^{n} (x_i - \bar{x})^2}{n-1}\)

    \(D \approx 46.79\)
    8. Среднее квадратическое отклонение: Квадратный корень из дисперсии (то есть стандартное отклонение).

    \(\sigma = \sqrt{D} \approx 6.84\)

4. Расчет средней квадратической ошибки для генеральной средней

  1. Средняя квадратическая ошибка (стандартная ошибка):

    \(SE = \frac{\sigma}{\sqrt{n}}\)

    \(SE = \frac{6.84}{\sqrt{49}} \approx 0.98\)
    2. Коэффициент Стьюдента: Для 49 значений и доверительной вероятности, например, 95%, коэффициент Стьюдента (t) примерно равен 2.01 (можно найти в таблице Стьюдента).
    3. Интервал для генеральной средней:

    \(CI = \bar{x} \pm t \cdot SE\)

    \(CI = 32.0 \pm 2.01 \cdot 0.98\)

    \(CI = 32.0 \pm 1.97\)

    Интервал: (30.03, 33.97)

5. Расчет квартилей и перцентилей

  1. Квартили:
    • \(Q_1\) (25-й перцентиль): 25% данных ниже этого значения. \(Q_1 = 27\)
    • \(Q_2\) (50-й перцентиль, медиана): 50% данных ниже этого значения. \(Q_2 = 32\)
    • \(Q_3\) (75-й перцентиль): 75% данных ниже этого значения. \(Q_3 = 36\)
  2. Перцентили:
    • 25-й перцентиль: \(P_{25} = Q_1 = 27\)
    • 50-й перцентиль: \(P_{50} = Q_2 = 32\)
    • 70-й перцентиль: \(P_{70} \approx 35\)

6. Расчет асимметрии и эксцесса

  1. Асимметрия:

    \(AS = \frac{\frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^3}{\sigma^3}\)

    \(AS \approx 0.27\) (небольшая положительная асимметрия)
    2. Эксцесс:

    \(EX = \frac{\frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^4}{\sigma^4} - 3\)

    \(EX \approx -0.77\) (плосковершинное распределение)

7. Вывод о нормальности распределения

Поскольку асимметрия близка к 0, а эксцесс отрицательный, можно сказать, что распределение близко к нормальному, но немного плосковершинное.

Задание 2

Расчет коэффициента корреляции

Для расчета коэффициента корреляции между температурой воды (\(x\)) и содержанием аммонийного азота (\(y\)) используем формулу:

\(r = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \bar{x})^2 \sum_{i=1}^{n} (y_i - \bar{y})^2}}\)

Сначала рассчитаем средние значения для температуры и содержания азота:

\(\bar{x} = \frac{18+17+17+16+17+16+18+17+15+15+14+14+14+14+15+17}{16} = \frac{252}{16} = 15.75\)

\(\bar{y} = \frac{24+23.5+25.8+25.9+26.4+25.1+24.6+25.9+25.7+25+24.5+25.2+25.3+24.1+25+24.6}{16} = \frac{400.2}{16} = 25.0125\)

Теперь рассчитаем коэффициент корреляции:

\(r \approx 0.15\)

Расчет корреляционного отношения

Корреляционное отношение (η) показывает, насколько хорошо зависимость между переменными описывается какой-либо функцией (не обязательно линейной). В данном случае, поскольку коэффициент корреляции уже рассчитан, можно использовать его для оценки корреляционного отношения. Если зависимость близка к линейной, то η ≈ |r|.

\(\eta \approx |0.15| = 0.15\)

Расчет коэффициента детерминации

Коэффициент детерминации (\(R^2\)) показывает, какая доля дисперсии одной переменной объясняется дисперсией другой переменной. Он равен квадрату коэффициента корреляции:

\(R^2 = r^2\)

\(R^2 = (0.15)^2 = 0.0225\)

Это означает, что только 2.25% вариации содержания аммонийного азота объясняется изменением температуры воды.

Задание 3

1. Найти коэффициенты регрессии y по x и x по y

Для начала обозначим жирномолочность матерей как \(x\), а жирномолочность дочерей как \(y\).

Коэффициент регрессии \(y\) по \(x\) (\(b_{yx}\)) рассчитывается по формуле:

\(b_{yx} = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n} (x_i - \bar{x})^2}\)

Коэффициент регрессии \(x\) по \(y\) (\(b_{xy}\)) рассчитывается по формуле:

\(b_{xy} = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n} (y_i - \bar{y})^2}\)

Сначала рассчитаем средние значения \(\bar{x}\) и \(\bar{y}\):

\(\bar{x} = \frac{4.05 + 3.76 + 3.17 + 3.61 + 3.27 + 3.61 + 3.8 + 3.65 + 3.34 + 3.65 + 3.4 + 3.11}{12} = \frac{42.42}{12} = 3.535\)

\(\bar{y} = \frac{3.79 + 3.57 + 3.11 + 3.61 + 3.44 + 3.71 + 3.61 + 2.98 + 3.3 + 3.6 + 3.45 + 3.65}{12} = \frac{41.82}{12} = 3.485\)

Теперь рассчитаем числители и знаменатели для коэффициентов регрессии:

\(\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y}) \approx 0.444\)

\(\sum_{i=1}^{n} (x_i - \bar{x})^2 \approx 0.604\)

\(\sum_{i=1}^{n} (y_i - \bar{y})^2 \approx 0.434\)

Подставим значения в формулы:

\(b_{yx} = \frac{0.444}{0.604} \approx 0.735\)

\(b_{xy} = \frac{0.444}{0.434} \approx 1.023\)

2. Найти уравнение регрессии и коэффициент детерминации

Уравнение регрессии \(y\) по \(x\) имеет вид:

\(y = a + b_{yx}x\)

Чтобы найти \(a\), используем формулу:

\(a = \bar{y} - b_{yx}\bar{x}\)

\(a = 3.485 - 0.735 \cdot 3.535 \approx 0.88\)

Итак, уравнение регрессии \(y\) по \(x\):

\(y = 0.88 + 0.735x\)

Коэффициент детерминации (\(R^2\)) рассчитывается как квадрат коэффициента корреляции (\(r\)):

\(R^2 = r^2\)

Коэффициент корреляции \(r\) можно найти как:

\(r = \sqrt{b_{yx} \cdot b_{xy}} = \sqrt{0.735 \cdot 1.023} \approx 0.867\)

\(R^2 = (0.867)^2 \approx 0.752\)

Это означает, что примерно 75.2% вариации жирномолочности дочерей объясняется вариацией жирномолочности матерей.

3. Графическое представление уравнения регрессии

Чтобы представить уравнение регрессии графически, нужно построить прямую \(y = 0.88 + 0.735x\) на графике, где по оси \(x\) отложена жирномолочность матерей, а по оси \(y\) - жирномолочность дочерей.

thinking img
progress gif

Текст скопирован
Готово
Ошибка
×