Краткое содержание ТВиМС

advertisement
Первичная обработка выборки
1. Генеральной совокупностью называется множество всех мыслимых измерений
некоторой случайной величины.
Выборочной совокупностью или выборкой называется некоторой множество значений
генеральной совокупности, предназначенное для непосредственного исследования.
Количество элементов выборки n – называется объемом выборки.
Суть выборочного метода заключается в том, что по выборке делается вывод о
генеральной совокупности в целом.
2.
3.
Ранжированным рядом называется выборка, упорядоченная по возрастанию.
Если выборка сделана из множества значений дискретной случайной величины, то
она может быть сгруппирована в дискретный вариационный ряд.
Дискретный вариационный ряд или просто вариационный ряд – это соответствие между
вариантами их частотами
…
хi
xk
x1
x2
…
ni
nk
n1
n2
или вариантами и их относительными частотами
…
хi
xn
x1
x2
…
wi
wn
w2
w1
Варианты х i - это неповторяющиеся выборочные значения. Частота варианты ni это число, показывающее, сколько раз варианта хi встречается в выборке.
Относительная частота варианты w i =
ni
.
n
4. Если выборка сделана из множества значений непрерывной случайной величины, то
она может быть сгруппирована в интервальный вариационный ряд.
Интервальный вариационный ряд или просто интервальный ряд – это соответствие
между частичными интервалами (интервалами группировки) их частотами (или
относительными частотами).
…
а 2  а3
а k  а k 1
аi  аi 1
а1  а2
…
ni
nk
n1
n2
Частота интервала ni - это число, показывающее, сколько выборочных данных попало
в интервал [а i ; а i 1 ) .
5. Накопленной частотой
действительного числа
х – называется количество
выборочных данных, лежащих левее х на числовой оси. Обозначается –
nx .
Накопленной частотой i-ого интервала называется количество выборочных данных,
накопл
лежащих от начала выборки до конца этого интервала. Обозначается – ni
6. Полигон частот – это ломаная линия с узлами в точках ( x i , ni ) .
.
ni
nmax
n3
n1
0
х1
х3
Мо
х4
хi
По полигону можно найти моду дискретного вариационного ряда.
7. Гистограмма – это ступенчатая фигура, состоящая из прямоугольников,
основаниями которых являются частичные интервалы, а высоты соответствуют
частоте.
ni
n2
n1
0
а1
а2
Мо
а3
а4
аi
По гистограмме можно найти моду интервального ряда.
8. Кумулята – это ломаная линия, с узлами в точке ( x i , n хi ) для дискретного
вариационного ряда и с узлами в точках ( a i , nai ) для интервального ряда.
100%
nа 3
50%
nа 2
Ме
0
а1
а2
а3
а4
а5
аi
По кумуляте можно найти медиану интервального ряда.
Оценки меры центральной тенденции
9. Мода выборки – это наиболее часто встречающееся выборочное значение.
10. Медиана выборки – это середина ранжированного ряда. Иначе говоря – это точка
числовой оси, левее и правее которой лежит по 50 % выборочных данных.
Для дискретного вариационного ряда медиана находится по формуле:
Ме  х n 1 , если n – нечетное число;
2
Ме 
х n  x n 1
2
2
2
, если n – четное.
11. Выборочное среднее – это точечная оценка математического ожидания
генеральной совокупности.
Для несгруппированной выборки формула для нахождения выборочного среднего имеет вид:
1 n
x   xi .
n i 1
Здесь n – объем выборки, x i – выборочные значения.
Для сгруппированной выборки формула для нахождения выборочного среднего имеет вид:
1 k
x   x i ni .
n i 1
Здесь n – объем выборки, k – количество групп выборки, x i – варианты, ni –
соответствующие им частоты.
Для интервального ряда в последней формуле вместо x i берут середины интервалов:
xi 
а i  a i 1
; ni – частоты интервалов.
2
Оценки меры изменчивости
12. Выборочная дисперсия – это точечная оценка дисперсии генеральной
совокупности.
Для несгруппированной выборки формула для нахождения выборочной дисперсии имеет
вид:
1 n
2
D   xi  х  .
n i 1
Здесь n – объем выборки, x i – выборочные значения.
Для сгруппированной выборки формула для нахождения выборочной дисперсии имеет
вид:
1 k
2
D    x i  х  ni .
n i 1
Здесь n – объем выборки, k – количество групп выборки, x i – варианты, ni –
соответствующие им частоты.
Для интервального ряда в последней формуле вместо x i берут середины интервалов:
xi 
а i  a i 1
; ni – частоты интервалов.
2
13. Выборочное среднеквадратическое отклонение
– это
среднеквадратического отклонения генеральной совокупности.
  D.
точечная
оценка
14. Исправленная дисперсия это наилучшая оценка генеральной дисперсии.
n
S2 
D.
n 1
15. Исправленной среднеквадратическое отклонение или стандартное отклонение –
это наилучшая оценка среднеквадратического отклонения генеральной совокупности.
S  S2 .
Исправленная дисперсия и стандартное отклонение являются несмещенными оценками,
т. е. оценками, которые не дают систематической ошибки.
16. Эмпирическая функция распределения находится по формуле:
n
Fn ( x )  x .
n
Здесь n – это объем выборки; n x – это накопленная частота числа х, т. е. число
выборочных данных, строго меньших х.
Эмпирическая функция распределения – ступенчатая. Необходимо разбить ось на
интервалы точками х i , и воспользоваться формулой для каждого интервала в
отдельности.
17. Метод наименьших квадратов (МНК) – это метод нахождения точечных оценок
неизвестных параметров распределения. Часто он используется для нахождения
оценок параметров зависимости между случайными величинами X и Y.
Пусть X и Y связаны зависимостью вида y  f ( x ) . Пусть даны результаты измерений
 x1 , y1  ,  x 2 , y 2  , …,  x n , y n  . Чтобы найти неизвестные параметры зависимости
вычисляют рассогласования  i  y i  f ( x i ) , возводят их в квадрат, чтобы исключить их
взаимное уничтожение из-за разных знаков, затем складывают. Полученную сумму
минимизируют, находя, тем самым, оценки неизвестных параметров зависимости.
n
Q    y i  f ( x i )  min .
2
i 1
18. Пусть зависимость между X и Y имеет линейный вид, т. е. y  ax  b .
Чтобы найти оценки неизвестных параметров а и b необходимо:
1. С помощью расчетной таблицы рассчитать коэффициенты системы линейных
алгебраических уравнений (СЛАУ).
Расчетная таблица
i
xi
yi
xi yi
x i2
1
2
…
n

2. Подставить полученные коэффициенты в СЛАУ:
a x i2  b x i   x i y i ;
a  x i  bn   y i .
3. Решить СЛАУ любым известным методом.
4. Построить в координатных осях данные точки  x i , y i  и полученную прямую и
убедится в адекватности модели объекту.
19. Уравнение линейной регрессии Y по X имеет вид:
y x  y   YX  x  x  .
Здесь y x – зависимая переменная (условное среднее значений величины Y, при условии,
что Х = х);
х – независимая переменная;
xy  x y
– коэффициент регрессии Y по X;
 YX 
2
x 2  x 
1
x   x i – среднее по х;
n
1
y   y i – среднее по у;
n
1
x 2   x i2 – среднее квадратов;
n
1
xy   x i y i – среднее произведений.
n
Уравнение линейной регрессии можно записать и через выборочный коэффициент
корреляции:
y x  y  rYX
Y
x  x .
X
Здесь  X и  Y – выборочные среднеквадратические отклонения величин Х и Y.
rYX 
xy  x y
 X Y
Свойства rYX :
1. rYX  1 .
– выборочный коэффициент корреляции.
2. Если rYX  1 , то связь между X и Y наиболее тесная – линейная.
3. Если rYX =1, то связь прямая, если rYX = – 1, то связь обратная.
4. Если X и Y независимы, то rYX = 0.
5. Если rYX = 0, то X и Y являются некоррелированными, т.е. между ними нет
корреляционной связи.
Проверка статистических гипотез
20. Статистической гипотезой называется любое предположение о генеральной
совокупности, проверяемое по выборке.
21. Если предположение делается о значения параметров генеральной совокупности, то
гипотеза называется параметрической.
Если предположение делается о виде закона распределения генеральной
совокупности, то гипотеза называется непараметрической.
22. Основная гипотеза – это гипотеза об отсутствии различий. Она обозначается Н 0 и
имеет единственный вид: Н 0 :    0 .
23. Альтернативная гипотеза – это гипотеза о существовании различий. Она
обозначается Н 1 и имеет три вида:
Н 1 :    0 – правосторонняя гипотеза;
Н 1 :    0 – левосторонняя гипотеза;
Н 1 :    0 – двусторонняя гипотеза.
24. Статистическим критерием называется функция от выборочных данных
K  K ( x 1 , x 2 , ..., x n ) , на основании значений которой делается вывод в пользу
одной из гипотез. Наблюдаемым значением критерия К НАБЛ – называется значение
функции K ( x 1 , x 2 , ..., x n ) , найденной на конкретной выборке.
25. Областью допустимых значений критерия называется та часть области значений
функции K ( x 1 , x 2 , ..., x n ) , при попадании в которую К НАБЛ гипотеза Н 0 –
принимается.
Критической областью называется та часть области значений функции
K ( x 1 , x 2 , ..., x n ) , при попадании в которую К НАБЛ гипотеза Н 0 – отвергается.
26. Границей между критической областью и областью допустимых значений критерия
служат критические точки К КР .
Критические области бывают трех видов. Это зависит от вида гипотезы Н 1 .
Если Н 1 :    0 , то критическая область будет правосторонней и имеет вид:
область допустимых значений
критическая область
К КР
0
Если Н 1 :    0 , то критическая область будет правосторонней и имеет вид:
критическая область
область допустимых значений
 К КР
0
Если Н 1 :    0 , то критическая область будет правосторонней и имеет вид:
область допустимых значений
критическая область
критическая область
 К КР
0
К КР
27. При проверке статистических гипотез возникают ошибки I и II рода.
Ошибка первого рода заключается в том, что будет отвергнута правильная гипотеза Н 0 .
Ошибка второго рода заключается в том, что будет принята неправильная гипотеза Н 0
(т.е. отвергнута правильная гипотеза Н 1 ).
28. Вероятность ошибки I рода обозначается  и называется уровнем значимости
критерия.
29. Вероятность ошибки II рода обозначается  . Мощностью критерия называется
число М  1   . Т. .
Download