Г. А. Машенцева СТАТИСТИКА. СТАТИСТИЧЕСКОЕ ИЗУЧЕНИЕ ВЗАИМОСВЯЗИ СОЦИАЛЬНО-ЭКОНОМИЧЕСКИХ ЯВЛЕНИЙ 0 МИНОБРНАУКИ РОССИИ ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ «ВОЛГОГРАДСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ» КАМЫШИНСКИЙ ТЕХНОЛОГИЧЕСКИЙ ИНСТИТУТ (ФИЛИАЛ) ФЕДЕРАЛЬНОГО ГОСУДАРСТВЕННОГО БЮДЖЕТНОГО ОБРАЗОВАТЕЛЬНОГО УЧРЕЖДЕНИЯ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ «ВОЛГОГРАДСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ» Г. А. Машенцева СТАТИСТИКА. СТАТИСТИЧЕСКОЕ ИЗУЧЕНИЕ ВЗАИМОСВЯЗИ СОЦИАЛЬНО-ЭКОНОМИЧЕСКИХ ЯВЛЕНИЙ Учебное пособие Волгоград 2014 1 ББК 60.6я73 М 38 Рецензенты: коллектив кафедры «Бухгалтерский учѐт» Саратовского социально-экономического института (филиала) ФГБОУ ВПО «РЭУ им. Г. В. Плеханова»; начальник управления по инвестициям и развитию предпринимательства Администрации городского округа г. Камышина, к. ф. н. Д. М. Дроненко Машенцева, Г. А. СТАТИСТИКА. СТАТИСТИЧЕСКОЕ ИЗУЧЕНИЕ ВЗАИМОСВЯЗИ СОЦИАЛЬНО-ЭКОНОМИЧЕСКИХ ЯВЛЕНИЙ: учеб. пособие / Г. А. Машенцева. – Волгоград: ИУНЛ ВолгГТУ, 2014. – 88 с. ISBN 978-5-9948-1395-9 Рассмотрены вопросы статистического изучения взаимосвязи социально-экономических явлений. Формирует системное представление о возможностях и особенностях применения богатого статистического инструментария для выявления закономерностей развития различных социально-экономических явлений, способствует развитию навыков и компетенций применения статистических методов для решения задач на начальных этапах экономического анализа информации. Предназначено для студентов начальных курсов высших учебных заведений экономических факультетов, аспирантов и преподавателей вузов, а также всех интересующихся вопросами статистики. Ил. 12. Табл. 16. Библиогр.: 11 назв. Печатается по решению редакционно-издательского совета Волгоградского государственного технического университета © Волгоградский государственный технический университет, 2014 ISBN 978-5-9948-1395-9 2 ОГЛАВЛЕНИЕ Список аббревиатур………………………………………………….. Краткие сведения об известных ученых, упоминаемых в учебном пособии……………………………………………………………….. 1. Понятие, виды и формы взаимосвязи между явлениями……. 1. 1. Взаимосвязи общественных явлений и необходимость их статистического изучения………………………………………… 1. 2. Виды и формы взаимосвязи между явлениями……………. 5 2. Основные приемы и методы изучения взаимосвязей……. 2. 1. Метод сопоставления параллельных рядов………………… 2. 2. Графический метод…………………………………………… 2. 3. Метод аналитических группировок………………………… 2. 4. Дисперсионный анализ………………………………………. 2. 5. Основные понятия и задачи корреляционного анализа…… 14 14 17 21 23 27 3. Корреляционно-регрессионный анализ…………………….. 3. 1. Парная линейная корреляция………………………………… 3. 2. Статистическая оценка надежности параметров парной корреляции……………………………………………………………… 3. 3. Множественное уравнение регрессии………………………. 3. 4. Теснота связи и простейшие методы ее измерения………… 31 33 4. Непараметрические методы изучения связи………………. 4. 1. Коэффициент корреляции знаков (коэффициент Фехнера)….. 4. 2. Ранговые коэффициенты связи (коэффициенты Спирмена, Кендалла, конкордации)…………………………………………… 4. 2. 1. Коэффициент корреляции рангов Спирмена…………….. 4. 2. 2. Коэффициент корреляции рангов Кендалла τ……………. 4. 2. 3. Множественный коэффициент ранговой корреляции (коэффициент конкордации W)………………………………………… 4. 3. Анализ взаимосвязи между двумя дихотомическими переменными (коэффициенты ассоциации, контингенции)…………. 4. 4. Коэффициенты оценки связи качественных признаков, представленных несколькими градациями (коэффициенты сопряженности Пирсона и Чупрова)………………………………… 49 49 5. Выводы………………………………………………………….. 66 3 5 7 7 8 42 44 46 51 53 54 57 61 63 6. Вопросы для самоконтроля…………………………………. 67 7. Тесты……………………………………………………………. 67 8. Задачи………………………………………………………….... 71 Приложение 1. Значение интеграла вероятностей…………….. 81 Приложение 2. Значение t-критерия Стьюдента при уровне зна82 чимости 0,10; 0,05; 0,01……………………………………….. Приложение 3. Значение F-критерия Фишера при уровне значимости 0,05……………………………………………………….. 83 Приложение 4. Критическое значение корреляционного отношения η2 и коэффициента детерминации R2……………………… 84 Приложение 5. Критические значения F-критерия…………….. 85 Приложение 6. Выбор метода вычисления коэффициента корреляции в зависимости от типа шкалы, к которой относятся перемен86 ные………………………………………………………………. Список рекомендуемой литературы…………………………… 4 87 СПИСОК АББРЕВИАТУР МНК – метод наименьших квадратов; КРА – корреляционно-регрессионный анализ; ПЭВМ – персональная электронно-вычислительная машина; ЛКК – линейный коэффициент корреляции; ОПФ – основные производственные фонды. КРАТКИЕ СВЕДЕНИЯ ОБ ИЗВЕСТНЫХ УЧЕНЫХ, УПОМИНАЕМЫХ В УЧЕБНОМ ПОСОБИИ Гальтон Фрэнсис (16.2.1822–17.1.1911) – англ. психолог и антрополог. Получил мед. и биол. образование и начал научную деятельность в области географии метеорологии. Гальтоном были составлены карты погоды, статистический анализ которых позволил ему открыть антициклоны и дать им теоретическое объяснение. Гаусс Карл Фридрих (30.4.1777–23.2.1855) – нем. математик, внесший фундаментальный вклад также в астрономию и геодезию. В 1794–95 открыл и в 1821–23 разработал основной математический метод обработки неравноценных наблюдательных данных (наименьших квадратов метод). Дизраэли Бенджамин, лорд Биконсфилд (21.12.1804–19.4.1881) – англ. гос. деятель и писатель. В 1852 и 1858–59 гг., будучи министром финансов, фактически возглавлял правительство. Жорж Кювье – франц. палеонтолог (специалист по ископаемым останкам животных и растений прошлых лет). Кендалл Морис Джордж (06.09.1907–29.03.1983) – англ. статистик. Леонардо да Винчи (15.4.1452–2.5.1519) – итальянский живописец, скульптор, архитектор, ученый и инженер. Пирсон Карл (27.3.1857–27.4.1936) – англ. математик, биолог, философ-позитивист. Проф. прикладной математики и механики (с 1884), а затем евгеники (с 1911) Лондонского университета. Продолжал исследования Ф. Гальтона, наряду с ним явился одним из основоположников биометрии. Внес значительный вклад в развитие математической статистики (ввел, например, т. н. Пирсона кривые). Спирмен Чарльз Эдвард (10.09.1863–17.09.1945) – англ. статистик и психолог, проф. Лондонского и Честерфилдского университетов. Разработчик многочисленных методик математической ста5 тистики. Создатель двухфакторной теории интеллекта и техники факторного анализа. Кроме прочего, Спирмен открыл, что результаты даже несравнимых когнитивных тестов отражают единый фактор, который он назвал g-фактором (g factor). Широко известен коэффициент ранговой корреляции Спирмена. Уильям Сили Госсет (13.06.1876 Кентербери–16.10.1937 Беконсфильд) – известный ученый-статистик, более известный под псевдонимом Стьюдент благодаря своим работам по исследованию т. н. распределения Стьюдента. Фехнер Густав Теодор (19.4.1801–18.11.1887) – нем. физик, психолог, философ-идеалист, писатель-сатирик. Применял математический язык для описания экспериментально установленных корреляций между ощущениями и вызывающими их раздражителями. Фишер Роналд Эйлмер (17.2.1890–29.7.1962) – англ. статистик и генетик, один из основателей математической статистики и математической популяционной генетики. Основные труды по теории статистики и генетической теории эволюции. Ввел понятие достаточной статистики, построил теорию точечных и интервальных статистических оценок, разработал методику планирования экспериментов и внес существенный вклад в создание современной теории статистической проверки гипотез. Чупров Александр Александрович (6(18).2.1874–19.4.1926) – русс. теоретик статистики, основоположник современной системы преподавания статистики, чл.-корр. Российской АН (1917), чл. Международного статистического института, чл.-корр. Лондонских королевских экономических и статистических обществ. Юл Джордж Одни (18.2.1871–26.6.1951) – англ. статистик, проф. Кембриджского университета. 6 Независимо от того, в какой отрасли знания получены числовые данные, они обладают определенными свойствами, для выявления которых может потребоваться особого рода научный метод обработки. Последний известен как статистический метод или, короче, статистика. Дж. Юл, М. Дж. Кендалл Есть три вида лжи: обычная ложь, наглая ложь и статистика. Бенджамин Дизраэли 1. Понятие, виды и формы взаимосвязи между явлениями 1. 1. Взаимосвязи общественных явлений и необходимость их статистического изучения Известно, что все явления и процессы, происходящие в природе и обществе, так или иначе связаны между собой, зависят друг от друга. Так, результаты деятельности промышленности зависят от работы других отраслей народного хозяйства: энергетики, сельского хозяйства, транспорта и др. В свою очередь результаты деятельности того же сельского хозяйства в значительной степени зависят от промышленности, снабжающей его машинами, удобрениями, средствами защиты растений и т. д. Взаимосвязь и взаимозависимость проявляются и в работе любого предприятия, организации или учреждения. Без изучения взаимосвязей, их характера, силы и других особенностей, невозможно управлять явлениями и прогнозировать их развитие. Поэтому одной из важнейших задач анализа статистических данных является задача установления и объяснения взаимосвязей, их измерения и количественного выражения. Экономисту в процессе своей деятельности практически постоянно приходится иметь дело с взаимосвязанными показателями. Так, например, он должен изучать динамику зарплаты в связи с динамикой производительности труда, динамику производительности труда – в связи с динамикой себестоимости продукции, а динамику себестоимости – в зависимости от объема продукции и т. д. Причем, основная задача экономиста не в том, чтобы просто проиллюстрировать различные сферы деятельности предприятия (организации) при помощи цифр. Он должен посредством анализа 7 цифровых показателей выявить «узкие места» в работе предприятия, вскрыть причины и условия, оказывающие влияние на результаты работы. Экономический анализ зависимости процессов и явлений позволит наметить необходимые меры для улучшения тех или иных сторон деятельности предприятия. Только в этом случае работа экономиста не будет выглядеть простой констатацией имеющихся фактов. Изучение явлений в их взаимосвязи означает, прежде всего, изучение причинно-следственной зависимости между ними. Потому, что одно явление всегда представляет собой причину, а другое – следствие, т. е. результат действия этой причины. Соответственно и признаки, характеризующие явление причины, называются факторными (независимыми) признаками, а признаки, характеризующие явление следствия – результатными (зависимыми). Между причиной и следствием часто существует взаимодействие. То есть следствие может, в свою очередь, оказывать влияние на причину. НАПРИМЕР, производство – необходимая предпосылка для потребления, а потребление – следствие производства. Потребление же, в свою очередь, оказывает определенное влияние на производство, определяя его объем, ассортимент и качество продукции. 1. 2. Виды и формы взаимосвязи между явлениями Различают два типа связей между различными явлениями и их признаками: функциональную или жестко детерминированную, с одной стороны, и статистическую или стохастически детерминированную – с другой. Строго определить различие этих типов связи можно тогда, когда они получают математическую формулировку. Для простоты будем говорить о связи двух явлений или двух признаков, математически отображаемой в форме уравнения связи двух переменных. По характеру зависимости между факторными и результатными признаками связи подразделяются на: функциональные или строго детерминированные (от латинского determinatio – ограничение, определение), т. е. строгие, полные; стохастические, т. е. вероятностные, нестрогие. 8 Функциональные – это связи, при которых каждому значению факторного признака (аргумента) соответствует одно или несколько строго определенных значений результатного признака (функции). То есть при функциональной связи изменение значения результатного признака полностью зависит от изменения значения факторного признака. Такие связи наблюдаются преимущественно в точных науках: математике, физике, химии, астрономии, т. е. они свойственны, в основном, физическим и химическим явлениям. НАПРИМЕР, площадь круга (S = πR2) и длина окружности (L = 2πR) полностью зависят от изменения радиуса, скорость падения от высоты и т. д. Или, если ных значения: , то значению х = 9, соответствуют два строго определен- y1 = 3; y2 = – 3. Стохастически детерминированная связь не имеет ограничений и условий, присущих функциональной связи. Если с изменением значения одной из переменных вторая может в определенных пределах принимать любые значения с некоторыми вероятностями, но ее среднее значение или иные статистические (массовые) характеристики изменяются по определенному закону – связь является статистической. Иными словами, при статистической связи разным значениям одной переменной соответствуют разные распределения значений другой переменной. В настоящее время наука не знает более широкого определения связи. Все связи, которые могут быть измерены и выражены численно, подходят под определение «статистические связи», в том силе и функциональные. Частным случаем стохастических связей являются корреляционные (статистические). Это связи, при которых каждому значению факторного признака x соответствует среднее значение результатного признака y. Т. е. корреляционная связь проявляется в виде тенденции (общего направления) изменений средних значений результатного признака в зависимости от изменений факторного признака. Статистическая связь между двумя признаками (переменными величинами) предполагает, что каждый из них имеет случайную вариацию индивидуальных значений относительно средней величины. Если же такую вариацию имеет лишь один из признаков, а значения другого являются жестко детерминированными, то говорят лишь о регрессии, но не о статистической (тем более корреляционной) связи. Например, при анализе динамических рядов можно измерять регрессию уровней ряда урожайности (имеющих случайную колеблемость) на номера лет. Но нельзя говорить о корреляции между ними и применять показатели корреляции с соответствующей им интерпретацией. 9 Именно такого рода связи преобладают в социально-экономических явлениях и процессах. В них, как правило, нет строгой зависимости между причиной и результатом. Это связано с тем, что социально-экономические явления представляют собой результат одновременного воздействия множества причин и условий. Поэтому при изучении этих явлений необходимо выявлять основные из этих причин, абстрагируясь от малозначимых, второстепенных. НАПРИМЕР, количество деталей, выработанных рабочим на станке, зависит от многих причин: квалификации рабочего, наладки станка и его степени износа, дисциплинированности и самочувствия рабочего, организации труда и т. д. Само слово «корреляция» ввел в статистику английский биолог и статистик Фрэнсис Гальтон в конце XIX века. В переводе с английского оно означает «соответствие, соотношение». Причем под этим понималась не просто связь – relation, а как бы связь – correlation, т. е. связь, но не в привычной функциональной форме. Фрэнсис Гальтон, Карл Пирсон и Юл Джордж Одни считаются основоположниками теории корреляции. В науке вообще, а именно в палеонтологии, термин «корреляция» применил еще раньше, в конце XVIII в., знаменитый французский палеонтолог (специалист по ископаемым останкам животных и растений прошлых эпох) Жорж Кювье. Он ввел даже «закон корреляции» частей и органов животных. «Закон корреляции» помогает восстановить по найденным в раскопках черепу, костям и т. д. облик всего животного и его место в системе: если череп с рогами, то это было травоядное животное, а его конечности имели копыта; если же лапа с когтями – то хищное животное без рогов, но с крупными клыками. Известен следующий рассказ о Кювье и «законе корреляции». В дни университетского праздника студенты решили подшутить над профессором Кювье. Они вырядили одного из студентов в козлиную шкуру с рогами и копытами и подсадили его в окно спальни Кювье. Ряженый загремел копытами и завопил: «Я тебя съем!». Кювье проснулся, увидел силуэт с рогами и спокойно отвечал: «Если у тебя рога и копыта, то по закону корреляции ты травоядное, и съесть меня не можешь. А за то, что не знаешь закона корреляции, получишь двойку!». В связи с тем, что функциональные связи в социальноэкономических явлениях встречаются редко, а преобладают, как подчеркивалось выше, корреляционные, то именно их изучением и занимается статистика. Корреляционная связь между признаками может возникать разными путями: 1. Важнейший путь – причинная зависимость результативного признака (его вариации) от вариации факторного призна10 ка. Например, признак х – бал оценки плодородия почв, признак у – урожайность сельскохозяйственной культуры. 2. Совершенно иная интерпретация необходима при изучении корреляционной связи между двумя следствиями общей причины. Известен классический пример, приведенный крупнейшим статистиком России начала XX в. А. А. Чупровым: если в качестве признака х взять число пожарных команд в городе, а за признак y – сумму убытков за год в городе от пожаров, то между признаками х и у в совокупности городов России существенна прямая корреляция; в среднем, чем больше пожарников в городе, тем больше и убытков от пожаров! Уж не занимались ли пожарники поджигательством из боязни потерять работу? Но дело в другом. Данную корреляцию нельзя интерпретировать как связь причины и следствия; оба признака – следствия общей причины – размера города. Вполне логично, что в крупных городах больше пожарных частей, но больше и пожаров, и убытков от них за год, чем в мелких городах. 3. Третий путь возникновения корреляции – взаимосвязь признаков, каждый из которых – и причина, и следствие. Например, корреляция между уровнем производительности труда рабочих и оплатой труда. С одной стороны, уровень зарплаты – следствие производительности труда. Но с другой стороны, уровень оплаты труда (установленные тарифные ставки и расценки) играет стимулирующую роль. В такой системе признаков допустимы обе постановки задачи; каждый признак может выступать и в роли независимой переменной х и в качестве зависимой переменой у. Корреляционные связи являются нестрогими, неполными, вероятностными и проявляются только в средних величинах при наличии следующих условий: 1. Если имеются данные по достаточно большой совокупности явлений. По отдельным явлениям можно получить совершенно превратное представление о связи признаков, ибо в каждом отдельном явлении значения признаков кроме закономерной составляющей имеют случайное отклонение (вариацию). Например, сравнивая два хозяйства, одно из которых имеет лучшее качество почв, по уровню урожайности, можно обнаружить, что урожайность выше в хозяйстве с худшими почвами. Ведь урожайность зависит от сотен факторов и при том же самом качестве почв может быть и выше, и ниже. Но если сравнивать большое число хозяйств с лучшими почвами и большое число – с худшими, то средняя урожайность в первой группе окажется выше и станет возможным измерить достаточно точно параметры корреляционной связи. 11 Какое именно число явлений достаточно для анализа корреляционной и вообще статистической связи, зависит от цели анализа, требуемой точности и надежности параметров связи, от числа факторов, корреляция с которыми изучается. Обычно считают, что число наблюдений должно быть не менее чем в 5–6, а лучше – не менее чем в 10 раз больше числа факторов. Еще лучше, если число наблюдений в несколько десятков или в сотни раз больше числа факторов, тогда закон больших чисел, действуя в полную силу, обеспечивает эффективное взаимопогашение случайных отклонений от закономерного характера связи признаков. 2. Если закономерность, проявляющаяся в данном явлении, надежно выражена в средней величине. Кроме уже указанного большого числа единиц совокупности, для этого необходима достаточная качественная однородность совокупности. Нарушение этого условия может извратить параметры корреляции. Например, в массе зерновых хозяйств уровень продукции с гектара растет по мере концентрации площадей, т. е. он выше в крупных хозяйствах. В массе овощных и овощемолочных хозяйств (пригородный тип) наблюдается та же прямая связь уровня продукции с размером хозяйства. Но если соединить в общую неоднородную совокупность те и другие хозяйства, то связь уровня продукции с размером площади пашни (или посевной площади) получится обратной. Причина в том, что овощные и овоще-молочные хозяйства, имея меньшую площадь, чем зерновые, производят больше продукции с гектара ввиду большей интенсивности производства в данных отраслях, чем в производстве зерна. 3. Если распределение совокупности по результативному и факторным признакам подчиняется нормальному закону распределения вероятностей. Это условие связано с применением метода наименьших квадратов (МНК) при расчете параметров корреляции: только при нормальном распределении МНК дает оценку параметров, отвечающую принципам максимального правдоподобия. На практике эта предпосылка чаще всего выполняется приближенно, но и тогда метод наименьших квадратов дает неплохие результаты. Однако при значительном отклонении распределений признаков от нормального закона нельзя оценивать надежность выборочного коэффициента корреляции, используя параметры нормального распределения вероятностей или распределения Стьюдента. Корреляционные связи по направлению бывают прямыми и обратными. Прямой называется связь, при которой с увеличением факторного признака увеличивается и результативный. Пример прямой связи: при уменьшении расхода электроэнергии на единицу продукции, снижается себестоимость продукции. Обратной называется связь, при которой с увеличением факторного признака 12 – результативный уменьшается. Пример обратной связи: при снижении себестоимости продукции прибыль на предприятиях увеличивается. Такие связи также можно назвать соответственно положительными и отрицательными. По аналитическому выражению корреляционные связи подразделяются на прямолинейные (линейные) и нелинейные (криволинейные). Линейной называется связь, которую можно приближенно выразить уравнением прямой линии. Нелинейной является связь, которая может быть выражена уравнением какой-либо кривой линии (параболы, гиперболы, показательной, степенной функции и др.). Существует еще одна достаточно важная характеристика связей с точки зрения взаимодействующих факторов. Если характеризуется связь двух признаков, то ее принято называть парной. Если изучаются более чем две переменные – множественной. Корреляционные связи могут быть также различной степени тесноты. Если значению факторного признака x соответствуют близкие друг другу (тесно расположенные около своей средней) значения результатного признака y – связь является тесной. Если же значения результатного признака, при одном и том же значении факторного варьируют (изменяются) значительно – связь менее тесная. По степени тесноты связи различают (табл. 1): Таблица 1 Количественные критерии оценки тесноты связи Величина коэффициента корреляции Сила связи До ± 3 Практически отсутствует ± 3 ÷ ± 0,5 Слабая ± 0,5 ÷ ± 0,7 Умеренная ± 0,7 ÷ ± 1,0 Сильная Указанные выше классификационные признаки наиболее часто встречаются в статистическом анализе. Но кроме перечисленных, относительно типа соединений явлений, различают также непосредственные, косвенные и ложные связи: 1) непосредственная регрессия, в этом случае явления соединены непосредственно между собой (прибыль затраты); 13 2) косвенная регрессия имеет место тогда, когда факторная и результативная переменная не состоят непосредственно в причинно-следственных отношениях и факторная переменная через какую-то другую переменную действует на результативную переменную (число пожаров и урожайность зерновых (метеорологические условия)); 3) ложная или абсурдная регрессия возникает при формальном подходе к исследуемым явлениям, в результате можно придти к ложным и даже бессмысленным зависимостям (число импортируемых фруктов и рост дорожно-транспортных происшествий со смертельным исходом). Для исследования функциональных связей применяются балансовый и индексный методы. Для изучения стохастических связей используют методы: метод сопоставления параллельных рядов; графический метод; аналитических группировок; корреляционно-регрессионного анализа (КРА). Рассмотрим суть каждого из них в п. 2. 2. Основные приемы и методы изучения взаимосвязей 2. 1. Метод сопоставления параллельных рядов Простейшим приемом обнаружения связей является сопоставление двух параллельных рядов. Сущность метода состоит в том, что сначала показатели, характеризующие факторный признак, ранжируются, а затем параллельно им располагаются соответствующие показатели результативного признака. Сравнение построенных таким образом рядов дает возможность не только подтвердить само наличие связи, но и выявить ее направление. Пример: х 1 2 3 4 5 6 y1 3 6 4 10 17 20 у2 20 17 10 4 6 3 Примечание: х – разряд рабочего; y1 – выработка, y2 – количество времени, затрачиваемого на производство 1-й детали. Сопоставляя показатели, видим, что с увеличением факторного признака х, значения результатного признака y1 также возрас- 14 тают. Следовательно, имеет место прямая связь между двумя этими показателями. В случае, когда сравниваемые ряды состоят из большого числа единиц, направления связи для разных единиц могут оказаться различными. В этом случае целесообразнее воспользоваться корреляционными таблицами или решетками. Корреляционная решетка представляет собой комбинационную таблицу, в подлежащем которой располагаются значения одного признака, как правило, факторного, а в сказуемом – другого, результативного. В клетках, образовавшихся при пересечении строк и граф, указываются частоты, т. е. число случаев, в которых одни значения сочетаются с другими. Пример. Имеются данные о количестве внесенных удобрений (в пересчете на действующие вещества) и урожайности зерновых культур по 240 фермерским хозяйствам области. Чтобы изучить связь между количеством внесенных удобрений х и урожайностью зерновых у, составим корреляционную табл. 2. Цифры, стоящие на пересечении строк и граф, показывают связь количества фермерских хозяйств с данным количеством внесенных удобрений и урожайностью. Таблица 2 Зависимость урожайности фермерских хозяйств области от количества внесенных удобрений Внесено удобрений (х), кг/га Урожайность (y), ц/га всего y 16 18,3 37 21,4 82 21,7 8 71 24,7 12 10 28 27,2 – – 6 6 30,0 66 36 24 240 22,7 16 18 21 25 До 50 5 6 5 50–75 7 – 18 12 75–100 6 12 36 18 10 100–125 – – 19 30 14 125–150 – – – 6 150 и выше – – – Всего 18 18 78 15 26 30 Урожайность, ц/га По корреляционной таблице можно сделать некоторые выводы о форме и направлении связи, о степени тесноты связи. Если значения х и у расположены в возрастающем порядке, то сосредоточение частот около диагонали таблицы, идущей с левого верхнего угла в правый нижний, свидетельствует о прямой связи между изучаемыми признаками, а с правого верхнего угла в левый нижний – об обратной связи, причем связь будет тем теснее, чем плотнее концентрируются частоты у диагонали. Если частоты расположены по всей таблице равномерно, то это говорит о слабой связи между признаками или об отсутствии ее. Данные корреляционной таблицы можно также изобразить графически (рис. 1). Для этого результаты группировки единиц совокупности по факторному признаку и средние значения результативного признака по каждой группе наносятся на график в виде точек, которые затем соединяются, в результате чего получают ломаную линию, как это показано на рис. 1 (средние значения результативного признака у даны в последней графе табл. 2). Полученная ломаная линия называется эмпирической линией регрессии. 35 30 25 20 15 10 5 0 Внесено удобрений, кг/га Рис. 1. Зависимость урожайности фермерских хозяйств от количества внесенных удобрений 16 2. 2. Графический метод Графический метод позволяет выявить наличие связи двух признаков при помощи построения и анализа поля корреляции. Для этого в системе координат на оси абсцисс откладываются значения факторного признака, а на оси ординат – результатного. Получим некоторое рассеивание множества точек – так называемое корреляционное поле. По расположению точек в корреляционном поле можно сделать вывод о наличии связи, ее направлении и тесноте. Если точки расположены снизу, направо, вверх – связь прямая (рис. 2). Если же сверху от оси ординат, направо, вниз – связь обратная (рис. 3). Рис. 2. Пример прямой связи Рис. 3. Пример обратной связи При отсутствии тесных связей наблюдается беспорядочное рассеивание точек на графике. Чем сильнее связь между признаками, тем теснее будут располагаться точки корреляционного поля вокруг определенной линии, выражающей форму связи. Однако возможности графического метода ограничены выявлением зависимости лишь между двумя признаками. Когда исследуется корреляция между количественными признаками, значения которых можно точно измерить в единицах метрических шкал (метры, секунды, килограммы и т. д.), то очень часто принимается модель двумерной нормально распределенной генеральной совокупности. Такая модель отображает зависимость между переменными величинами xi и yi графически в виде геометрического места точек в системе прямоугольных координат. Эту графическую зависимость называют также диаграммой рассеивания или корреляционным полем. 17 Данная модель двумерного нормального распределения (корреляционное поле) позволяет дать наглядную графическую интерпретацию коэффициента корреляции, т. к. распределение в совокупности зависит от пяти параметров: mx, my – средние значения (математические ожидания); sx,sy – стандартные отклонения случайных величин х и y и р – коэффициент корреляции, который является мерой связи между случайными величинами х и y. Если р = 0, то значения, xi, yi, полученные из двумерной нормальной совокупности, располагаются на графике в координатах х, у в пределах области, ограниченной окружностью (рис. 4, а). В этом случае между случайными величинами х и y отсутствует корреляция, и они называются некоррелированными. Для двумерного нормального распределения некоррелированность означает одновременно и независимость случайных величин х и y. Если р = 1 или р = – 1, то между случайными величинами х и y существует линейная функциональная зависимость (y = c + dх). В этом случае говорят о полной корреляции. При р = 1 значения xi, yi определяют точки, лежащие на прямой линии, имеющей положительный наклон (с увеличением xi значения yi также увеличиваются), при р = – 1 прямая имеет отрицательный наклон (рис. 4, б). В промежуточных случаях (– 1 < p < 1) точки, соответствующие значениям xi, yi, попадают в область, ограниченную некоторым эллипсом (рис. 4, в. г), причем при p > 0 имеет место положительная корреляция (с увеличением xi значения yi имеют тенденцию к возрастанию), при p < 0 корреляция отрицательная. Чем ближе р к ± 1, тем ýже эллипс и тем теснее экспериментальные значения группируются около прямой линии. Здесь же следует обратить внимание на то, что линия, вдоль которой группируются точки, может быть не только прямой, а иметь любую другую форму: парабола, гипербола и т. д. В этих случаях мы рассматривали бы так называемую, нелинейную (или криволинейную) корреляцию (рис. 4, д). Таким образом, визуальный анализ корреляционного поля помогает выявить не только наличие статистической зависимости (линейной или нелинейной) между исследуемыми признаками, но и ее тесноту и форму. Это имеет существенное значение для сле18 дующего шага в анализе: выбора и вычисления соответствующего коэффициента корреляции. Рис. 4. Графическая интерпретация взаимосвязи между показателями Корреляционную зависимость между признаками можно описывать разными способами. В частности, любая форма связи может 19 быть выражена уравнением общего вида y = f(х), где признак y – зависимая переменная, или функция от независимой переменной х, называемой аргументом. Соответствие между аргументом и функцией может быть задано таблицей, формулой, графиком и т. д. Пример. Определить форму и направление взаимосвязи между показателями пульса покоя и абсолютными значениями пробы PWC170 у 13 исследуемых с помощью построения графика корреляционного поля, если данные выборок таковы: xi, уд/мин ~ 80; 72; 71; 80; 84; 82; 78; 70; 83; 72; 72; 73; 81 yi, кГм/мин ~ 858; 979; 1071; 920; 982; 1000; 1004; 1022; 807; 1099; 817; 879; 982 Решение 1. Построим график (рис. 5) данного корреляционного поля, отложив на оси Х в порядке возрастания показатели пульса покоя, на оси Y – абсолютные значения пробы PWC170. 2. Сделать вывод о форме и направлении взаимосвязи между исследуемыми показателями. Вывод: график данного корреляционного поля позволяет предположить, что, возможно, между пульсом покоя и абсолютными значениями пробы PWC170 у исследуемой группы наблюдается обратная зависимость, т. е. со снижением показателя пульса покоя происходит увеличение абсолютных значений PWC170. Рис. 5 Задачи для самостоятельного решения: Задача 1. Определить форму и направление взаимосвязи между результатами в беге на первой и второй половине дистанции 20 400 м у 13 исследуемых с помощью построения графика корреляционного поля, если данные выборок таковы: xi , с ~ 25,2; 26,4; 26,0; 25,8; 24,9; 25,7; 25,7; 25,7; 26,1; 25,8; 25,9; 26,2; 25,6 (первые 200 м). yi , с ~ 30,8; 29,4; 30,2; 30,5; 31,4; 30,3; 30,4; 30,5; 29,9; 30,4; 30,3; 30,5; 30,6 (последние 200 м). Задача 2. Определить форму и направление взаимосвязи между результатами в толчке штанги и прыжком в высоту с места у 12 тяжелоатлетов весовой категории до 60 кг с помощью построения графика корреляционного поля, если данные выборок таковы: результат в толчке: xi , кг ~ 107,5; 110; 110; 115; 115; 107,5; 107,5; 120; 122,5; 112,5; 120; 110; прыжок в высоту с места: yi , см ~ 57; 60; 58; 61; 63; 58; 55; 64; 65; 64; 66; 61. Задача 3. Определить форму и направление взаимосвязи между результатами кистевой динамометрии правой и левой рук у 7 школьников с помощью построения графика корреляционного поля, если данные выборок таковы: правая рука: xi, кГ ~ 14,0; 14,2; 14,9; 15,4; 16,0; 17,2; 18,1; левая рука: yi, кГ ~ 12,1; 13,8; 14,2; 13,0; 14,6; 15,9; 17,4. 2. 3. Метод аналитических группировок Метод аналитических группировок схематично можно представить следующим образом. 1. Вначале все единицы совокупности разбивают на определенные группы по возрастанию факторного признака, т. е. признака, положенного в основу группировки. 2. Затем по каждой группе рассчитывается средняя величина результатного признака. 3. Если с возрастанием факторного признака, при переходе от группы к группе, происходит возрастание или убывание результатного признака, значит можно сделать вывод о наличии связи и ее направлении. Пояснить изложенное можно на примере изучения связей между стажем работы и часовой зарплатой в коллективе рабочих одной профессии из 10 человек (табл. 3). 21 Таблица 3 Распределение рабочих по стажу и зарплате № рабочего 1 2 3 4 5 6 7 8 9 10 Стаж, лет 2,0 3,5 4,0 5,2 5,8 6,1 7,0 7,5 7,8 10,0 Зарплата, тыс. руб. 10 10 12 11 13 12 14 13 14 14 Определим размер группового интервала и число групп , произведем группировку (табл. 4): Таблица 4 Аналитическая группировка рабочих по стажу и зарплате Группы рабочих по стажу Количество рабочих Средняя зарплата, тыс. руб. 2–4 2 10 4–6 3 12 6–8 4 13 8–10 1 14 Итого 10 12 Результаты группировки свидетельствуют, что между производственным стажем рабочих и их зарплатой имеется прямая связь. Сгруппировав рабочих по стажу работы и рассчитав среднюю часовую зарплату по каждой из групп, можно сделать вывод о наличии связи между стажем и часовой зарплатой. Мы видим, что с увеличением стажа соответственно увеличивается и средняя часовая зарплата от группы к группе. При установлении факта наличия связи закономерно возникает вопрос: насколько существенна эта связь, насколько она тесная? (Вышеперечисленные методы дают возможность установить направление и характер влияния отдельных факторов на общий результат, но они не позволяют количественно измерить эту зависимость, рассчитать степень тесноты связи между взаимосвязанными явлениями). 22 Ответ на этот вопрос можно получить при помощи методов корреляционного и дисперсионного анализа. Поэтому они занимают в настоящее время ведущее место среди названных выше методов. 2. 4. Дисперсионный анализ Дисперсионной анализ дает, прежде всего, возможность определить роль систематической и случайной вариаций в общей вариации и, следовательно, установить роль изучаемого фактора в изменении результативного признака. Для этого пользуются правилом сложения дисперсий, согласно которому общая дисперсия равна сумме двух дисперсии: средней из внутригрупповых и межгрупповой . Для характеристики тесноты корреляционной связи между признаками в аналитических группировках межгрупповую дисперсию сопоставляют с общей. Это отношение называется корреляционным и обозначается . Оно характеризует долю вариации результативного признака, вызванного воздействием факторного признака, положенного в основание группировки. Корреляционное отношение по своему абсолютному значению колеблется в пределах от 0 до 1. Чем ближе корреляционное отношение к 1, тем большее влияние оказывает факторный признак на результативный. Если же факторный признак не влияет на результативный, то вариация, обусловленная им, будет равна нулю ( ) и корреляционное отношение также равно нулю ( ), что свидетельствует о полном отсутствии связи. И наоборот, если результативный признак изменяется только под воздействием одного факторного признака, то вариация, обусловленная этим признаком, будет равна общей вариации ( ), и корреляционное отношение будет равно единице ( ), что говорит о наличии полной связи. Пример. Определить при помощи корреляционного отношения тесноту связи между числом обслуживаемых станков и средней выработкой одной ткачихи (табл. 5). 23 Таблица 5 Дневная выработка ткачих, м Фамилия, имя, отчество ткачихи Дневная выработка ткачихи На 32 На 48 станках станках Отклонение индивиду- Квадраты отклонений альных значений при- индивидуальных значезнака от общей средней ний признака от общей средней На 32 станках На 48 станках На 32 станках На 48 станках Егорова Н. С. 40 62 – 14 +8 196 64 Жихарева Ю. А. 48 66 –6 + 12 36 144 Петрова А. А. 43 60 – 11 +6 121 36 Кротова Д. Н. 45 68 –9 + 14 81 196 Сергеева З. Ю. 44 64 – 10 + 10 100 100 Итого 220 320 – – 534 540 Средняя выработка 44 64 – – – – Общая средняя выработка ткачих равна: . Вычислим общую дисперсию, характеризующую общую вариацию под влиянием всех факторов: Межгрупповая дисперсия, характеризующая факторную вариацию, т. е. различия в выработке, обусловленные неодинаковым числом обслуживаемых станков, определяется по формуле: . Рассчитаем корреляционное отношение: . Следовательно, 93,1 % всей вариации объясняется тем, что часть ткачих работала на 32 станках, а часть – на 48 и только 6,9 % вариации является результатом действия прочих случайных факторов, не положенных в основание группировки. 24 Дисперсионный анализ позволяет не только определить роль случайной и систематической вариации, но и оценить достоверность вариации, обнаруженной методом аналитических группировок. Определение достоверности вариации дает возможность с заданной степенью вероятности установить, чем вызвана межгрупповая вариация – признаком, положенным в основание группировки, или является результатом действия случайных причин. Для оценки существенности корреляционного отношения пользуются критическими значениями корреляционного отношения η2 при разных уровнях вероятности или значимости а. Уровень значимости – это достаточно малое значение вероятности, отвечающее событиям, которые в данных условиях исследования будут считаться практически невозможными. Появление такого события является указанием на неправильность начального предположения. Чаще всего пользуются уровнями а = 0,05 или а = 0,01. Критические значения корреляционного отношения принимаются по таблицам (см. приложение 4). В этих таблицах распределение η2 при случайных выборках зависит от числа степеней свободы факторной и случайной дисперсии. Число степеней свободы факторной дисперсии R1 = т – 1, где т – число групп, а для случайной дисперсии R2 = п – т, где n – число вариант, m – число групп. В нашем примере 10 ткачих сгруппированы в две группы по числу обслуживаемых станков. Поэтому R1 = 2 – 1 = 1, a R2 = 10 – 2 = 8. По таблицам приложения 4 находим критическое значение η2, соответствующее R1 = 1 и R2 = 8 для уровней значимости а = 0,05, которое равно: η2(0,05)= 0,399. Это значит, что только в пяти случаях из 100 может случайно возникнуть корреляционное отношение, превышающее 0,399, а в 95 случаях из 100 корреляционное отношение не может быть больше 0,399. Теперь фактическое значение корреляционного отношения надо сравнить с критическим и табличным. Если оно окажется больше критического, то связь между результативным и факторным признаками считается существенной, если же фактическое значение корреляционного η2 меньше табличного, то связь между указанными признаками считается несущественной. 25 В рассматриваемом нами примере фактическое значение корреляционного отношения η2 = 0,93 больше табличного η2(0,05)= 0,399. Поэтому связь между числом обслуживаемых станков и выработкой является существенной. При проверке существенной связи чаще пользуются критерием Фишера, потому что при больших числах степеней свободы его табличные значения мало изменяются, в отличие от корреляционного отношения, которое требует более громоздких таблиц. Критерий Фишера представляет собой отношение межгрупповой дисперсии к средней из среднегрупповых дисперсий, исчисленных с учетом числа степеней свободы: Для этих отношений Фишер (отсюда название «критерий Фишера») составил таблицы, по которым можно определить, какая величина F при данном числе степеней свободы по факторной вариации (R1) и остаточной вариации (R2) дает основание утверждать с определенной вероятностью (например 0,95*0,399), что положенный в основание группировки признак является несущественным (см. приложение 5). В нашем примере: . По правилу сложения дисперсий: . Исчислим F: При уровне значимости а = 0,05, R1 = 1 и R2 = 8 критическое табличное значение F = 5,32. Значит, уже при значении F = 5,32 можно с вероятностью 0,95 утверждать, что группировочный признак (число обслуживаемых станков) является весьма существенным. В нашем примере F = 108,1. Тем более есть основания считать, что полученные в результате группировки данные являются вполне достоверными. Зная корреляционное отношение, можно определить критерий Фишера по следующей формуле: В нашем примере 26 Мы рассмотрели схему дисперсионного анализа при группировке по одному факторному признаку. Аналогично проводится анализ при комбинационной группировке по двум и более факторам. В этих случаях необходима оценка достоверности влияния не только каждого положенного в основание группировки фактора в отдельности, но и результаты их взаимодействия. Последний определяется как разность между эффектом совместного влияния двух группировочных признаков и суммой эффектов влияния каждого из этих факторных признаков, взятых в отдельности. Это осложняет расчеты суммы квадратов отклонений и числа свободы вариации, но сам принцип дисперсионного анализа, заключающийся в сопоставлении факторной дисперсии со случайной для оценки достоверности результатов статистической группировки, неизменен при любом числе признаков группировки. Как показатель тесноты связи корреляционное отношение имеет более универсальный характер, чем линейный коэффициент корреляции, поскольку его использование не ограничивается случаями линейной связи, а факторный признак может быть не количественным, а ранговым и даже номинальным. 2. 5. Основные понятия и задачи корреляционного анализа Надо производить опыты, изменяя обстоятельства, пока не извлечем из них общее правило, потому что опыт доставляет истинное правило. Л. да Винчи Корреляционный анализ – метод математической статистики, изучающий корреляционные (статистические) связи. Корреляция – это статистическая зависимость между случайными величинами, не имеющими строго функционального характера, при которой изменение одной из случайных величин приводит к изменению математического ожидания другой. Абстрактно-математическую сторону его более глубоко и детально рассматривают в курсе математической статистики. Мы же рассмотрим применение методов корреляционного анализа в изучении связей социально-экономических явлений. В статистике различают следующие варианты корреляционных связей. 1. Парная корреляция, т. е. зависимость между двумя признаками – результатным и факторным (или двумя факторными). 27 2. Частная корреляция – зависимость между результативным и одним факторным признаками при фиксированном значении других факторных признаков. 3. Множественная корреляция – зависимость между результативным и двумя и более факторными признаками. В теории статистики наиболее разработанной является методология парной корреляции, овладение которой позволяет познать методику изучения других вариантов корреляционных связей. Поэтому мы и остановимся прежде всего на рассмотрении парной корреляционной зависимости. Необходимо отметить, что при изучении корреляционных связей статистика, наряду с корреляционным, использует и регрессионный анализ. Поэтому корректней было бы сказать о применении методов КРА в изучении корреляционных связей, но для краткости говорят просто – корреляционный анализ. Эти два метода решают разные задачи, но в целом служат единой цели: изучению взаимосвязей социально-экономических явлений, их измерению и количественному выражению. Итак, при помощи методов КРА решаются две основные задачи1. 1. Определение формы связи и параметров уравнения связи (это задача регрессионного анализа). Первая задача решается подбором математической формулы (уравнения связи), выражающей зависимость результатного и факторного признаков. Основным методом решения задачи нахождения параметров уравнения связи является МНК, разработанный К. Ф. Гауссом (1777–1855). Он состоит в минимизации суммы квадратов отклонений фактически измеренных значений зависимой переменной у от ее значений, вычисленных по уравнению связи с факторным признаком (многими признаками) х. Следует заметить, что традиционные методы корреляции и регрессии широко представлены в разного рода статистических пакетах программ для электронновычислительных машин (ЭВМ). Исследователю остается только правильно подготовить информацию, выбрать удовлетворяющий требованиям анализа пакет программ и быть готовым к интерпретации полученных результатов. Алгоритмов вычисления параметров связи существует множество, и в настоящее время вряд ли целесообразно проводить 1 Необходимо сказать и о других задачах применения КРА, имеющих не формально математический, а содержательный характер (см. гл 8 «Общая теория статистики» И. И. Елисеева, М. М. Юзбашев, стр. 200.) 28 такой сложный вид анализа вручную. Вычислительные процедуры представляют самостоятельный интерес, но знание принципов изучения взаимосвязей, возможностей и ограничений тех или иных методов интерпретации результатов является обязательным условием исследования. 2. Измерение тесноты связи (задача корреляционного анализа). Вторая решается с помощью различных показателей, характеризующих тесноту связи между признаками (коэффициента корреляции, корреляционного отношения и др.). Поясним на графике (см. рис. 6, а и б) различия между корреляцией и регрессией. Рис. 6. Регрессия при разной интенсивности корреляции: (а – тесная корреляция, б – слабая корреляция) Угол наклона линии регрессии относительно оси абсцисс один и тот же на рис. 6, а и б. Однако на рис. 6, а точки корреляционного поля концентрируются около линии регрессии, тогда как на рис. 6, б точки поля корреляции разбросаны. Очевидно, что теснота связи, т. е. мера корреляции между х и у, в случаях, представленных на рис. 6, будет: а – высокой, б – низкой. Следовательно, уравнение регрессии в случае а будет статически значимо, а в случае б может быть статически незначимо. Таким образом случаи а и б различаются величиной коэффициентов корреляции, но в то же время будут иметь одинаковые коэффициенты регрессии: . Для изучения корреляционных связей статистиками разработаны разные методы, каждый из которых решает свои конкретные за29 дачи. Одни коэффициенты связи пригодны для измерения взаимосвязей качественных признаков, другие – для качественных и количественных, третьи – для количественных. Методы оценки тесноты связи подразделяются на корреляционные (параметрические) и непараметрические. Методы корреляционного и дисперсионного анализа не универсальны: их можно применять, если все изучаемые признаки являются количественными. При использовании этих методов нельзя обойтись без вычисления основных параметров распределения (средних величин, дисперсий), поэтому они получили название параметрических методов. Параметрические методы основаны на использовании, как правило, оценок нормального распределения и применяются в случаях, когда изучаемая совокупность состоит из величин, которые подчиняются закону нормального распределения. На практике это положение чаще всего принимается априори. Собственно, эти методы – параметрические – и принято называть корреляционными. Между тем в статистической практике приходится сталкиваться с задачами измерения связи между качественными признаками (пол, образование, занятие, семейное состояние человека, отрасль, форма собственности предприятия, т. е. признаками, не имеющими количественного выражения), к которым параметрические методы в обычном виде не применимы. Статистической наукой разработаны методы, с помощью которых можно измерить связь между явлениями, не используя при этом количественные значения признака, а значит, и параметры распределения. Такие методы получили название непараметрических. Непараметрические методы не накладывают ограничений на закон распределения изучаемых величин. Данные коэффициенты исчисляются при условии, что исследуемые признаки подчиняются различным законам распределения. Их преимуществом является и простота вычислений. 3. В заключение проводятся оценка и анализ полученных результатов при помощи специальных показателей корреляционного метода (коэффициентов детерминации, линейной и множественной корреляции и т. д.), а также проверка существенности связи между изучаемыми признаками. 30 3. Корреляционно-регрессионный анализ Если все кажется легким – это безошибочно доказывает, что работник весьма мало искусен и что работа выше его разумения. Л. да Винчи. Схематично КРА можно представить в виде следующих основных этапов: 1) установление наличия связи между изучаемыми признаками при помощи указанных выше методов; 2) отбор наиболее существенных факторов для анализа; 3) определение характера связи, ее направления и формы, т. е. подбор математического уравнения, выражающего зависимость между y и x; 4) определение параметров уравнения и показателей тесноты связи; 5) статистическая оценка показателей тесноты связи. Наиболее сложным и ответственным этапом КРА является подбор уравнения, характеризующего сущность связи. При парной корреляции уравнение связи может быть установлено при помощи построения корреляционного поля, составления корреляционных таблиц, пересмотра различных функций. Практика выработала определенный критерий, позволяющий установить оптимальное соотношение между числом факторных признаков, включаемых в модель, и объемом исследуемой совокупности. Согласно данному критерию, число факторных признаков к должно быть в 5–6 раз меньше объема изучаемой совокупности. Общая блок-схема реализации корреляционного и регрессионного методов анализа представлена на рис. 7. 31 Матрица исходных данных Построение матрицы парных коэффициентов корреляции Проверка связей между признаками на наличие мультиколлинеарности 32 Отбор факторных признаков Оценка статистической значимости уравнения регрессии и коэффициентов регрессии Расчет и анализ дополнительных показателей для расширения экономической интерпретации уравнения регрессии Экономическая интерпретация, формулировка выводов и предложений Рис. 7. Схема проведения корреляционно-регрессионного анализа 32 Если объем исследуемой совокупности не очень большой, то целесообразно построить корреляционное поле, общий вид которого укажет характер связи, ее направление и форму. В зависимости от характера изменения факториального и результативного признака различают прямолинейную и криволинейную корреляционную связь. При прямолинейной корреляционной зависимости с ростом факториального признака происходит возрастание или убывание результата в среднем на определенную величину, т. е. между двумя переменными величинами устанавливается постоянное соотношение. Примерами такой связи может быть зависимость розничного товарооборота от денежных доходов населения, уровня издержек обращения от объема розничного товарооборота и т.п. При криволинейной зависимости между переменными величинами устанавливается меняющееся соотношение. Криволинейная зависимость принимает различное математическое выражение в виде параболы, гиперболы и других кривых. То есть, по общему расположению точек корреляционного поля можно установить форму зависимости и выразить ее соответствующим уравнением: линейную форму уравнением прямой линии: ; нелинейную форму уравнениями различного рода кривых линий (рис. 8, 9, 10, 11). 3. 1. Парная линейная корреляция Простейшей системой корреляционной связи является линейная связь между двумя признаками – парная линейная корреляция. Практическое значение ее в том, что есть системы, в которых среди всех факторов, влияющих на результативный признак, выделяется один важнейший фактор, который в основном определяет вариацию результативного признака. Измерение парных корреляций составляет необходимый этап в изучении сложных, многофакторных связей. Есть такие системы связей, при изучении которых следует предпочесть парную корреляцию. Внимание к линейным связям объясняется ограниченной вариацией переменных и тем, что в большинстве случаев нелинейные формы связей для выполнения расчетов преобразуются в линейную форму. 33 Рис. 8. Парабола 2-го порядка или высших порядков Рис. 10. Показательная функция Рис. 9. Гипербола Рис. 11. Степенная функция: y = axn, где a , n – постоянные Уравнение парной линейной корреляционной связи называется уравнением парной регрессии и имеет вид: , (1) где – среднее значение результативного признака при определенном значении факторного признака х; a – свободный член уравнения; b – коэффициент регрессии, измеряющий среднее отношение отклонения результативного признака от его средней величины к отклонению факторного признака от его средней величины на одну единицу его измерения – вариация у, приходящаяся на единицу вариации х. 34 Коэффициент регрессии b всегда – число именованное. Если: b > 0, то связь прямая; b < 0, – связь обратная; b = 0 , – связь отсутствует. Что касается термина регрессия, его происхождение таково: создатели корреляционного анализа Ф. Гальтон (1822–1911) и К. Пирсон (1857–1936) интересовались связью между ростом отцов и их сыновей. Ф. Гальтон изучил более 200 семей и обнаружил, что в группе семей с высокорослыми отцами сыновья в среднем ниже ростом, чем их отцы, а в группе семей с низкорослыми отцами сыновья в среднем выше отцов. Таким образом, отклонение роста от средней в следующем поколении уменьшается – регрессирует. Причина в том, что на рост сыновей влияет не только рост отцов, но и рост матерей и много других факторов развития ребенка, и эти факторы, случайно направленные как в сторону увеличения, так и снижения роста, приближают рост сыновей к среднему росту. В целом же вариация роста, конечно, не уменьшается, а в наше время «акселерации» сам средний рост увеличивается из поколения в поколение. Уравнение (1) определяется по данным о значениях признаков х и у в изучаемой совокупности, состоящей из n единиц. Параметры уравнения а и b находятся МНК. Суть его в том, что на поле корреляции определяется такая теоретическая линия регрессии, которая, по сравнению с множеством других линий, наиболее близко расположена к точкам поля (изображающим фактические данные). То есть эта линия дает наименьшую сумму квадратов отклонений фактических значений результатного признака от выровненных (теоретических) значений: . Для отыскания значений параметров а и b, при которых f(a, b) принимает минимальное значение, частные производные функции приравниваем нулю и преобразуем получаемые уравнения, которые называются нормальными уравнениями МНК для прямой. Система нормальных уравнений для парной линейной связи имеет вид: , (2) где n – количество элементов факторного признака х. Нормальные уравнения МНК для прямой линии регрессии являются системой двух уравнений с двумя неизвестными а и b. Все 35 остальные величины, входящие в систему, определяются по исходной информации. Таким образом, однозначно вычисляются при решении этой системы уравнений оба параметра уравнения линейной регрессии. (3) Параметры a и b искомой прямой можно определить и по другим формулам: (4) Коэффициент парной линейной регрессии, обозначенный b, имеет смысл показателя силы связи между вариацией факторного признака х и вариацией результативного признака у. Он измеряет среднее по совокупности отклонение у от его средней величины при отклонении признака х от своей средней величины на принятую единицу измерения. Например, по данным табл. 6, при отклонении затрат на 1 корову от средней величины на 1 руб. надой молока на корову отклоняется от своего среднего значения на 3,47 кг в среднем по совокупности. При отклонении фактора на – результативный признак отклоняется в среднем на . Теснота парной линейной корреляционной связи, как и любой другой, может быть измерена корреляционным отношением η. Кроме того, при линейной форме уравнения применяется другой показатель тесноты связи – коэффициент корреляции rxy. Этот показатель представляет собой стандартизованный коэффициент регрессии, т. е. коэффициент, выраженный не в абсолютных единицах измерения признаков, а в долях среднего квадратического отклонения результативного признака: Коэффициент корреляции был предложен английским статистиком и философом Карлом Пирсоном (1857–1936). Его интерпретация такова: отклонение признака-фактора от его среднего значения на ве36 личину своего среднего квадратического отклонения в среднем по совокупности приводит к отклонению признака-результата от своего среднего значения на rxy его среднего квадратического отклонения. В отличие от коэффициента регрессии b коэффициент корреляции не зависит от принятых единиц измерения признаков, а стало быть, он сравним для любых признаков. Обычно считают связь сильной, если r ≥ 0,7; средней тесноты, при 0,5 ≤ r ≤ 0,7; слабой при r < 0,5. Не следует, особенно работая с ЭВМ, гнаться за большим числом знаков коэффициента корреляции. Во-первых, исходная информация редко имеет более трех значащих точных цифр, во-вторых, оценка тесноты связи не требует более двух значащих цифр. Квадрат коэффициента корреляции называется коэффициентом детерминации: Эта формула понадобится при анализе множественной корреляции. Умножив числитель и знаменатель на , получим: Поскольку имеем: , (7) где – индивидуальные значения у по уравнению связи. Это выражение соответствует выражению η2. Тождество коэффициента детерминации и квадрата корреляционного отношения служит основанием для интерпретации величины rxy2 как доли общей дисперсии результативного признака у, которая объясняется вариацией признака-фактора х (и связью между вариацией обоих признаков). Собственно говоря, основным показателем тесноты связи и следовало бы считать коэффициент детерминации (для линейной формулы связи) или квадрат кор37 реляционного отношения. Но исторически раньше был введен коэффициент корреляции, который долгое время и рассматривался как основной показатель. Аналогично разным «рабочим» формулам для вычисления коэффициента регрессии можно получить разные «рабочие» формулы коэффициента корреляции. Разделив числитель и знаменатель формулы (5) на n, получим: – . (8) Эта формула соответствует формуле (4) для коэффициента регрессии. 2. Средние квадратические отклонения можно выразить через средние величины признака: ; . Подставив эти выражения в (8), получим: . (9) Формула (9) удобнее для расчетов, если средние величины признаков и средние квадраты индивидуальных величин вычислены ранее. Смысл же коэффициента корреляции раскрывается исходной формулой (5). В преобразованных формулах этот смысл не столь ясен. Рассмотрим фактический пример анализа корреляционной парной линии связи по данным 16 сельхозпредприятий о затратах на 1 корову и о надое молока на корову. Ограниченный объем совокупности принят только в учебных целях, чтобы избежать приведения громоздких таблиц (табл. 6). 38 Таблица 6 Корреляция между затратами на корову и надоем молока в среднем от коровы 39 Номера Затраты Надой единиц на 1 корову, от одной совоку- руб./голов, коровы, ц пности xi yi 1 2 3 1 1602 34,2 2 1199 19,6 3 1321 27,3 4 1678 32.5 5 1600 33,2 6 1355 31,8 7 1413 30,7 8 1490 32,6 9 1616 26,7 10 1693 42,4 11 1665 37,9 12 1666 36,6 13 1628 38,0 14 1604 32,7 15 2077 51,7 16 2071 55,3 ∑ 25678 563,2 Расчетные значения надоя, ц ) 4 –3 – 406 – 283 + 73 –5 – 250 – 192 – 115 + 11 + 88 + 60 + 61 + 23 –1 + 472 + 466 – 5 – 1,0 – 15,6 – 7,9 – 2,7 – 2,0 – 3,4 – 4,5 – 2,6 – 5,5 + 7,2 + 2,7 + 1,4 + 2,8 – 2,5 + 16,5 + 20,1 – 6 + 3,0 + 6333,6 + 2235,7 – 197,1 + 10,0 + 850,0 + 864,0 + 299,0 – 60,5 + 633,6 + 162,0 + 85,4 + 64,4 + 2,5 + 7788 + 9366,6 + 28740,2 39 7 9 164836 80089 5329 25 62500 36864 13225 121 7744 3600 3721 529 1 222784 217156 818533 8 1,00 243,36 62,41 7,29 4,00 11,56 20,25 6,76 30,25 51,84 7,29 1,96 7,84 6,25 272,25 404,01 1138,32 9 35,1 21,1 25,3 37,7 35,0 26,5 28,5 31,2 35,6 38,2 37,3 37,3 36,0 35,2 51,6 51,4 563,0 Средние значения признаков: руб.; ц/голов. Сопоставляя знаки отклонений признаков x и у от средних величин, видим явное преобладание совпадающих по знакам пар отклонений: их 14 и только 2 пары несовпадающих знаков. Немецкий психиатр Г. Т. Фехнер (1801–1887) предложил меру тесноты связи в виде отношения разности числа пар совпадающих и несовпадающих пар знаков к сумме этих чисел: Конечно, коэффициент Фехнера – очень грубый показатель тесноты связи, не учитывающий величину отклонений признаков от средних значений, но он может служить некоторым ориентиром в оценке интенсивности связи. В данном случае он указывает на тесную связь признаков. Вычислим на основе итоговой строки табл. 6 параметр парной линейной корреляции: Он означает, что в среднем по изучаемой совокупности отклонение затрат на 1 корову от средней величины на 1 руб. приводило к отклонению с тем же знаком среднего надоя молока на 0,0347 ц, т. е. на 3,47 кг на корову. При нестрогой интерпретации говорят: «С увеличением затрат на корову на 1 руб. в среднем надой молока возрастал на 3,47 кг». Поскольку и до начала резкой инфляции стоимость 3,47 кг молока значительно превосходила рубль, увеличение затрат на корову было экономически целесообразным. Свободный член уравнения регрессии вычислим по формуле: а = 35,2 – 0,0347 × 1605 = – 20,49. Уравнение регрессии в целом имеет вид: Отрицательная величина свободного члена уравнения означает, что область существования признака у не включает нулевого значения признака и близких значений. Можно рассчитать минимально 40 возможную величину фактора х, при которой обеспечивается наименьшее значение признака у (разумеется, положительное): – это наименьшая сумма затрат на 1 корову, при которых корова способна давать молоко. Если же область существования результативного признака включает нулевое значение признакафактора, то свободный член является положительным и означает среднее значение результативного признака при отсутствии данного фактора, например среднюю урожайность картофеля при отсутствии органических удобрений. Графическое изображение корреляционной связи по данным табл. 6. приведено на рис. 12. Рис. 12. Корреляция затрат на корову с продуктивностью Коэффициент корреляции, рассчитанный на основе табл. 6: +0,942. Полученное значение гораздо больше коэффициента Фехнера. Квадрат коэффициента корреляции, т. е. коэффициент детерминации составил 0,886 или 88,6 %. Вариации надоев молока на корову связаны с вариацией затрат в хозяйствах, произведенных в среднем на 1 корову. 41 Для интерпретации коэффициента корреляции необходимо знать область его существания . Как ясно из формулы 5, минимальное, именно нулевое значение коэффициента корреляции может быть достигнуто, если положительные и отрицательные произведения отклонений признаков от их средних величин в числителе полностью уравновесят друг друга. Это свидетельствовало бы о полном отстутствии связи, но вероятность такого абсолютно точного взаимопогашения крайне мала для любой реальной, не бесконечно большой совокупности. Поэтому и при отстутствии реальной связи коэффициент корреляции на практике не равен нулю. Максимально тесная связь – это связь функциональная, когда каждое индивидуальное значение результативного признака уi может быть однозначно поставлено в соответствие значению хi, например, когда уi = хi ×с, где с – константа. Подставив выражение уi в формулу коэффициента корреляции (5) , получим: Если связь обратная и уi = – схi, то коэффициент корреляции будет равен минус единице. Чем ближе коэффициент корреляции к единице, тем ближе связь к функциональной. Полученное в примере значение + 0,932 свидетельствует об очень тесной связи надоев молока с затратами в расчете на 1 корову. Об этом же говорит и рис. 12, где реальные значения для отдельных хозяйств (точки корреляционного поля) близко расположены к линии регрессии, выражающей среднюю закономерность связи. 3.2. Статистическая оценка надежности параметров парной корреляции Показатели корреляционной связи, вычисленные по ограниченной совокупности (по выборке), являются лишь оценками той или иной статистической закономерности, поскольку в любом параметре сохраняется элемент не полностью погасившейся случай42 ности, присущей индивидуальным значениям признаков. Поэтому необходима статистическая оценка степени точности и надежности параметров корреляции. Под надежностью здесь понимается вероятность того, что значение проверяемого параметра не равно нулю, не включает в себя величины противоположных знаков. Вероятностная оценка параметров корреляции производится по общим правилам проверки статистических гипотез, разработанным математической статистикой, в частности путем сравнения оцениваемой величины со средней случайной ошибкой оценки. Для коэффициента парной регрессии b средняя ошибка оценки вычисляется как: где – расчетные значения результативного признака; – число степеней свободы. Числитель подкоренного выражения есть остаточная дисперсия результативного признака. В примере по данным табл. 6 средняя ошибка оценки коэффициента регрессии: Зная среднюю ошибку оценки коэффициента регрессии, можно вычислить вероятность того, что нулевое значение коэффициента входит в интервал возможных с учетом ошибки значений. С этой целью находится отношение коэффициента к его средней ошибке, т. е. t-критерий Стьюдента: Табличное значение t-критерия Стьюдента при 16–2 степенях свободы и уровне значимости 0,01 составляет 2,92 (см. приложение 2). Полученное значение критерия много больше, следовательно, вероятность нулевого значения коэффициента регрессии менее 0,01. Гипотезу о несущественности этого коэффициента можно отклонить: данные табл. 6 надежно говорят о влиянии вариации затрат на корову на вариацию надоя молока от коров. Расчет критерия Стьюдента для коэффициентов регрессии входит в 43 программы ЭВМ и ПЭВМ для корреляционного анализа, например «Mikrostat», MAKR-4, «Statgraphics» и др. 3. 3. Множественное уравнение регрессии Проблемы множественного корреляционно-регрессионного анализа и моделирования подробно изучаются в специальном курсе того же названия. В курсе «Общая теория статистики» рассматриваются только самые общие вопросы этой сложной проблемы и дается начальное представление о методике построения уравнения множественной регрессии и показателей связи. Рассмотрим линейную форму многофакторных связей не только как наиболее простую, но и как форму, предусмотренную пакетами прикладных программ для ПЭВМ. Если же связь отдельного фактора с результативным признаком не является линейной, то производят линеаризацию уравнения путем замены или преобразования величины факторного признака. Общий вид многофакторного уравнения регрессии имеет вид: (11) где k – число факторных признаков. Чтобы упростить систему уравнений МНК, необходимую для вычисления параметров уравнения (4), обычно вводят величины отклонений индивидуальных значений всех признаков от средних величин этих признаков. (12) Получаем систему k-уравнений МНК: 44 Решая эту систему, получаем значения коэффициентов условно-чистой регрессии bj. Свободный член уравнения вычисляется по формуле: . (13) Термин «коэффициент условно-чистой регрессии» означает, что каждая из величин bj измеряет среднее по совокупности отклонение результативного признака от его средней величины при отклонении данного фактора хj от своей средней величины на единицу его измерения и при условии, что все прочие факторы, входящие в уравнение регрессии, закреплены на средних значениях, не изменяются, не варьируют. Таким образом, в отличие от коэффициента парной регрессии коэффициент условно-чистой регрессии измеряет влияние фактора, абстрагируясь от связи вариации этого фактора с вариацией остальных факторов. Если было бы возможным включить в уравнение регрессии все факторы, влияющие на вариацию результативного признака, то величины bj можно было бы считать мерами чистого влияния факторов. Но так как реально невозможно включить все факторы в уравнение, то коэффициенты bj не свободны от примеси влияния факторов, не входящих в уравнение. Включить все факторы в уравнение регрессии невозможно по одной из трех причин или сразу по ним всем, так как: 1) часть факторов может быть неизвестна современной науке, познание любого процесса всегда неполное; 2) по части известных теоретических факторов нет информации либо таковая ненадежна; 3) численность изучаемой совокупности (выборки) ограничена, что позволяет включить в уравнение регрессии ограниченное число факторов. Коэффициенты условно-чистой регрессии bj являются именованными числами, выраженными в разных единицах измерения, и поэтому несравнимы друг с другом. Для преобразования их в сравнимые относительные показатели применяется то же преобразование, что и для получения коэффициента парной корреляции. Полученную величину называют стандартизованным коэффициентом регрессии или β-коэффициентом. (14) 45 β-коэффициент при факторе хj, определяет меру влияния вариации фактора хj на вариацию результативного признака у при отвлечении от сопутствующей вариации других факторов, входящих в уравнение регрессии. Коэффициенты условно-чистой регрессии полезно выразить в виде относительных сравнимых показателей связи, коэффициентов эластичности: Коэффициент эластичности фактора хj говорит о том, что при отклонении величины данного фактора от его средней величины на 1 % и при отвлечении от сопутствующего отклонения других факторов, входящих в уравнение, результативный признак отклонится от своего среднего значения на ej процентов от . Чаще интерпретируют и применяют коэффициенты эластичности в терминах динамики: при увеличении фактора х на 1 % его средней величины результативный признак увеличится на еj процентов его средней величины. 3. 4. Теснота связи и простейшие методы ее измерения Оценка тесноты связи между признаками предполагает определение меры соответствия вариации результатного признака и факторного (или нескольких факторных при множественной корреляции). В случае линейной зависимости тесноту связи можно измерить при помощи линейного коэффициента корреляции (ЛКК), или его еще называют коэффициент Пирсона: где b – коэффициент регрессии; σх – среднее квадратическое отклонение факторного признака; σy – среднее квадратическое отклонение результатного признака; Линейный коэффициент корреляции можно определить и по иной формуле: или 46 Линейный коэффициент корреляции может принимать значения от 0 ± 1 (знак (+) – при прямой зависимости, (–) – при обратной). На практике руководствуются следующими оценками тесноты связи: при r < 0,3 – связь слабая; r = 0,3 ÷ 0,7 – средняя; r > 0,7 – сильная; r = 0 – связь отсутствует; r = 1 – связь функциональная. Значимость ЛКК проверяется на достоверность (надежность). Считается, что корреляционная связь является достоверной лишь при достаточном числе наблюдений (не менее 20–30). Проверка надежности коэффициента корреляции осуществляется с помощью критерия надежности по формуле: где σr – среднеквадратическая ошибка коэффициента корреляции: где n – число наблюдений. Если tr ≥ 3, то r считается надежным, а связь доказанной с вероятностью 0,997. Если tr < 3, связь нельзя считать достоверной. Из формулы средней квадратической ошибки видно, что эта ошибка находится в обратной зависимости от числа наблюдений. Для всех иных форм связи теснота ее может быть определена с помощью корреляционного отношения (индекс корреляции): где – дисперсия выравненных значений результатного признака (другими словами: среднеквадратическое отклонение вычисленных по корреляционному уравнению значений от средней величины ); – дисперсия фактических значений результатного признака y (другими словами: среднеквадратическое отклоне- 47 ние фактических значений у от средней величины ). Если , то и вариация y полностью зависит от вариации x. Если , то вариация x никак не влияет на вариацию y и в этом случае . То есть, чем ближе η к 1, тем связь теснее, а чем ближе к нулю, тем слабее. Если связь между признаками определяется методом аналитической группировки, то корреляционное отношение целесообразно определить соотношением межгрупповой и общей дисперсии, т. е.: – где . Если связь отсутствует, то = 0. В этом случае межгрупповая дисперсия равна нулю (δ2 = 0), т. е. все групповые средние равны между собой и межгрупповой вариации нет. Это означает, что группировочный признак не влияет на вариацию исследуемого признака х. Если связь функциональная, то = 1. В этом случае дисперсия групповых средних равна общей дисперсии . Это означает, что группировочный признак полностью определяет характер изменения изучаемого признака. Чем больше значение корреляционного отношения приближается к единице, тем полнее (сильнее) корреляционная связь между признаками (табл. 7). Таблица 7 Качественная оценка связи между признаками (шкала Чэддока) Значение теор Характер связи Значение теор Характер связи η=0 Отсутствует 0,5 ≤ η < 0,7 Заметная 0 < η < 0,2 Очень слабая 0,7 ≤ η < 0,9 Сильная 0,2 ≤ η < 0,3 Слабая 0,9 ≤ η < 1 Весьма сильная 0,3 ≤ η < 0,5 Умеренная η=1 Функциональная 48 4. Непараметрические методы изучения связи Корреляционно-регрессионный метод применим только к количественным признакам. Однако задача измерения связи ставится перед статистикой и по отношению к таким признакам, как пол, образование, занятие, семейное состояние человека, отрасль, форма собственности предприятия, т. е. признакам, не имеющим количественного выражения. Для измерения связи между качественными (атрибутивными) признаками в статистике широко используются: коэффициент сопряженности А. А. Чупрова, коэффициенты ассоциации, контингенции, а также коэффициенты ранговой корреляции Спирмена и Кендалла. 4. 1. Коэффициент корреляции знаков (коэффициент Фехнера) Простейшим непараметрическим показателем тесноты связи между двумя признаками х и у является коэффициент Фехнера. В основе его расчета лежит принцип сопоставления не абсолютных значений признаков х и у, а их отклонений от среднего уровня. Применение коэффициента Фехнера в практических расчетах основано на предположении, что отклонения эмпирических значений признака хi от его средней величины носят случайный характер и должны случайным образом сочетаться с отклонениями эмпирических значений признака у от его среднего уровня . Соотношение пар совпадений или несовпадений знаков отклонений и позволяет судить о наличии и степени тесноты связи между х и у. Коэффициент Фехнера (KФехнера) определяется по формуле следующего вида: , 49 (16) где С – число совпадений знаков отклонений; Н – число несовпадений знаков отклонений. Коэффициент Фехнера может принимать как положительные, так и отрицательные значения в пределах от (–1) до (+ 1), т. е. –1 ≤ КФехнера ≤ +1. При КФехнера = ± 1 связь между признаками х и у функциональная. При КФехнера = 0 связь отсутствует. Промежуточные значения коэффициента Фехнера характеризуют степень тесноты связи между двумя признаками. Знак коэффициента Фехнера свидетельствует о направлении связи между двумя признаками: если КФехнера [–1; 0], то связь обратная, т. е. с увеличением или снижением х снижается или увеличивается у; если КФехнера [0; +1], то связь прямая, т. е. с увеличением или снижением х увеличивается или снижается у. При значении КФехнера > 0,6 делается вывод о наличии сильной прямой (обратной) зависимости между признаками. Пример. Рассчитаем коэффициент Фехнера по данным о деятельности аудиторско-консультационных фирм Москвы в 2001 г., построив для этого табл. 8. Таким образом, связь между совокупной выручкой и численностью профессионалов аудиторско-консультационных фирм Москвы прямая и сильная. Рассчитаем линейный коэффициент корреляции (некоторые расчеты опущены) и сравним его значение с КФехнера: 50 Линейный коэффициент корреляции выше (связь сильная). Таблица 8 Расчетные данные для определения коэффициента Фехнера № п/п Совокупная выручка, Общая численность млн. руб., y профессионалов, чел., х 2,62 23 Знаки отклонений – 1,081 – 30,6 2 3,04 32 – 0,661 – 21,6 3 3,15 50 – 0,551 – 3,6 4 3,83 53 + 0,129 – 0,6 5 3,58 55 – 0,121 + 1,4 6 4,08 58 + 0,379 + 4,4 7 4,09 59 + 0,389 + 5,4 8 4,20 62 + 0,499 + 8,4 9 4,18 69 + 0,479 + 15,4 10 4,24 75 + 0,539 + 21,4 Итого 37,01 536 х х Средняя 3,701 53,6 х х 1 Недостатком коэффициента Фехнера, что значительно сокращает возможности его практической реализации, является равенство весов различных по абсолютной величине отклонений фактических значений признаков от их среднего уровня. Кроме того неточность этого показателя проявляется еще и в том, что он учитывает только знаки отклонений, а не числовые значения отклонений. 4. 2. Ранговые коэффициенты связи (коэффициенты Спирмена, Кендалла, конкордации) В ряде случаев, когда факторный признак может иметь не количественное выражение, а атрибутивное (т. е. не имеющее количественного выражения), то в качестве условных обозначений значений признаков и оценки связей между ними также используются ранги и ранговые коэффициенты связи. 51 Например, на объем реализации товаров оказывают влияние такие факторы, как уровень образования, мода и др., но которые нельзя выразить каким-либо числом. Ранжирование – это процедура упорядочения объектов изучения, которая выполняется на основе предпочтения. Ранг – это порядковый номер значений признака, расположенных в порядке возрастания или убывания их величин. Если значения признака имеют одинаковую количественную оценку, то ранг всех этих значений принимается равным средней арифметической от соответствующих номеров мест, которые их определяют. Данные ранги называются связными. Пример. Проранжируем предприятия автомобильной промышленности одного из регионов по величине балансовой прибыли. Наиболее предпочтительному предприятию, величина балансовой прибыли которого наибольшая, присваивается ранг «1»; затем в порядке уменьшения величины балансовой прибыли были проранжированы все рассматриваемые предприятия автомобильной промышленности (табл. 9). Таблица 9 Балансовая прибыль предприятий автомобильной промышленности одного из регионов в 1998 г. Предприятие Балансовая прибыль, млн. руб. Ранжирование (ранги) 1 10 6,5 2 12 4 3 10 6,5 4 12 4 5 12 4 6 15 2 7 17 1 Примечание. * Цифры условные 52 Среди непараметрических методов оценки тесноты связи наибольшее значение имеют ранговые коэффициенты ρ – Спирмена и τ – Кендалла. Эти коэффициенты могут быть использованы для определения тесноты связи, как между количественными, так и между качественными признаками при условии, если их значения упорядочить или проранжировать по степени убывания или возрастания признака. Так, например, можно при помощи одной группы экспертов проранжировать кандидатов на занятие какой-либо должности по степени профессиональной подготовленности, а другую группу экспертов просить проранжировать тех же кандидатов по личностным и этическим качествам, а затем измерить связь между рангами. 4. 2. 1. Коэффициент корреляции рангов Спирмена Коэффициент корреляции рангов (коэффициент Спирмена) рассчитывается по формуле (для случая, когда нет связных рангов2) (17) где – квадрат разности рангов , – ранг качественных показателей, – ранг качественных показателей, n – число наблюдений (число пар рангов). Коэффициент Спирмена принимает любые значения в интервале [–1; 1]. Если ранги по обоим признакам совпадают, то = 0, ρ = 1 и, следовательно, связь полная прямая. Если ρ = – 1, связь полная обратная, при ρ = 0 связь между признаками отсутствует. Значимость коэффициента корреляции рангов Спирмена проверяется на основе t-критерия Стьюдента. Расчетное значение критерия определяется по формуле: . Значение коэффициента корреляции считается статистически существенным, если tp > tкр. (α; k = n – 2). 2 См. (Р. А. Шмойлова, В. Г. Минашкин, Н. А. Садовникова, Е. Б. Шувалова, 2005) стр. 390–391. 53 Пример. Вычислим коэффициент корреляции рангов по данным о стоимости основных фондов и выпуске продукции (млн. руб.). Соответствующие расчеты приведены в табл. 10. Ранги стоимости основных фондов для фирм «Перспектива» и «Бест» определяются как средняя из , потому что стоимости основных фондов в 10 млн. руб. соответствуют ранги 4 и 5. Аналогично ранги выпуска продукции для фирмы «XXI век» и «Золотой век» определяются как средняя из . Итак, коэффициент Спирмена Полученный ранговый коэффициент корреляции свидетельствует о наличии прямой тесной связи между величиной основных фондов и выпуском продукции. Ранговый коэффициент корреляции более точный по сравнению с коэффициентом корреляции знаков, потому что он учитывает не только знаки отклонений, но и место величины признака в данном ряду. 4. 2. 2. Коэффициент корреляции рангов Кендалла τ Ранговый коэффициент корреляции Кендалла τ может также использоваться для измерения взаимосвязи между качественными и количественными признаками, характеризующими однородные объекты, ранжированные по одному принципу. Расчет рангового коэффициента Кендалла осуществляется по формуле: , (18) где п – число наблюдений; S – сумма разностей между числом последовательностей и числом инверсий по второму признаку. Расчет данного коэффициента выполняется в следующей последовательности: 1) значения х ранжируются в порядке возрастания или убывания; 2) значения у располагаются в порядке, соответствующем значениям x; 3) для каждого ранга у определяется число следующих за ним значений рангов, превышающих его величину. Суммируя таким образом числа, определяют величину Р как меру соответствия последовательностей рангов по х и у и учитывают со знаком (+); 54 4) для каждого ранга определяется число следующих за ним рангов, меньших его величины. Суммарная величина обозначается через Q и фиксируется со знаком (–); 5) определяется сумма баллов по всем членам ряда. Этот коэффициент также изменяется в пределах – 1 < τ < 1. Он дает несколько более строгую оценку связи, нежели коэффициент Спирмена. Как правило, коэффициент Кендалла меньше коэффициента Спирмена, соотношение между ними: Это соотношение выполняется при большом числе наблюдений, n > 30, и слабых либо умеренно тесных связях. Тогда S = Р – Q. Можно показать, что P + Q = – n(n – 1), так что τ может быть представлен как . (19) Пример (корреляции рангов Кендалла). В приведенном выше примере: Р = 9 + 6 + 7 + 6 + 5 + 4 + 2 + 1 + 0 + 0 = 40. Q = 0 + (– 1) + 0 + 0 + 0 + 0 + 1 + 1 + 1 + 0 = – 4. Таким образом, , (20) что также свидетельствует о наличии тесной связи между рассматриваемыми признаками. Хотя τ < ρx/y (ρx/y = 0,9), но поскольку связь тесная, соотношение между этими двумя коэффициентами не вполне соответствует упомянутому: коэффициент Спирмена в нашем примере превосходит τ не в 1,5 раза, а на 125 %. Если в изучаемой совокупности есть связные ранги, то расчеты необходимо проводить по следующей формуле: (21) где t – число связанных рангов в ряду X и Y соответственно. 55 Таблица 10. Расчет коэффициента Спирмена Знак отклонения от средней арифметической 56 Наименование фирмы Стоимость основных фондов х, млн. руб. Выпуск продукции у, млн.руб. «Светлана» 6,0 2,4 – «XXI век» 8,0 4,0 «Золотой век» 9,0 «Перспектива» Ранги по x по y Разность рангов Квадрат разности рангов – 1,0 1,0 0 0 – – 2,0 3,5 – 1,5 2,25 3,6 – – 3,0 2,0 + 1,0 1,00 10,0 4,0 – – 4,5 3,5 + 1,0 1,00 «Бест» 10,0 4,5 – – 4,5 5,0 – 0,5 0,25 «Карен» 11,0 4,6 + – 6,0 6,0 0 0 «Элита» 12,0 5,6 + + 7,0 8,0 – 1,0 1,00 «Интерстиль» 13,0 6,5 + + 8,0 9,0 – 1,0 1,00 «Гейзер» 14,0 7,0 + + 9,0 10,0 – 1,0 1,00 «Олимп» 15,0 5,0 + + 10,0 7,0 + 3,0 9,00 Итого 108,0 47,2 Средняя 10,8 4,72 16,5 56 Рассмотрим расчет коэффициента корреляции рангов Кендалла для случая наличия связных рангов: Р = 9 + 6 + 7 + 6 + 5 + 4 + 2 + 1 + 0 + 0 = 40. Q = 0 + (– 1) + 0 + 0 + 0 + 0 + (– 1) + (– 1) + (– 1) + 0 = – 4. Ux = (2 × (2 – 1))/2 = 1. Uy = (2 × (2 – 1))/2 = 1. = , что свидетельствует о существенной связи между номинальной стоимостью основных фондов и выпуском продукции. Связь между признаками можно признать статистически значимой, если значения коэффициентов ранговой корреляции Спирмена и Кендалла больше 0,5. 4. 2. 3. Множественный коэффициент ранговой корреляции (коэффициент конкордации W) Для определения тесноты связи между произвольным числом ранжированных признаков применяется множественный коэффициент ранговой корреляции (коэффициент конкордации) (W), который вычисляется по формуле: W , (22) где т – количество факторов; n – число наблюдений; S – отклонение суммы квадратов рангов от средней квадратов рангов. Пример. Коэффициент конкордации. Определим тесноту связи между уставным капиталом, числом выставленных акций и числом занятых на предприятиях, выставивших акции на аукционы в 2001 г. (табл. 11): ; 57 Таблица 11 Расчет коэффициента конкордации 58 Номер предприятия Уставный капитал, тыс. руб., x Число выставленных акций, y Число занятых на предприятии, z Rx Ry Rz Сумма строк Квадраты сумм 1 29540 856 119 9 7 1 17 289 2 16050 930 125 1 9 2 12 144 3 41020 1563 132 10 10 3 23 529 4 23500 682 141 6 5 4 15 225 5 26250 616 150 7 3 5 15 225 6 17950 495 165 4 2 6 12 144 7 28130 815 178 8 6 7 21 441 8 17510 858 181 3 8 8 19 361 9 17000 467 201 2 1 9 12 144 10 22640 661 204 5 4 10 19 361 Итого – – – – – – 165 2863 58 Значимость коэффициента конкордации проверяется на основе χ2-критерия Пирсона: . (23) Для нашего примера: Расчетное значение χ р2 = 6,24 меньше χ кр2 = 16,919 (а = 0,05, v = n – 1 = 9), что подтверждает незначимость коэффициента конкордации и свидетельствует о слабой связи между рассматриваемыми признаками. В случае наличия связных рангов коэффициент конкордации определяется по формуле: , (24) где ; tj – количество связных рангов по отдельным показателям. Проверка значимости осуществляется по формуле: (25) Коэффициент конкордации принимает любые значения в интервале [– 1; 1]. Пример. Коэффициент конкордации (в случае наличия связных рангов). По данным предприятий нефтеперерабатывающей промышленности определим зависимость прибыли от реализации, от среднегодовой стоимости основных производственных фондов и объема валовой продукции (табл. 12): ; ; ; ; ; . 59 Таблица 12 Расчет коэффициента конкордации (в случае наличия связных рангов) Номер Прибыль от реализации, Объем валовой Среднегодовая стоимость предпримлн. руб. продукции, млрд. руб. ОПФ, млрд. руб. ятия x y z Rx Ry Rz Сумма Квадраты строк сумм 60 1 40 1,7 0,27 1,5 1 1,5 4 16 2 75 3,2 0,55 3 5 4 12 144 3 82 2,9 0,97 4,5 13,5 182,25 4 40 1,8 0,27 1,5 2 1,5 5 25 5 106 11,8 0,98 6 6,5 7 19,5 380,25 6 82 2,9 0,35 4,5 3,5 3 11 121 7 109 11,8 0,97 7 6,5 5,5 19 361 Итого – – – 28 28 84 1229,5 60 3,5 5,5 28 Расчетное значение χ2-критерия Пирсона для проверки значимости коэффициента конкордации по данным нашего примера составило: Расчетное значение χр2 = 22,15 больше χкр2 = 12,592, (а = 0,05, v = п – 1 = 6), что подтверждает значимость коэффициента конкордации и свидетельствует о сильной связи между рассматриваемыми признаками. Преимуществом ранговых коэффициентов корреляции Спирмена, Кендалла и конкордации является то, что с их помощью можно измерять и оценивать связи как между количественными, так и между атрибутивными признаками, которые поддаются ранжированию. 4. 3. Анализ взаимосвязи между двумя дихотомическими переменными (коэффициенты ассоциации, контингенции) При наличии соотношения между вариацией качественных признаков говорят об их ассоциации, взаимосвязанности. Для оценки связи в этом случае используют целый ряд показателей. Для измерения связи между двумя дихотомическими переменными (т. е. признаками, каждый из которых принимает два значения), а также для исследования взаимосвязи качественных альтернативных признаков, принимающих только 2 взаимоисключающих значения, используется коэффициент ассоциации и контингенции. Для их вычисления строится таблица 4-х камней (таблица сопряженности – табл. 13), которая показывает связь между двумя явлениями, каждое из которых должно быть альтернативным, т. е. состоящим из двух качественно отличных друг от друга значений признака (например, изделие годное или бракованное). Таблица 13 Таблица сопряженности a b а+b c d с+d а+c d+b а + b + c +d 61 Коэффициенты вычисляются по формулам: коэффициент ассоциации Ка предложен английским статистиком Джорджем Одни Юлом: ; (26) коэффициент контингенции Кk обеспечивает более достоверное измерение связи: (27) . Коэффициент контингенции всегда меньше коэффициента ассоциации. Связь считается подтвержденной, если Ка ≥ 0,5, a Кk ≥ 0,3. По абсолютному значению коэффициента (от 0 до 1) оцениваем количественную меру связи: – если Ка = 0 – корреляция отсутствует (данные факторы между собой нейтральны); – если 0,09 ≤ Ка ≤ 0,19 – статистическая взаимосвязь очень слабая; – если 0,2 ≤ Ка ≤ 0,49 – статистическая взаимосвязь слабая; – если 0,5 ≤ Ка ≤ 0,69 – статистическая взаимосвязь средняя; – если 0,70 ≤ Ка ≤ 0,99 – статистическая взаимосвязь сильная. Таким образом, на основании рассчитанного коэффициента делается вывод о том, что между исследуемыми признаками существует слабая (средняя, сильная) положительная (отрицательная) связь. Пример (коэффициенты ассоциации и контингенции). В табл. 14 представлены данные зависимости наличия отдельной квартиры от семейного положения. Таблица 14 Зависимость наличия отдельной квартиры от семейного положения Семейное положение Имеют отдельную квартиру Не имеют отдельной квартиры Всего Семейное 300 (а) 115 (b) 415 (a + b) Одинокие 15 (с) 70 (d) 85 (c + d) Всего 315 (а + с) 185 (b + d) 62 500 (а + b + c + d) Вычислим коэффициент ассоциации (Ка): . Вычислим коэффициент контингенции (Кk): Ка (0,848) ≥ 0,5 a Кk (0,425) ≥ 0,3. Это значит, что между семейным положением и обеспеченностью квартирой существует прямая существенная связь. 4. 4. Коэффициенты оценки связи качественных признаков, представленных несколькими градациями (коэффициенты сопряженности Пирсона и Чупрова) Если признаки имеют 3 или более градаций, то для изучения взаимосвязей используются коэффициенты взаимной сопряженности Пирсона и Чупрова. Для расчета коэффициентов Пирсона и Чупрова составляется вспомогательная табл. 15: Таблица15 Вспомогательная таблица для расчета коэффициента взаимной сопряженности y 1 2 … i Итого: 1 f11 f12 … f1i n1 2 f21 f22 … f2i n2 … … … … … … j fj1 fj2 … fji nj Итого m1 m2 … mi minj x Коэффициент взаимной сопряженности Пирсона (С): , где – показатель взаимной сопряженности. 63 (28) Показатель среднеквадратической сопряженности φ2 определяется путем вычитания единицы из суммы отношений квадратов частот каждой клетки корреляционной таблицы к произведению частот соответствующего столбца и строки: f ij2 2 mi nj 1; , где fij – частоты соответствующих клеток таблицы; mi – столбцы таблицы; nj – строки. Коэффициент взаимной сопряженности Чупрова (К): , (29) где К1 – число значений (групп) первого признака; K2 – число значений (групп) второго признака. Чем ближе С и К к единице, тем связь теснее. Пример. (Коэффициент взаимной сопряженности ПирсонаЧупрова). С помощью коэффициента взаимной сопряженности проанализируем зависимость распределения сотрудников строительной фирмы ООО «Скат» по категориям от уровня их образования (табл. 16). Таблица 16 Зависимость распределения сотрудников строительной фирмы ООО «Скат» по категориям от уровня их образования* Образование Категория сотрудников Итого руководители служащие рабочие Высшее 10 30 5 45 Неполное высшее 7 25 10 42 Среднее специальное 2 15 50 67 Среднее общее 1 10 25 36 Итого 20 80 90 190 * Данные условные 64 ; Связь близка к умеренной. В статистике существуют модификации коэффициента Чупрова 3, например, через расчет χ2-критерия Пирсона. Коэффициент взаимной сопряженности (КЧупрова) вычисляется по формуле: , где наиболее распространенный крите- рий согласия, используемый для проверки статистической гипотезы о виде распределения. Коэффициент Чупрова изменяется в пределах 0 ≤ КЧупрова ≤ 1. По данным предыдущего примера получим следующие результаты: 3 Р. А. Шмойлова, В. Г. Минашкин, Н. А. Садовникова, Е. Б. Шувалова, 2005, с. 382–384. 65 Связь средняя. Другой модификацией коэффициента взаимной сопряжѐнности Чупрова является: , где К1 – число строк в таблице; К2 – число граф в таблице; n – число наблюдений. Вычислим величину К1 для приведенного примера: . Связь близка к умеренной. 5. Выводы Таким образом, одной из важных задач статистики является задача изучения и измерения связей между явлениями. Экономисту, менеджеру или финансисту в практической деятельности необходимо уметь выявить взаимосвязь между несколькими показателями, определить насколько изменение одного показателя зависит от изменения другого (или нескольких) и сделать правильные выводы. При изучении данной темы следует, прежде всего, хорошо уяснить, что статистика изучает только корреляционные связи, т. к. именно такого рода связи присущи основным социально-экономическим явлениям и процессам. В отличие от функциональной зависимости, при которой каждому значению одной переменной строго соответствует одно или несколько определенных значений другой переменной, зависимость, при которой одному значению переменной х 66 может соответствовать (в силу наслоения других причин) множество значений другой переменной у, называется корреляционной. 6. Вопросы для самоконтроля 1. Какие виды связей между явлениями вы знаете? Дайте определение и краткую характеристику. 2. В чем сущность корреляционной связи? 3. Какие бывают связи по направлению? Как они выражаются? 4. Какие методы применяются в статистике для установления связи между явлениями, в чем их суть? Привести пример. 5. Назовите основные задачи корреляционного анализа и варианты корреляционной связи. 6. Что понимают под уравнением связи и как определяются его параметры? 7. Что такое теснота связи и как она определяется для различных форм связи? 7. Тесты 1. Как повысить точность оценки по уравнению регрессии: а) увеличить объем исходной информации, используемой для расчета параметров уравнения регрессии; б) использовать более высокий уровень доверительной вероятности (например, Р = 0,997 вместо Р ~ 0,95); в) уменьшить уровень доверительной вероятности (например, вероятность 0,954 вместо вероятности Р – 0,997); г) все утверждения неверны. 2. В статистике коэффициенты ассоциации и контингенции могут принимать значения: а) – 0,63; б) 0,91; в) – 1,3; г) 3,0; д) – 1,1; е) 0. 3. Какова правильная формула расчета линейного коэффициента корреляции: n a) r n X 2 fX XYf XY Xf X Xf X 2 67 n Yf Y Y 2 fY Yf Y 2 ; б) R 2 Y 2 Y YX 2 Y ; в) 2 2 r ; г) YX Y y X . x 4. Коэффициент детерминации равен 68 %, а коэффициент регрессии . Каков уровень коэффициента корреляции: а) 0,82; б) 1,56; в) 0,68; г) 0,46. 5. Коэффициенты парной линейной корреляции между признаками: YX1 = 0,603; YX2 = – 0,569; X1X2 = – 0,274. Какова величина коэффициента множественной корреляции: а) 0,499; б) 0,924; в) 0,735; г) 0,539. 6. В статистике при исследовании взаимосвязи трех и более факторов используют коэффициент корреляции: а) парный; б) частный; в) линейный; г) множественный. 7. Средняя из внутригрупповых дисперсий равна 0,321, общая дисперсия – 0,854, значит, размер эмпирического корреляционного отклонения равен (с точностью до 0,01): Введите ответ __________________________. 8. Межгрупповая дисперсия равна 0,693, а общая дисперсия – 0,752. Какова степень тесноты связи: а) связь между признаками тесная и однонаправленная; б) на 92 % вариация результативного признака определяется включенными в модель факторными признаками; в) связь между признаками тесная; г) на 96 % вариация результативного признака определяется включенными в модель факторными признаками. 9. Коэффициент эластичности между признаками У (результативный признак) и Х (факторный признак) равен 1,46 %. Что это означает: а) при изменении признака У на 1 % признак Х изменится на 1,46 %; б) при изменении признака Х на 1 % признак У изменится на 1,46 %; 68 в) при изменении признака Х на свое среднее квадратическое отклонение признак У изменится на 1,46 частей своего среднего квадратического отклонения; г) при изменении признака Х на свое среднее квадратическое отклонение признак У изменится на 1,46 %. 10. Коэффициент детерминации равен 70,1 %. Что это означает: а) при изменении признака Х на свое среднее квадратическое отклонение признак У изменится на 70,1 %; б) при изменении признака Х на 1 % признак У изменится на 70,1 %; в) вариация результативного признака на 70,1 % обусловлена факторными признаками, включенными в модель; г) связь между признаками весьма тесная. 11. Коэффициент корреляции связи между признаками Х и У равен 0,63. Чему равен коэффициент детерминации: а) нет ответа; б) 63,0 %; в) 79,37 %; г) 39,69. 12. По аналитическому выражению взаимосвязи в статистике делят следующим способом: а) однофакторные; б) криволинейные; в) однонаправленные; г) прямолинейные; д) множественные; е) разнонаправленные. 13. Связь, при которой определенному значению факторного признака соответствует одно и только одно значение результативного признака, называется … а) функциональной; б) стохастической; в) корреляционной; г) прямой. 14. Коэффициенты ассоциации и контингенции рассчитываются для изучения тесноты связи ___________ рядов. а) атрибутивных; б) параллельных в) ранжированных; г) интервальных. 15. Для количественной оценки силы воздействия одних факторов на другие используется метод … а) корреляционного анализа; б) средних величин; в) аналитической группировки; г) регрессионного анализа. 69 16. Связь между признаками аналитически выражается уравнением гиперболы… а) б) в) ; г) . 17. Для изучения взаимосвязей между признаками не применяется метод … а) скользящей средней; б) регрессионный; в) аналитических группировок; г) цепных подстановок. 18. Формулой линейного уравнения регрессии является … а) ; б) ; в) ; г) . 19. Для определения тесноты корреляционной связи теоретическое корреляционное отношение применяют при ___________ форме связи. а) любой; б) линейной; в) параболической; г) степенной. 20. Имеются следующие данные: Коэффициент корреляции равен … а) 0,66; б) 0,022; в) 6,66; г) 2,58. 21. При линейной форме связи теоретическое корреляционное отношение (R) и линейный коэффициент корреляции (r) … а) r = R; б) r ≥ R; в) r < R; г) r > R. 22. Величина коэффициента корреляции, равная 1,587, свидетельствует о(об) … а) ошибках в вычислениях; б) слабой взаимосвязи между признаками; в) заметной связи между признаками; г) отсутствии взаимосвязи между признаками. 23. Оценка значимости параметров модели регрессии осуществляется на основе... а) средней ошибки аппроксимации; б) коэффициента корреляции; в) t-критерия Стьюдента; г) общей дисперсии. 70 24. По следующим данным: a0 = 2,8; r = 0,9; σ2x = 25; σ2y = 36 – составьте линейное уравнение регрессии. а) y = 2,8 + 1,08x; б) y = 2,8 + 1,3x; в) y = 0,9 + 2,8x; г) y = 2,8 + 0,9x. 25. Вычислено уравнение регрессии между себестоимостью единицы продукции и накладными расходами: Y = 10 + 0,05x. Это означает, что по мере роста накладных расходов на 1 рубль себестоимость единицы продукции повышается на ________ а) 10,05 рубля; б) 5 рублей; в) 5 %; г) 5 копеек. 26. Межгрупповая дисперсия равна 30, общая дисперсия равна 180. Коэффициент детерминации равен … а) 0,178; б) 0,166; в) 0,156; г) 0,21. 8. Задачи Задача № 1. В мартеновском цехе завода произведены испытания для определения зависимости производительности печи от содержания углерода в металле. Результаты следующие: № анализа Процент углерода в металле 1 0,95 2 0,98 3 0,65 4 0,94 5 0,99 6 0,78 7 0,82 8 1,12 9 0,92 10 1,12 11 1,00 12 1,13 Производительность, т/ч 16,3 16,0 17,3 16,5 16,0 17,0 16,7 15,8 16,4 15,7 16,0 15,9 На основе приведенных данных требуется: 1) проверить первичную информацию по признаку-фактору на однородность; 71 2) установить факт наличия связи с помощью аналитической группировки; 3) с помощью линейного коэффициента корреляции измерить степень тесноты связи; оценить существенность полученного значения коэффициента корреляции с помощью t-критерия Стьюдента при вероятности 0,95; 4) определить модель линейной зависимости, оценить ее достоверность. Задача № 2. Имеются следующие данные о производительности труда рабочих, выполняющих одинаковую операцию по обработке детали № 408: Группы рабочих по стажу работы Число рабочих Дневная производительность труда, шт Дисперсия производительности труда в группе До 5 лет 6 40 5,0 5–10 лет 8 45 2,0 10 лет и более 2 60 1,0 Определить степень тесноты связи между уровнем производительности труда рабочих и стажем их работы. Задача № 3. Для выявления зависимости производительности труда рабочих, выполняющих в цехе одинаковую операцию по обработке детали № 312, от стажа их работы был найден линейный коэффициент корреляции, равный 0,80. Кроме того, известны такие данные: 1) средний стаж работы рабочих – x = 5 лет; 2) среднее квадратическое отклонение по стажу – х = 2 года; 3) среднее квадратическое отклонение по производительности труда – у = 4,4 шт. (число обработанных деталей); 4) коэффициент вариации по производительности труда – у = 40,0 %. Найти аналитическое уравнение связи, характеризующее зависимость производительности труда рабочих от стажа их работы. 72 Задача № 4. Для определения степени влияния стоимости основного капитала на выпуск продукции по 20 предприятиям рассчитаны следующие показатели: а) линейный коэффициент корреляции, равный 0,8; б) эмпирическое корреляционное отношение, равное 0,84. Возможно ли в качестве уравнения связи использовать функцию вида у̂ a bx . Задача № 5. Для оценки степени тесноты связи между уровнем выработки рабочих и стажем их непрерывной работы была рассчитана величина корреляционного отношения, оказавшаяся равной 0,9 (объем выборки был равен 100). Определить величину средней внутригрупповой дисперсии, если известно, что общая дисперсия выработки рабочих составляет 6,6. Задача № 6. В таблице представлены следующие данные. Группы рабочих по стажу работы Число рабочих в группе Средняя месячная заработная плата, руб Дисперсия месячной заработной платы в группе До 5 лет 75 3600 14400 5 лет и более 425 4500 15625 Определить степень тесноты связи между стажем работы и размером заработной платы рабочих. Задача № 7. По 20 однородным предприятиям была получена модель, отражающая зависимость выпуска продукции у за месяц от размера основного капитала х: . Кроме того, по этой совокупности предприятий известны следующие данные: а) средняя стоимость основного капитала на одно предприятие: x = 12,0 млн. руб.; б) средний размер выпуска продукции на одно предприятие: у = 18,0 млн. руб.; 73 в) среднее квадратическое отклонение по стоимости основного капитала: х = 3,5 млн. руб.; г) среднее квадратическое отклонение по размеру выпуска продукции: у = 2,0 млн. руб. Определить степень тесноты связи между размером выпуска продукции и стоимостью основного капитала, учитывая форму связи и используя для этого необходимые данные, из числа приведенных выше. Задача № 8. В результате обследования студентов экономического факультета института получены следующие данные: Успеваемость Количество студентов посещающих спортивные секции не посещающих спортивные секции Итого Удовлетворительная 220 60 280 Неудовлетворительная 10 30 40 Определить коэффициент контингенции между успеваемостью и посещаемостью спортивных секций. Задача № 9. По результатам социологического обследования получены следующие данные: Удовлетворенность работой Мужчины, чел. Женщины, чел. Итого Удовлетворены своей работой 270 80 350 Не удовлетворены своей работой 30 120 150 Итого 300 200 500 Определить коэффициенты ассоциации и контингенции между удовлетворенностью работой и полом. Задача № 10. Имеются следующие данные по 20 предприятиям городского хозяйства об объеме продукции (услуг) за месяц и уровне механизации труда: 74 № предприятия 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Объем продукции (услуг) Уровень механизации, % за месяц, млн. руб. 90 77 80 90 91 100 101 105 110 99 65 95 90 91 100 110 109 107 89 98 95 64 77 93 64 98 99 100 100 96 70 90 85 90 99 100 98 89 95 99 Требуется по приведенным данным для выявления наличия связи между объемом продукции и уровнем механизации труда: 1) построить аналитическую таблицу и дать графическое изображение линии связи; 2) измерить тесноту связи между признаками с помощью коэффициента корреляции рангов; проверить его достоверность. Задача № 11. Составить линейное уравнение регрессии, если известно, что а = 2,8; линейный коэффициент корреляции r = 0,9; дисперсии признаков х и у соответственно равны 25 и 36. Задача № 12. По группе однородных предприятий для построения многофакторной модели, отражающей зависимость уровня годовой производительности труда работников, получена следующая матрица парных коэффициентов корреляции: 75 у х1 х2 х3 х4 у 1 0,91 0,90 0,85 0,89 х1 0,91 1 0,75 0,67 0,70 х2 0,90 0,75 1 0,52 0,64 х3 0,85 0,67 0,52 1 0,97 х4 0,89 0,70 0,64 0,97 1 где, у – годовая производительность труда работников; х1 – вооруженность труда основными средствами; х2 – удельный вес производственного оборудования в общей стоимости основных средств; х3 – энерговооруженность труда; х4 – коэффициент загрузки оборудования. Требуется на основе анализа матрицы парных коэффициентов корреляции указать факторы, которые следует включить в многофакторную модель производительности труда. Задача № 13. По предприятиям имеются следующие данные о емкости электросталеплавильных печей (т) и расходе электроэнергии на 1 т выплавленной стали (кВт × ч/т). № Емкость Расход электроэнергии № Емкость п/п печи, т. на 1 т стали, кВт×ч/т п/п печи, т. 1 1,0 2 3 Расход электроэнергии на 1 т стали, кВт×ч/т 924 11 10,0 664 1,5 909 12 1,5 850 1,0 1010 13 3,0 731 4 10,0 541 14 3,5 719 5 10,0 681 15 1,1 793 6 5,0 657 16 0,5 968 7 2,0 888 17 3,5 696 8 1,5 835 18 2,0 892 9 3,5 602 19 3,5 790 10 2,0 890 20 1,0 900 По приведенным данным требуется: 76 1) проверить первичную информацию на однородность и нормальность распределения; 2) построить аналитическую таблицу для выявления зависимости расхода электроэнергии от емкости печи; 3) дать графическое изображение связи; 4) измерить степень тесноты связи с помощью корреляционного отношения; 5) рассчитать параметры линейного уравнения связи и его среднюю квадратическую ошибку. Задача № 14. По 100 однородным предприятиям было получено уравнение, характеризующее зависимость себестоимости продукции у от уровня производительности труда работников х: Кроме того, по этой же совокупности предприятий известны следующие данные: где ятиям; – средняя себестоимость продукции по всем предпри- где – средний уровень производительности труда по всем предприятиям; , где – дисперсия себестоимости по группам предприятий, выделенным по уровню производительности труда; – число предприятий в каждой группе. Определить степень тесноты связи между себестоимостью продукции и уровнем производительности труда, учитывая форму связи и используя для этого необходимые данные из числа приведенных выше. Сформулировать вывод. 77 Задача № 15. Распределение грузовых автотранспортных предприятий города по формам собственности и уровню рентабельности следующее: Группы предприятий по формам собственности Число предприятий с уровнем рентабельности ниже среднего средним выше среднего Государственная и муниципальная 15 35 20 Частная 5 42 30 Смешанная (без иностранного участия) 10 20 15 Требуется определить коэффициенты взаимной сопряженности К. Пирсона и А. А. Чупрова для оценки влияния формы собственности на уровень рентабельности. Сформулировать вывод. Задача № 16. В таблице ниже приведены экспериментальные данные исследования зависимости качества ковкого чугуна от его химического состава: На основе приведенных данных требуется: 1) проверить первичную информацию по признаку-фактору на однородность и нормальность распределения; 2) исключить из первичной информации резко выделяющийся анализ, в котором признак-фактор не попадает в интервал х ± 3ах; 3) построить аналитическую таблицу для установления факта наличия связи; 4) по данным аналитической группировки построить график эмпирической линии связи; 5) измерить степень тесноты связи при помощи линейного коэффициента корреляции, оценив его существенность с помощью t-критерия Стьюдента при вероятности 0,954; 6) определить модель линейной зависимости, оценив ее достоверность. 78 № анализа Содержание Относительное углерода, % удлинение, % № анализа Содержание углерода, % Относительное удлинение, % 1 2,58 13,5 26 2,44 12,3 2 2,30 10,8 27 2,43 11,9 3 2,55 12,9 28 2,70 15,0 4 2,69 14,5 29 2,31 10,5 5 2,40 11,8 30 2,25 10,4 6 2,57 13,2 31 2,47 12,5 7 2,20 9,6 32 2,50 12,6 8 2,40 11,8 33 2,42 11,9 9 2,53 12,9 34 2,48 12,2 10 2,44 12,0 35 2,61 13,7 11 2,32 11,0 36 2,43 11,9 12 2,64 14,2 37 2,30 10,6 13 2,36 11,3 38 2,55 13,1 14 2,41 11,9 39 2,69 14,9 15 2,64 14,0 40 2,35 10,5 16 2,45 12,3 41 2,53 12,9 17 2,37 11,5 42 2,48 12,4 18 2,63 10,9 43 2,38 11,4 19 2,35 10,9 44 2,47 12,7 20 2,50 12,6 45 2,58 13,0 21 2,42 11,7 46 2,24 10,2 22 2,57 13,0 47 2,43 11,9 23 2,46 12,6 48 2,46 12,3 24 2,42 11,3 49 2,51 12,6 25 2,52 12,8 50 2,58 12,9 79 Задача № 17. Имеются следующие данные о колеблемости пробега автобусов одной модели до капитального ремонта: Группы автобусов по условиям эксплуатации Число Средний пробег Внутригрупповая автобусов в группе, тыс. км. дисперсия пробега Городские 80 135,7 1225 Загородные 120 114,2 784 Определить долю вариации под влиянием условий эксплуатации в общей вариации пробега до капитального ремонта. Сформулировать вывод. Задача № 18. При производстве керамических изделий была выявлена зависимость уровня брака от влажности используемой массы. Линейный коэффициент корреляции составил 0,69, корреляционное отношение – 0,78, общее число наблюдений 50. При расчете корреляционного отношения были выделены 4 группы, на которые был разделен диапазон факторного признака. Определить, возможно ли применение линейного уравнения регрессии, если использовать показатель ω² при вероятности 0,95. 80 Приложение 1 Значение интеграла вероятностей 81 Приложение 2 Значение t-критерия Стьюдента при уровне значимости 0,10; 0,05; 0,01 82 Приложение 3 Значение F-критерия Фишера при уровне значимости 0,05 83 83 d. f.1 – число степеней свободы для большей дисперсии; d. f.2 – число степеней свободы для меньшей дисперсии. 83 Приложение 4 Критическое значение корреляционного отношения η2 и коэффициента детерминации R2 R1 R2 1 2 3 4 5 6 8 10 20 а) уровень значимости a = 0,05 3 0,771 865 903 924 938 947 959 967 983 4 658 776 832 865 887 905 924 937 967 5 569 699 764 806 835 854 885 904 948 6 500 632 704 751 785 811 847 871 928 7 444 575 651 702 739 768 810 839 908 8 399 527 604 657 697 729 775 807 887 9 362 488 563 618 659 692 742 777 867 10 332 451 527 582 624 659 711 749 847 б) уровень значимости a = 0,01 3 0,919 954 967 975 979 982 987 989 994 4 841 900 926 941 951 958 967 973 986 5 765 842 879 901 916 928 943 953 974 6 696 785 830 859 879 894 915 929 961 7 636 732 784 818 842 860 887 904 946 8 585 684 740 778 806 827 858 879 931 9 540 641 700 741 771 795 829 854 914 10 501 602 663 706 738 764 802 829 898 84 Приложение 5 Критические значения F-критерия R1 R2 1 2 3 4 5 6 8 10 20 а) уровень значимости a = 0,05 4 7,71 6,94 6,59 6,39 6,26 6,16 6,04 5,96 5,80 5 6,61 5,79 5,41 5,19 5,05 4,95 4,82 4,74 4,56 6 5,99 5,14 4,76 4,53 4,39 4,28 4,15 4,06 3,87 7 5,59 4,74 4,35 4,12 3,97 3,87 3,73 3,63 3,44 8 5,32 4,46 4,07 3,84 3,69 3,58 3,44 3,34 3,15 9 5,12 4,26 3,86 3,63 3,48 3,37 3,23 3,13 2,93 10 4,96 4,10 3,71 3,48 3,33 3,22 3,07 2,97 2,77 б) уровень значимости a = 0,01 30 7,56 5,39 4,51 4,02 3,70 3,47 3,17 2,98 2,55 40 7,31 5,18 4,31 3,83 3,51 3,29 2,99 2,80 2,37 60 7,08 4,98 4,13 3,65 3,34 3,12 2,82 2,63 2,20 120 6,85 4,79 3,95 3,48 3,17 2,96 2,66 2,47 2,03 85 Приложение 6 Выбор метода вычисления коэффициента корреляции в зависимости от типа шкалы, к которой относятся переменные Типы шкал Переменная х Интервальная отношений Мера связи Переменная у или Интервальная отношений или Коэффициент Пирсона Ранговая, интер- Ранговая, интер- Коэффициент вальная вальная Спирмена или отношений или отношений Ранговая Ранговая Коэффициент Кендалла Дихотомическая Дихотомическая Коэффициент υ, четырехполевая корреляция Дихотомическая Ранговая Ранговобисериальный коэффициент Дихотомическая Интервальная отношений Интервальная Ранговая или Бисериальный коэффициент Не разработан 86 Список рекомендуемой литературы 1. Годин, А. М. Статистика: учебник / А. М. Годин. – М.: Дашков и К, 2008. – 460 с. ISBN: 978-5-91131-686-0. 2. Гришин, А. Ф. Статистика: учеб. пособие / А. Ф. Гришин. – М.: Финансы и статистика, 2003. – 240 с. ISBN: 5-279-02594-1. 3. Гусаров, В. М. Статистика: учеб. пособие для вузов / В. М. Гусаров. – М.: ЮНИТИ-ДАНА, 2001. – 463 с. ISBN: 5-238-00206-8. 4. Елисеева, И. И. Общая теория статистики: учебник / И. И. Елисеева, М. М. Юзбашев; под ред. И. И. Елисеевой. – М.: Финансы и статистика, 1998. – 656 с. ISBN: 978-5-79-02414-8. 5. Ефимова, М. Р. Практикум по общей теории статистики: учеб. пособие / М. Р. Ефимова. – М.: Финансы и статистика, 2005. – 368 с. ISBN: 978-5-27903217-4. 6. Ефимова, М. Р. Общая теория статистики: учебник / М. Р. Ефимова, Е. В. Петрова. – М.:ИНФРА-М, 2000. – 336 с. ISBN: 5-279-02555-0. 7. Руденко, В. И. Статистика: пособие студентам для подготовки к экзаменам / В. И. Руденко. – М.: Дашков и К, 2004. – 188 с. ISBN: 978-5-91131-507-8. 8. Статистика: учеб. пособие; под ред. проф. М. Р. Ефимовой. – М.: ИНФРА-М, 2003. – 336 с. 9. Елисеева, И. И. Статистика: учебник / И. И. Елисеева, И. Н. Егорова; Под общ. ред. проф. И. И. Елисеевой. – М.: Проспект, 2004. – 448 с. ISBN: 978-5-48201737-1. 10. Шмойлова, Р. А. Практикум по теории статистики: учеб. пособие / Р. А. Шмойлова. – М.: Финансы и статистика, 2005. – 416 с. ISBN: 978-5-27903296-9. 11. Теория статистики: учеб. / под ред. Р. А. Шмойловой [и др.]. – М.: Финансы и статистика, 2007. – 615 с. ISBN: 978-5-279-03295-2. 87 Учебное издание Галина Александровна Машенцева СТАТИСТИКА. СТАТИСТИЧЕСКОЕ ИЗУЧЕНИЕ ВЗАИМОСВЯЗИ СОЦИАЛЬНО-ЭКОНОМИЧЕСКИХ ЯВЛЕНИЙ Учебное пособие Редактор Попова Л. В. Компьютерная верстка: Попова Л. В. Темплан 2014 г., поз. № 22К Подписано в печать 18. 11. 2014 г. Формат 60×84 1/16. Бумага листовая. Печать офсетная. Усл. печ. л. 5,12. Уч.-изд. л. 6,15. Тираж 100 экз. Заказ № Волгоградский государственный технический университет 400131, г. Волгоград, пр. Ленина, 28, корп. 1. Отпечатано в КТИ 403874, г. Камышин, ул. Ленина, 5, каб. 4.5 88