ГЛОССАРИЙ Геолого-математические модели – это

advertisement
ГЛОССАРИЙ
Геолого-математические модели – это упрощенные аналоги геологических
систем, описывающие закономерности изменения свойств геологических образований или
параметров геологических процессов с использованием чисел и формул.
При создании геолого-математических моделей наиболее часто используют методы
математической статистики. Статистические модели бывают одномерные, двумерные и
многомерные.
Одномерные статистические модели изучают закономерности одного признака
какой-либо системы. В основе статистического моделирования лежат два понятия: о
генеральной совокупности – множестве возможных значений определенного признака
изучаемого объекта и о выборке – совокупности наблюдаемых значений этого признака.
Величина, которая в результате единичного эксперимента принимает то или иное
значение, называется случайной величиной.
Соотношение, устанавливающее связь между возможными значениями случайной
величины и соответствующими им вероятностями, называется законом распределения
или функцией распределения.
Число появления события в серии испытаний называется частотой, а отношение
числа появлений события к общему числу опытов в серии – частостью. Накопленная
частость – это сумма частостей по всем классам, где значение случайной величины
меньше заданной переменной. Частота, частость, накопленная частость определяют
плотность распределения случайной величины. Эмпирическими графиками функции
плотности распределения являются гистограмма и кумулята. При построении
гистограммы по оси ординат откладываются частости, соответствующие каждому
определенному интервалу (классу) значений случайной величины, а при построении
кумуляты – накопленные частости.
Параметры распределения случайной величины – математическое ожидание, мода,
медиана, дисперсия, показатели асимметрии и эксцесса. Математическое ожидание
(Мx) характеризует среднее значение случайной величины. Мода (Мо)– это значение
случайной величины с наибольшей плотностью. Она соответствует перегибу на графике
функции плотности распределения. Медиана (Ме) случайной величины соответствует
центру распределения, т. е. такому значению случайной величины, для которого
вероятность встречи больших и меньших значений в выборке равны. Меру разброса
значений случайной величины (или размах варьирования) характеризует дисперсия (.2),
которая вычисляется через центральный момент второго порядка. Производные от
дисперсии – стандартное или среднее квадратическое отклонение (.=.2) и
коэффициент вариации (V=.2/ Мx 100%). Коэффициент вариации величина безмерная,
поэтому его применяют в тех случаях, когда необходимо сравнивать по степени
изменчивости свойства, выраженные в разных единицах измерения. Показатель
асимметрии (А) характеризует степень асимметрии распределения случайной величины
относительно её математического ожидания. Показатель эксцесса (Е) – это мера остроты
графика функции плотности распределения.
Для аппроксимации (приближенного описания) эмпирических распределений
свойств геологических объектов наиболее часто используются нормальный и
логарифмически нормальный законы распределения. Нормальное распределение
симметрично
относительно
математического
ожидания,
следовательно,
его
математическое ожидание, мода и медиана совпадают. При нормальном законе А=0, Е=3,
а варьирование значений случайной величины находится в пределах (Мx ±3).
Логарифмически нормальным называется закон, при котором нормально распределены
логарифмы значений случайной величины. Такое распределение является положительно
асимметричным и имеет положительный эксцесс. Мода, медиана и математическое
ожидание не совпадают. Причем Мо  Ме  Мx.
Свойства геологических объектов по выборочным данным наиболее часто
оцениваются с помощью выборочной дисперсии и средних значений. Выборочная
дисперсия, определяемая по эмпирическим данным в выборке, рассчитывается по
формуле:
( xi  x ) 2
2
,
S 
n 1
где xi - все значения случайной величины в выборке; x - среднее значение,. n –
количество точек наблюдения в выборке.
Для оценки средних значений в геологии чаще всего пользуются:
средним арифметическим
x ар.=  xi  n;
средним логарифмическим
x лог= 10 lgx , где lgx=  lg xi  n;
средним взвешенным
x вз = k i x i  ki , где k – коэффициент взвешивания, в качестве которого
используют отдельные значения какого либо параметра, на который «взвешивается»
содержание (например, мощность рудного тела, площадь, объем, интервал опробования и
до.).
При статистической проверке гипотез о сходстве или различии двух объектов
используют критерии согласия, которые вычисляют по определенным формулам,
используя параметры распределения случайной величины в двух исследуемых выборках.
Вычисленные по эмпирическим данным значения критериев согласия сравнивают с
табличными значениями, которые зависят от количества точек наблюдения и уровня
значимости. Критерий Фишера (F)позволяет сравнивать выборки по их дисперсиям.
S 2 большая
F  2
S меньшая
С помощью критерия Стьюдента (t) сравниваются средние значения.
x2  x1
t
2
2
S2
S1

n2
n1
Если эти критерии меньше табличных значений, можно принимать гипотезу о
равенстве средних и дисперсий двух сравниваемых объектов.
При проверке гипотезы о статистической однородности объекта выборка
разделяется на неоднородные совокупности, и выделяются аномальные (редко
встречающиеся) значения. Это делается с помощью графических процедур (гистограмм,
«ящика с усами» и др.), а также используя классификационные анализы и различные
критерии. Так, при нормальном распределении для выделения аномальных значений
используется критерий Смирнова (t):
x x
,
t  max 2
S см
2
где xmax - значение максимального члена выборки, S см
- смещенная дисперсия:
 n 1
2
S см
 S2

 n 
Если вычисленный критерий t больше табличного значения, то максимальное
значение выборки следует считать аномальным. Табличное значение находится по
справочникам в таблицах распределения Смирнова.
Другой пример неоднородности выборки – когда количество наблюдений,
принадлежащих к разным геологическим совокупностям велико. Это наглядно видно на
гистограмме по нескольким модальным значениям случайной величины.
Двумерные статистические модели описывают системы, путем совместного
рассмотрения двух признаков и их взаимосвязи с целью выяснения общей структуры
изучаемого объекта. Для этого в геологической практике наиболее часто используют
парный корреляционный и двумерный регрессионный анализы.
Корреляционный анализ позволяет по выборочным данным оценить наличие или
отсутствие связи между изучаемыми признаками, характер этой связи (прямая или
обратная), а также её силу с помощью коэффициента корреляции. Существуют различные
процедуры корреляционного анализа – линейная корреляция, ранговая, частная и др.
Парная линейная корреляция используется при одинаковой размерности исследуемых
признаков и нормальном законе распределения. Коэффициент парной линейной
корреляции (r) при этом рассчитывается по формуле:
n
r
 (x
i 1
 x)( y i  y )
i
(n  1) S x S y
,
где x и y - выборочные оценки средних значений случайных величин X и Y, Sx и
Sy – выборочные оценки их стандартных отклонений, n – количество сравниваемых пар
значений.
При небольшом количестве точек наблюдения (или если распределения
существенно отличаются от нормального закона), а также при различной размерности
изучаемых признаков используют ранговый коэффициент корреляции:
n
r  1
d
i 1
2
2
i
,
n(n  1)
где di – разность рангов сопряженных значений изучаемых величин xi и yi; n –
количество пар в выборке;
r  1.
Полученные значения коэффициентов корреляции сравниваются с критическими
значениями (rкр.), которые зависят от количества точек наблюдения и заданного уровня
значимости. Критические значения можно вычислить по специальным формулам или
взять из справочников по математической статистики. Если r  rкр., то принимается
гипотеза о наличии корреляционной связи между двумя изучаемыми признаками, т. е.
связь между признаками – значимая. При этом отрицательное значение r свидетельствует
об обратной связи, а положительное – о прямой.
Регрессионный анализ ориентирован на исследование количественной
зависимости одной случайной величины Y от набора значений другой {Xi}= (x1, x2,… xn).
Его основными задачами являются: 1) установление формы зависимости Y от Xi; 2)
определение вида уравнения регрессии; 3) прогнозирование значений результирующей
переменной Y (которую получить трудоёмко) по известным значениям x1, x2,… xn (которые
определяются более доступными экспресс-методами). При линейной зависимости
значений двух изучаемых признаков уравнение регрессии имеет вид:
y  a  bx ,
где а и b – коэффициенты, зависящие соответственно от положения начальных
точек линий регрессии и угла наклона прямой регрессии к оси абсцис; если а = 0, линия
регрессии проходит через начало координат.
С помощью уравнения регрессии вначале оценивают зависимость между
необходимыми признаками в эталонной выборке. Затем эту закономерность переносят на
малоизученный объект, который аналогичен эталонному, но по которому имеются данные
только по признаку X. Подставляя в уравнение регрессии значения x1, x2,… xn , можно в
каждой точке наблюдения рассчитать значения y1, y2,… yn.
Многомерные статистические модели позволяют описать геологические
объекты как системы множества взаимосвязанных признаков. Эти модели в геологии
обычно изучают с помощью процедур многомерного корреляционного анализа,
многомерного регрессионного анализа, кластерного, факторного, дискриминантного
анализов.
Уравнение множественной регрессии при линейной зависимости между
признаками имеет вид:
Y = 1X1+2X2+…pXp+,
где Y – зависимая переменная, X1, X2, Xp – независимые переменные,  коэффициенты регрессии,  - свободный член уравнения (n- многомерный вектор
случайных отклонений). Процедура данного анализа заключается в вычислении значений
 и  . Уравнение множественной регрессии позволяет оценить совместное влияние всех
изучаемых параметров на зависимую переменную.
Кластерный анализ – совокупность методов классификации и разбивка объектов
и многомерных наблюдений на однородные группы. Составление классификаций
подчиняется следующим правилам:

в одной классификации применяется одно и то же основание;

объем классифицируемого класса равняется сумме объемов подклассов;

классы и подклассы не пересекаются.
Процедура кластерного анализа предусматривает возможность классификации
точек наблюдений в исследуемой выборке, а также самих признаков. В качестве меры
сходства при классификациях применяют различные дистанционные коэффициенты: mмерное эвклидово расстояние, коэффициенты корреляции и др. Задачи классификации
разделяются по типу априорной информации на три типа: 1) число классов задано
априорно; 2) число классов неизвестно и его следует определить; 3) число классов
неизвестно, но его определение не входит в условие задачи. Две последние ситуации
приводят к построению иерархических деревьев – дендрограмм. Это графики, на которых
по одной оси располагаются символические обозначения объектов исследования, а по
другой оси – минимальные значения дистанционных коэффициентов, соответствующих
каждому шагу классифицирующей процедуры. Таким образом, ось с дистанционными
коэффициентами используется для масштабного представления иерархических уровней
группирования.
Дискриминантный анализ является статистическим средством разделения
(дискриминации) многомерных нормально распределенных совокупностей на группы
таким образом, чтобы была достигнута максимальная однородность внутри групп и
минимальная между ними. В основе разделения на группы лежит нахождение
дискриминантной функции по эталонным выборкам и расчет порогового значения. При
построении дискриминантной функции используется небольшое количество (5-7)
информативных признаков которые имеют существенные различия значений в двух
эталонных объектах. Далее, используя полученную дискриминантную функцию и
пороговое значение, производится процедура отнесения любой исследуемой точки
наблюдения к какому-либо из двух разных эталонных объектов (например,
рудовмещающим или безрудным метасоматитам).
Факторный анализ приспособлен для исследования сложных природных систем,
формирующихся под воздействием и влиянием разнообразных факторов. Предпосылкой
метода служит представление о том, что корреляция между признаками,
характеризующими природную систему, является следствием их линейной зависимости от
определенного числа неизвестных «простых» характеристик, не коррелированных между
собой. Эти простые характеристики можно считать «причинами», а наблюдаемые
характеристики (показатели) – «следствиями». Суть анализа сводится к поиску этих
независимых (ортогональных) показателей, которые носят название главных компонент
или факторов.
Результаты факторного анализа приводятся в виде таблицы - матрицы факторных
нагрузок. Факторные нагрузки отражают силу влияния фактора на изменения каждого
признака; по нему определяется принадлежность этого признака к соответствующей
совокупности. По максимальным (значимым) факторным нагрузкам выделяют группу
взаимосвязанных признаков. Для каждого фактора рассчитывается также его вес в % или
долях единицы. Порядок выделения факторов соответствует убыванию их веса. Первый
фактор всегда основной, он ответственен за формирование наиболее тесных связей между
самой многочисленной совокупностью показателей. Достоинством факторного анализа
является возможность выявления связи одного и того признака одновременно с двумя
факторами.
Конкретное использование факторного анализа требует построение модели
интерпретации его результатов. Эта интерпретация должна отвечать цели исследования.
С помощью факторного анализа можно группировать точки наблюдения в
пространстве двух главных факторов. Процедура факторного анализа позволяет не только
выявлять совокупности признаков по их взаимосвязям с факторами, но и рассчитывать
значения каждого фактора в конкретной точке наблюдения. Эти значения можно
картировать для выявления зональности, аномалий, возникающих под влиянием
определенных факторов, которые можно интерпретировать как геологические причины
(например, седиментогенез, гидротермальный процесс, метаморфизм и т.п.).
Моделирование
пространственных
переменных
позволяет
выявить
пространственные
закономерности
различных
геологических,
геофизических,
геохимических и др. признаков в исследуемых объемах недр.
Одним из методов пространственного моделирования является тренд-анализ. С
помощью этого анализа обычно производят сглаживание исходных данных скользящими
статистическими окнами, а также выявление фона, аномалий, тренда (закономерного
изменения значений признака).
Математические методы с использованием компьютерных технологий
широко применяются для моделирования геологических процессов, прогнозирования и
оценки геологических ресурсов и подсчета запасов полезных ископаемых, поисков
оптимальных решений в процессе проектирования геологоразведочных работ, а также для
решения других прикладных и научных задач в различных областях геологии.
Download