Геостатистика и математическое моделирование геологических процессов и объектов

1. Пространственные геоданные: источники, качество и подготовка

Пространственные геоданные: источники, качество и подготовка

Зачем геостатистике «правильные» данные

Геостатистика и математическое моделирование в геологии опираются на наблюдения, привязанные к пространству: координатам, глубине, времени, стратиграфии. Даже самая корректная модель (например, интерполяция, оценка запасов или моделирование процессов) даст ошибочный результат, если:

данные собраны из несопоставимых источников;

нарушена система координат или единицы измерения;

в наборе присутствуют систематические смещения, выбросы и пропуски;

качество и неопределённость измерений неизвестны.

Эта статья задаёт основу курса: какие геоданные бывают, откуда они берутся, как оценить их качество и как подготовить их к дальнейшим этапам (разведочный анализ, вариограммный анализ, кригинг, стохастическое моделирование).

!Общая схема этапов от источника данных до набора, готового к геостатистическому анализу

Что такое пространственные геоданные

Пространственные геоданные — это данные, для которых известна привязка к пространству (и часто ко времени): положение на поверхности, в разрезе или в объёме.

Ключевые компоненты:

Геометрия: координаты точки, линия профиля, полигон участка, ячейка растра, 3D-объём.

Атрибуты: значения свойств (содержание элемента, пористость, плотность, скорость, гранулометрия).

Система координат: как интерпретировать координаты на Земле.

Метаданные: кто, чем, когда и как измерял; точность; единицы; ограничения.

Основные формы представления

Точечные данные: пробы, устья/интервалы скважин, пикеты, станции наблюдений.

Линейные данные: профили геофизики, трассы маршрутов, разломы.

Полигональные данные: контуры тел, лицензионные участки, литологические полигоны.

Растры: цифровая модель рельефа, космоснимки, гриды геофизических полей.

3D/воксели: блочные модели, томографические объёмы, 3D-сетки.

Источники геоданных в геологии

Ниже — типичные источники, с которыми чаще всего работают в геостатистике.

| Источник | Примеры | Сильные стороны | Типичные риски качества | |---|---|---|---| | Полевые измерения и пробоотбор | пробы почв/пород, замеры мощностей, структурные замеры | высокая интерпретируемость, контроль методики | неоднородность проб, ошибки координат, разные методики между партиями | | Скважинные данные | каротаж, интервальные пробы, геология по керну | вертикальная детализация, связь с разрезом | разная длина интервалов, смещение глубин, «цензура» (ниже предела определения) | | Геофизика | сейсмика, магнитка, гравиразведка, ЭМ | сплошное/плотное покрытие, высокая информативность | сложная обработка, неоднозначность интерпретации, фильтрационные артефакты | | Дистанционное зондирование (ДЗЗ) | Sentinel, Landsat, радары, гиперспектр | широкое покрытие, повторяемость во времени | атмосферные эффекты, облачность, необходимость калибровки/коррекции | | Картографические и справочные данные | геолкарты, разломы, гидросеть, геоморфология | контекст и интерпретация | генерализация, разный масштаб, неизвестная точность оцифровки | | Глобальные открытые модели | DEM SRTM/ASTER, GEBCO, глобальные лито/климатические слои | быстрый старт, единый формат | ограниченная точность для локальных задач, неоднородность источников |

Примеры реальных каталогов и инструментов

Спутниковые данные Copernicus Sentinel: Copernicus Open Access Hub

Данные Landsat и другие наборы: USGS EarthExplorer

Каталог данных NASA: NASA Earthdata

Цифровая батиметрия и рельеф океанов: GEBCO

Инструменты для проекций и преобразований: PROJ

Библиотека для работы с растрами/векторами: GDAL

Настольная ГИС для подготовки данных: QGIS

Системы координат и единицы: частая причина «невидимых» ошибок

Два набора точек могут выглядеть корректно по отдельности, но быть несовместимыми, если различаются:

Геодезическая основа (датум): например, WGS 84.

Проекция: географические координаты (широта/долгота) или проецированные (UTM, Гаусса–Крюгера и другие).

Единицы: метры против футов; ppm против %; глубина по стволу против истинной вертикальной глубины.

Ось Z: высота над эллипсоидом, над геоидом или условная отметка.

Практическое правило: прежде чем объединять таблицы и слои, зафиксируйте единый выбор CRS (Coordinate Reference System) и документируйте его в метаданных.

!Пример типичной ошибки, когда данные в разных системах координат накладываются неправильно

Качество геоданных: что именно проверять

Под качеством обычно понимают не «хорошо/плохо», а набор измеримых характеристик.

Точность, прецизионность и разрешение

Точность — близость измерения к истинному значению.

Прецизионность — воспроизводимость (насколько повторные измерения близки друг к другу).

Разрешение — минимальная деталь, различимая измерительным методом (например, размер пикселя растра или шаг профиля).

Важно: высокая прецизионность не гарантирует точность (можно стабильно ошибаться из-за систематического смещения).

Полнота, репрезентативность и смещения выборки

Геологические данные часто собираются неравномерно:

рядом с дорогами и обнажениями плотность выше;

в районах с интересом к руде данные плотнее, чем «фоновая» территория;

скважины могут «обходить» сложные зоны по технологическим причинам.

Это приводит к смещениям, которые затем «переезжают» в модель. Позже в курсе это будет напрямую связано с декластеризацией и корректной оценкой распределений.

Выбросы: ошибка или геология

Выброс может быть:

результатом ошибки ввода, перепутанных единиц или координат;

следствием лабораторной проблемы;

реальным проявлением геологического процесса (например, локальная минерализация).

Правило: выбросы нельзя удалять «автоматом». Сначала проверяют первичные документы, методику, соседние точки, стратиграфию и контекст.

Неопределённость и метаданные

Если неизвестно, как получены данные, то почти невозможно корректно учесть ошибки. Поэтому метаданные — часть качества.

Полезные стандарты и справка:

Общий подход к географическим метаданным: ISO 19115 (страница стандарта)

Общие стандарты геопространственных сервисов и форматов: Open Geospatial Consortium

Минимальный контроль качества (QC) перед анализом

Ниже — практический чек-лист, который стоит выполнить до любых карт, вариограмм и интерполяций.

Проверить диапазоны значений (минимум, максимум, разумность единиц).

Найти дубликаты:

- одинаковые координаты с разными значениями; - повторные записи скважин/проб.

Проверить пропуски:

- пустые значения; - специальные коды (например, -9999) в растрах.

Проверить координаты:

- лежат ли точки в пределах области работ; - не перепутаны ли широта и долгота; - не перепутаны ли метры и градусы.

Сопоставить атрибуты с геологическим контекстом:

- интервалы скважин не перекрываются и идут в правильном порядке; - литологические коды соответствуют справочнику.

Проверить согласованность времени (если есть мониторинг):

- формат дат; - часовые пояса; - пропуски в периодах.

Подготовка данных к геостатистике

Подготовка — это набор шагов, которые делают данные сопоставимыми и пригодными для статистического и пространственного анализа.

Приведение к единому формату и справочникам

Привести названия полей (например, X, Y, Z, value, unit).

Привести единицы измерения (например, мг/кг к ppm, % к долям — строго документируя преобразование).

Для категориальных данных:

- унифицировать коды литологии/фаций; - выделить «неизвестно» как отдельное значение, а не смешивать с пропуском.

Очистка: пропуски, цензурированные данные и ошибки

Пропуски (нет измерения) не равны нулю.

Цензурированные значения — например, «ниже предела обнаружения» — требуют отдельной обработки; простая подстановка нуля часто искажает распределение.

Ошибки ввода (десятичные разделители, лишние нули) выявляются через:

- гистограммы; - диаграммы размаха; - сравнение с типичными диапазонами для региона/литологии.

Согласование поддержки измерения (support)

В геостатистике важно, что именно измерено:

точечная проба;

проба по интервалу скважины;

среднее по пикселю растра;

значение, сглаженное фильтрацией.

Если смешать разные поддержки, модель может стать некорректной. Типичный пример — сравнение точечных проб с данными каротажа, усреднёнными по метрам. Часто требуется:

композитирование интервальных проб к единой длине;

регуляризация данных к поддержке будущего блока (например, к размеру блока в блочной модели).

Объединение наборов данных (integration)

При слиянии источников важны:

приоритеты (какой источник считается более надёжным);

правила конфликтов (что делать, если два источника дают разные значения);

согласование пространственных и временных привязок.

Хорошая практика — хранить исходные значения и подготовленные значения отдельно, чтобы всегда можно было воспроизвести результат.

Первичный статистический контроль и метрики ошибки

Когда есть эталонные или контрольные измерения (например, контрольные пробы, кросс-проверки лабораторий, калибровка сенсора), удобно суммировать расхождения метрикой RMSE (среднеквадратичная ошибка):

Где:

— число пар сравниваемых значений;

— наблюдённое (измеренное) значение для -го случая;

— предсказанное или эталонное значение для -го случая;

— ошибка (разница) для -го случая;

квадрат ошибки делает отрицательные и положительные ошибки сопоставимыми;

корень возвращает результат в исходных единицах измерения.

RMSE не заменяет геологическую экспертизу, но помогает сравнивать методы и выявлять проблемы калибровки.

Практический результат статьи: что должно быть на выходе

К началу геостатистического анализа ваш набор данных должен:

иметь однозначно заданную систему координат и единицы;

содержать понятные метаданные (источник, метод измерения, дата, точность);

быть очищенным от явных технических ошибок;

иметь согласованную поддержку измерения или план её согласования;

быть готовым к следующему шагу курса: разведочному анализу данных и оценке пространственной структуры.

2. Основы геостатистики: случайные поля и стационарность

Основы геостатистики: случайные поля и стационарность

Связь с предыдущей темой

В предыдущей статье мы разобрали, как собрать и подготовить пространственные геоданные так, чтобы они были сопоставимы: единые координаты и единицы, контроль качества, понимание поддержки измерения и метаданных. Теперь делаем следующий шаг: формализуем, как геостатистика «думает» о данных.

Геостатистика почти всегда рассматривает изучаемую величину (например, содержание элемента, пористость, мощность пласта) как случайное поле в пространстве. Это позволяет:

описывать неопределённость (даже при идеальной методике измерений);

задавать пространственную связность (близкие точки похожи);

строить интерполяцию и моделирование на основе вероятностных предпосылок (кригинг, стохастическое моделирование).

Случайная величина, случайный процесс и случайное поле

Случайная величина

Случайная величина — это число, которое заранее неизвестно и описывается вероятностно. Пример: содержание Au в конкретной пробе, если мы ещё не сделали анализ.

Случайный процесс

Случайный процесс — это семейство случайных величин, зависящее от одного параметра (обычно времени). Пример: уровень грунтовых вод в одной скважине как функция времени.

Случайное поле

Случайное поле — это семейство случайных величин, зависящее от положения в пространстве (2D или 3D). В геологии это основной объект.

Обозначим пространственную точку как , где в 2D или в 3D. Тогда измеряемое свойство можно записать как:

Где:

— изучаемая величина (например, пористость);

— координаты положения;

— случайная величина, потому что до измерения значение неизвестно, а после измерения мы наблюдаем одну реализацию.

Важно различать:

реальность (в природе существует одно истинное распределение свойства);

геостатистическую модель (мы описываем неизвестную реальность вероятностно, чтобы уметь оценивать и прогнозировать).

!Иллюстрация, что случайное поле можно мыслить как множество возможных реализаций, одна из которых наблюдается в данных

Почему геостатистика вводит стационарность

Без дополнительных предположений описать случайное поле по конечному числу наблюдений практически невозможно: в каждой точке поле могло бы иметь «свои» статистики.

Стационарность — это набор предпосылок, которые делают задачу решаемой: мы допускаем, что статистические свойства поля не меняются при переносе в пространстве (полностью или частично). Тогда данные из разных мест можно объединять для оценки пространственной структуры.

На практике стационарность — не «истина», а приближение, которое либо достаточно хорошо работает, либо требует модификации (например, удаления тренда или разбиения на домены).

Среднее, ковариация и вариограмма

Чтобы говорить о стационарности, нужно определить, какие характеристики поля мы считаем постоянными.

Математическое ожидание (среднее)

Среднее значение поля в точке записывают как:

Где:

— среднее значение в точке ;

— оператор математического ожидания (среднего по множеству возможных реализаций поля);

— значение свойства в точке.

Если поле стационарно по среднему, то одинаково во всех точках и его пишут просто как .

Ковариация

Ковариация измеряет, насколько совместно изменяются значения в двух точках и :

Где:

— ковариационная функция;

— ковариация;

— лаг (вектор смещения): направление и расстояние между точками.

Если ковариация зависит только от , а не от конкретного положения , это признак стационарности второго порядка (подробнее ниже).

Вариограмма

В геостатистике чаще используют вариограмму (точнее, полувариограмму). Она описывает, насколько в среднем различаются значения, если точки разделены лагом :

Где:

— полувариограмма;

разность — контраст между двумя точками;

квадрат усиливает вклад больших различий и делает величину неотрицательной;

множитель — стандартная договорённость, удобная для связи с ковариацией.

Интуитивно:

при малых расстояниях (малый ) различия обычно меньше, поэтому меньше;

с ростом расстояния различия увеличиваются, поэтому растёт;

на больших расстояниях связь исчезает, и выходит на плато.

Для базовой теории и терминов полезны справочные источники:

Random field (Wikipedia)

Variogram (Wikipedia)

!Наглядная связь: вариограмма растет с расстоянием, а ковариация убывает

Виды стационарности, которые важны в геостатистике

Строгая стационарность

Строгая стационарность означает, что распределение значений не меняется при переносе в пространстве. Это сильное условие: оно требует неизменности всех вероятностных характеристик.

В прикладной геологии это редко проверяют напрямую, потому что для проверки полного распределения данных обычно недостаточно.

Стационарность второго порядка

Это более практичное условие. Поле считается стационарным второго порядка, если:

среднее постоянно: ;

ковариация зависит только от лага: .

Этого уже достаточно, чтобы строить многие методы (например, классический кригинг при корректно заданной модели ковариации или вариограммы).

Внутренняя (интринсик) стационарность

На практике чаще всего опираются на условие, достаточное для работы с вариограммой:

среднее приращений равно нулю: ;

дисперсия приращений зависит только от , что и задаёт вариограмму .

Это условие слабее стационарности второго порядка и часто лучше соответствует реальным геологическим данным.

Что нарушает стационарность в геологических задачах

Стационарность часто нарушается по вполне геологическим причинам. Самые типичные случаи:

тренд (плавное изменение среднего): например, увеличение содержания элемента в направлении к интрузии;

смена доменов: разные литологии, фации, блоки, рудные типы с разными распределениями;

неодинаковая поддержка измерений: смешивание точечных проб, композитов по интервалу и усреднений по блоку;

анизотропия: зависимость структуры от направления (например, вытянутость по простиранию пласта или вдоль разлома);

нестационарная дисперсия: в одном домене значения сильно «разбросаны», в другом почти постоянны.

Важно: иногда «нарушение стационарности» — это не проблема данных, а сигнал, что вы смешали разные геологические режимы, которые нужно моделировать раздельно.

Как на практике добиваются приемлемой стационарности

В большинстве проектов не пытаются доказать стационарность строго, а делают модель применимой инженерно и геологически. Типичные подходы:

Доменирование: разделить область на геологически осмысленные домены и моделировать каждый отдельно.

Удаление тренда: выделить детерминированную составляющую (крупномасштабный тренд), а геостатистику применять к остаткам.

Переопределение переменной: перейти к переменной, которая ближе к стационарной (например, логарифмировать положительные значения при сильной асимметрии).

Работа с направленностью: строить вариограммы по направлениям и использовать анизотропные модели.

Эти шаги напрямую опираются на то, что было в теме про подготовку данных: без согласованных координат, единиц, поддержки и QC любая диагностика стационарности будет ненадёжной.

Анизотропия как частный случай «одинаковости»

Даже если статистика не меняется при переносе, она может зависеть от направления лага.

Изотропное поле: структура зависит только от расстояния .

Анизотропное поле: структура зависит от направления (например, по простиранию связь тянется дальше, чем поперёк).

Практический смысл для геологии:

изотропность чаще уместна для процессов без выраженной ориентировки;

анизотропия типична для слоистых сред, трещиноватости, русловых тел, зон разломов.

Что нужно запомнить перед переходом к вариограммному анализу и кригингу

Геостатистика моделирует свойство как случайное поле .

Стационарность — это рабочее приближение, позволяющее оценивать структуру по данным.

В геостатистике ключевой инструмент описания структуры — вариограмма , которая связывает различия значений с расстоянием и направлением.

Если стационарность нарушена из-за тренда или доменов, чаще нужно не «чинить статистику», а уточнять геологическую постановку: доменировать, удалять тренд, учитывать анизотропию и поддержку измерений.

Следующая логическая тема курса после этой статьи — разведочный анализ данных и построение экспериментальной вариограммы, где мы перейдём от определений к практической диагностике пространственной структуры.

3. Вариограммы: расчёт, интерпретация и подбор моделей

Вариограммы: расчёт, интерпретация и подбор моделей

Как эта тема связана с предыдущими

В прошлых статьях мы:

разобрали подготовку пространственных геоданных (координаты, единицы, QC, поддержка измерения);

ввели понятия случайного поля и стационарности и определили вариограмму как инструмент описания пространственной структуры.

Теперь переходим от определений к практике: как посчитать экспериментальную вариограмму, как её прочитать геологически и как подобрать модель вариограммы, пригодную для кригинга и стохастического моделирования.

Зачем вариограмма нужна на практике

Вариограмма отвечает на прикладные вопросы:

на каких расстояниях данные «похожи», а на каких — уже независимы;

есть ли выраженная направленность (анизотропия);

насколько велика доля микромасштабной изменчивости и/или ошибок измерений;

какой радиус поиска и какие веса будут разумны в интерполяции (кригинге).

Без вариограммы методы типа кригинга обычно превращаются в «черный ящик»: результат может выглядеть правдоподобно, но быть плохо обоснованным.

Полувариограмма и что означает её формула

Чаще всего используют полувариограмму (в геостатистике её обычно и называют «вариограммой»):

Расшифровка элементов формулы:

— значение свойства в точке с координатами (например, содержание Cu в пробе).

— лаг (вектор смещения): он задаёт одновременно расстояние и направление между парами точек.

— разность значений в паре точек.

— квадрат разности: делает вклад больших различий сильнее и исключает взаимное «погашение» положительных и отрицательных разностей.

— «среднее по множеству возможных реализаций»; на практике мы заменяем его средним по доступным парам наблюдений.

множитель — стандартная договорённость, упрощающая связь с ковариацией.

Интуитивно — это «насколько в среднем отличаются значения на расстоянии ».

Справка: Variogram

Экспериментальная вариограмма: как её считают из данных

Что мы считаем на самом деле

В реальных данных математическое ожидание неизвестно, поэтому используют экспериментальную (эмпирическую) вариограмму. Для каждого лага берут пары точек, которые примерно соответствуют этому расстоянию (и направлению), и усредняют квадраты разностей.

Одна из распространённых оценок для бина (интервала расстояний) вокруг лага :

Пояснение элементов:

— оценка вариограммы по данным.

— число пар точек, попавших в выбранный бин лага.

— наблюдённое значение (конкретное измерение) в точке .

сумма берётся по всем парам, которые считаются «парами данного лага».

Пошаговый алгоритм расчёта

Выбирают направление (или считают всенаправленную вариограмму).

Задают:

- максимальную дистанцию (часто берут порядка максимального размера области, чтобы не опираться на очень далёкие и редкие пары); - ширину бина (шаг лага); - допуски по направлению и расстоянию.

Для каждой пары точек считают:

- расстояние; - при необходимости — азимут (направление); - квадрат разности значений.

Группируют пары по бинам и усредняют.

Строят график от расстояния и дополнительно анализируют число пар по бинам.

Почему важно смотреть на число пар

Если в дальних лагах мало пар, вариограмма там часто «шумит» и может вводить в заблуждение при подборе модели. Поэтому вместе с графиком обычно смотрят график или таблицу .

!Экспериментальная вариограмма, модель и число пар

Как читать вариограмму: ключевые элементы и геологический смысл

Классические термины вариограммы:

Наггет (nugget, эффект самородка): скачок вариограммы у нулевого расстояния.

Силл (sill): плато, уровень, к которому выходит вариограмма при больших расстояниях.

Рэндж (range): расстояние, на котором вариограмма примерно достигает силла (связь почти исчезает).

Наггет: что он означает

Наггет может появляться из-за сочетания причин:

ошибки измерений и лабораторной аналитики;

микромасштабная неоднородность ниже шага опробования (вы измеряете «точками», но среда меняется ещё быстрее);

несогласованная поддержка (например, часть проб — композиты по 1 м, часть — по 2 м).

Практическая интерпретация:

большой наггет означает, что очень близкие точки могут сильно отличаться;

при большом наггете предсказания будут более «сглаженными», а дисперсии кригинга — выше.

Силл: общий уровень вариабельности

Если вариограмма выходит на плато, это признак, что на больших расстояниях значения становятся почти независимыми.

если плато не проявляется и вариограмма продолжает расти, это часто сигнал тренда и нарушения стационарности (тогда стоит вернуться к доменированию или удалению тренда из прошлой темы).

Рэндж: масштаб геологического контроля

Рэндж часто связывают с характерным размером/протяжённостью геологических тел или процессов:

ширина руслового песчаного тела;

протяжённость зоны разломной проницаемости;

«шаг» изменения фаций.

Важно: рэндж — это не «истинный размер тела», а статистическая характеристика связности для выбранной переменной и поддержки измерения.

Анизотропия: когда направление важно

В геологии очень часто структура зависит от направления:

вдоль простирания пласта корреляция сильнее и тянется дальше;

поперёк слоистости — слабее и на меньших расстояниях.

Практически анизотропию диагностируют направленными вариограммами:

задают несколько азимутов (например, 0°, 45°, 90°, 135°);

строят отдельные вариограммы с угловым допуском.

Если в одном направлении рэндж больше, чем в другом, говорят о геометрической анизотропии. Если отличаются силлы, возможна зональная анизотропия (требует более аккуратного моделирования и проверки доменов).

!Направленные вариограммы и анизотропия

Подбор модели вариограммы: зачем нужна модель, а не «точки»

Экспериментальная вариограмма имеет шум, зависит от выбора бинов и числа пар. Для кригинга обычно нужна допустимая (валидная) модель вариограммы, которая:

гладко описывает структуру;

обеспечивает корректность (положительную определённость соответствующей ковариационной структуры);

позволяет вычислять значения для любых расстояний и направлений.

В практике модель обычно задают семейством функций и параметрами (наггет, частичные силлы, рэнджи, анизотропия).

Стратегия подбора модели: рабочая последовательность

Проверить предпосылки:

- нет ли смешения доменов (разные литологии/рудные типы); - нет ли выраженного тренда; - согласована ли поддержка измерений.

Построить всенаправленную вариограмму и оценить порядок силла и наггета.

Проверить анизотропию направленными вариограммами.

Выбрать семейство модели (сферическая/экспоненциальная/гауссовская или комбинация), исходя из формы экспериментальной кривой.

Подобрать параметры:

- наггет — по поведению на малых лагах; - силл — по уровню плато (или характерному уровню на больших лагах); - рэндж — по расстоянию «выхода» к плато или характерному масштабу затухания.

Проверить модель на адекватность:

- совпадает ли модель с экспериментальными точками в области малых и средних лагов (они чаще важнее для кригинга); - достаточно ли пар в используемых лагах; - не противоречит ли модель геологической концепции.

Для практической реализации в ПО часто используют автоматическую подгонку (например, взвешенный МНК), но итоговое решение должно оставаться геологически осмысленным.

Справка по инструментам:

gstat (CRAN)

PyKrige (документация)

Типичные ошибки и как их избежать

Считать вариограмму по «сырым» данным без QC: выбросы и ошибки координат дают ложный наггет и ломают форму.

Игнорировать домены: смешение разных литологий часто создаёт искусственный рост вариограммы и «непонятный» силл.

Слишком дальние лаги при малом числе пар: дальняя часть вариограммы становится шумной, а подгонка тянется за шумом.

Подгонять модель «по красоте»: модель должна быть пригодна для дальнейшего кригинга и согласована с интерпретацией.

Путать анизотропию с трендом: тренд меняет среднее, а анизотропия — структуру связи по направлениям.

Практический результат темы

После этой статьи у вас должен быть следующий набор решений и артефактов проекта:

экспериментальная вариограмма (всенаправленная и, при необходимости, направленные);

оценка наггета, силла и рэнджа (или нескольких структур);

понимание, есть ли анизотропия и каковы её параметры;

подобранная допустимая модель вариограммы, готовая к использованию в кригинге.

Следующий логический шаг курса — применить модель вариограммы в интерполяции: кригинг и оценка неопределённости.

4. Кригинг: интерполяция, оценка ошибок и кросс-валидация

Кригинг: интерполяция, оценка ошибок и кросс-валидация

Связь с предыдущими темами курса

В предыдущих статьях мы:

подготовили пространственные геоданные к анализу (QC, единицы, поддержка измерения);

ввели случайные поля и стационарность как рабочие предпосылки геостатистики;

научились считать экспериментальную вариограмму и подбирать допустимую модель (наггет, силл, рэндж, анизотропия).

Кригинг опирается на эти результаты напрямую: модель вариограммы становится математическим описанием пространственной связности и определяет, какие веса получат соседние наблюдения при интерполяции, а также какую неопределённость мы приписываем оценке.

Что такое кригинг и чем он отличается от «обычной» интерполяции

Кригинг — это семейство методов интерполяции, где значение в неизвестной точке оценивается как взвешенная сумма наблюдений, а веса вычисляются из модели пространственной структуры (вариограммы или ковариации) и выбранных предпосылок о среднем.

Ключевые отличия от детерминированных методов (например, IDW):

веса зависят не только от расстояний, но и от модели вариограммы (включая наггет и анизотропию);

кригинг даёт не только оценку значения, но и оценку неопределённости (кригинговую дисперсию);

при корректной постановке кригинг является BLUE: лучшей линейной несмещённой оценкой (Best Linear Unbiased Estimator) в рамках принятых предпосылок.

Справка: Kriging (Wikipedia)

!Концептуальная схема: кригинг использует модель вариограммы для расчёта весов соседних наблюдений

Кригинговая оценка: базовая формула и смысл каждого элемента

Самая общая идея кригинга: значение в точке оценивается как линейная комбинация наблюдений.

Пояснение элементов формулы:

— искомая оценка значения свойства в точке (например, содержание Cu в точке/блоке);

— число выбранных соседних наблюдений (в пределах радиуса поиска или по правилу ближайших соседей);

— наблюдённое значение свойства в -й точке с координатами ;

— вес -го наблюдения, который вычисляется из модели вариограммы и ограничений (например, несмещённости).

Важно: кригинг — это не «подгонка поверхности по гладкости». Он перераспределяет веса так, чтобы учитывать реальную (в рамках модели) пространственную связность: при большом наггете даже близкие точки могут получать меньший «доверительный» вес.

Основные виды кригинга и когда какой выбирать

Кригинг различается тем, какие предпосылки мы делаем о среднем значении поля.

Простой кригинг

Простой кригинг предполагает, что среднее известно и постоянно во всей области.

На практике в геологии это условие редко выполняется буквально, поэтому простой кригинг применяют чаще в специальных случаях, например:

при работе с остатками после удаления тренда;

когда среднее задаётся из внешнего, хорошо обоснованного источника;

в симуляциях, где параметры задаются явно.

Обыкновенный кригинг

Обыкновенный кригинг — самый распространённый в прикладной геостатистике. Он предполагает:

среднее неизвестно, но локально постоянно в окрестности оценки.

Для несмещённости вводят ограничение на веса:

Пояснение:

сумма весов равна 1, чтобы оценка не «смещала» уровень среднего при неизвестном, но постоянном среднем.

Обыкновенный кригинг обычно является первой рабочей опцией для непрерывных геологических признаков внутри однородного домена.

Универсальный кригинг

Универсальный кригинг используется, когда среднее не постоянно, а меняется в пространстве как тренд.

Типичная форма:

Пояснение:

— исходное поле (то, что измеряем);

— детерминированная составляющая (тренд), зависящая от координат и/или предикторов;

— стационарные остатки, для которых и задаётся вариограмма.

На практике универсальный кригинг тесно связан с идеей удалить тренд и кригинговать остатки.

Откуда берутся веса: роль вариограммы и кригинговая система

Веса выбираются так, чтобы:

оценка была несмещённой (в зависимости от вида кригинга);

дисперсия ошибки оценки была минимальной.

Ошибка оценки в точке :

Пояснение:

— истинное (неизвестное) значение;

— кригинговая оценка;

— ошибка интерполяции.

Минимизируется дисперсия этой ошибки, используя модель вариограммы (или эквивалентно ковариацию). Практический смысл такой:

если две точки сильно коррелированы (малое значение вариограммы на их расстоянии), то данные из одной точки сильнее «поддерживают» оценку в другой;

если наггет велик, модель говорит, что на малых расстояниях много микрошумов и/или ошибок, и веса перераспределяются осторожнее.

Справка по вариограмме как ключевому входу: Variogram (Wikipedia)

Кригинговая дисперсия: что это и чего это не означает

Определение

Кригинговая дисперсия — это модельная оценка дисперсии ошибки интерполяции в точке :

Пояснение:

— кригинговая дисперсия (в квадрате единиц переменной);

— дисперсия случайной величины;

разность внутри скобок — ошибка интерполяции.

Для обыкновенного кригинга (при записи через вариограмму) часто используют вычислительную форму вида:

Пояснение элементов:

— найденные веса;

— значение модели вариограммы для вектора (или расстояния) между и ;

— множитель Лагранжа, возникающий из ограничения .

Важно: в разных программных реализациях формулы могут быть записаны эквивалентно, но смысл остаётся один и тот же: дисперсия ошибки вычисляется из весов и модели вариограммы.

Как интерпретировать

Кригинговая дисперсия обычно:

меньше рядом с плотными, хорошо расположенными данными;

больше в областях без наблюдений;

может быть больше при большом наггете (много микровариабельности/ошибок).

Чего кригинговая дисперсия не учитывает автоматически

Кригинговая дисперсия — это не универсальная «ошибка модели». Она не обязана отражать:

систематические смещения из-за неверного доменирования;

ошибки из-за неправильной поддержки измерений;

ошибки из-за неверно подобранной вариограммы;

последствия нестационарности (тренд, смена фаций) вне принятой модели.

Поэтому кригинговую дисперсию обязательно дополняют проверками качества модели, прежде всего кросс-валидацией.

Практические настройки кригинга, которые влияют на результат

Выбор окрестности (neighborhood)

Даже с одной и той же вариограммой результаты меняются, если меняется правило выбора соседей:

радиус поиска (и разные радиусы по главным осям анизотропии);

максимальное число соседей ;

разбиение на сектора (чтобы не брать все точки только с одной стороны);

минимум соседей, при котором оценка считается допустимой.

Практический смысл:

слишком маленькая окрестность даёт «рваную» карту и может увеличивать шум;

слишком большая окрестность увеличивает вычисления и может давать излишнее сглаживание, особенно при наличии тренда.

Анизотропия

Если в вариограмме выявлена анизотропия, в кригинге обычно согласуют:

ориентацию главных осей (азимут, падение в 3D);

отношения рэнджей по осям;

эллипсоид поиска, согласованный с анизотропией.

Точечный и блочный кригинг

В геологических проектах часто нужно оценивать не точку, а блок (например, блок блочной модели). Тогда применяют блочный кригинг:

оценивается среднее значение по блоку;

дисперсия ошибки обычно меньше, чем у точечного кригинга, потому что блок «усредняет» мелкомасштабную вариабельность.

Смысловая связь с подготовкой данных: если исходные измерения имеют другую поддержку (например, композиты по 1 м), то корректная постановка «точка против блока» становится критичной.

Кросс-валидация: как проверить кригинг и вариограмму на данных

Зачем она нужна

Кросс-валидация отвечает на прикладной вопрос: насколько выбранная вариограмма, тип кригинга и настройки окрестности дают адекватные предсказания на тех данных, которые у нас уже есть.

Самый распространённый вариант — leave-one-out (LOOCV):

по очереди исключаем каждую точку;

оцениваем её значение по оставшимся;

сравниваем прогноз с наблюдением.

Ошибка кросс-валидации

Для точки вводят ошибку:

Пояснение:

— наблюдённое значение в точке ;

— кригинговый прогноз в этой же точке, но рассчитанный без использования самой точки ;

— ошибка прогноза.

Базовые метрики качества

Чаще всего смотрят набор метрик, потому что одной цифры недостаточно.

Средняя ошибка (ME) показывает смещение:

Пояснение:

— число точек;

сумма берётся по всем ошибкам .

Практическая интерпретация: для несмещённой модели ME должна быть близка к 0.

Средняя абсолютная ошибка (MAE) показывает типичный масштаб ошибки:

Пояснение:

— модуль ошибки, чтобы положительные и отрицательные ошибки не компенсировали друг друга.

RMSE сильнее штрафует большие промахи:

Пояснение:

— квадрат ошибки;

корень возвращает метрику в исходных единицах (ppm, %, мД и т. п.).

Стандартизованные ошибки: проверка «калибровки» неопределённости

Кросс-валидация позволяет проверить не только точность прогнозов, но и адекватность кригинговых дисперсий.

Стандартизованная ошибка:

Пояснение:

— кригинговое стандартное отклонение для прогноза в точке (квадратный корень из дисперсии), рассчитанное без самой точки ;

— ошибка, измеренная в «единицах ожидаемой неопределённости».

Если модель неопределённости согласована с реальностью, то в среднем:

близка к 0;

близка к 1.

Интерпретация RMSSE:

RMSSE больше 1 означает, что модель недооценивает ошибки (слишком оптимистична);

RMSSE меньше 1 означает, что модель переоценивает неопределённость (слишком осторожна).

!Визуальная диагностика кросс-валидации: точность прогнозов и калибровка неопределённости

Типичные проблемы в кригинге и как их диагностировать

Неправильная вариограмма: кросс-валидация даёт большое RMSE и/или RMSSE далеко от 1; часто помогает пересмотр бинов вариограммы, доменирование, анизотропия.

Тренд, замаскированный под «длинный рэндж»: вариограмма не выходит на плато, кросс-валидация показывает систематические ошибки по пространству; решение — удаление тренда или универсальный кригинг.

Смешение доменов: ошибки концентрируются в определённых литологиях/типах руды; решение — доменирование и отдельные вариограммы.

Плохая поддержка измерений: данные разных типов «ломают» наггет и приводят к неадекватному сглаживанию; решение — композитирование/регуляризация и согласование поддержки.

Неудачная окрестность: карта выглядит полосатой или излишне сглаженной; решение — настройка радиусов, числа соседей, секторов.

Инструменты для практической реализации

gstat (CRAN)

PyKrige (документация)

GSTools (документация)

Практический результат темы

После освоения кригинга в рамках курса у вас должно получаться:

выбрать уместный тип кригинга (обыкновенный как базовый, универсальный при тренде, простой в специальных случаях);

выполнить интерполяцию с моделью вариограммы (включая анизотропию и разумную окрестность);

получить карту оценок и карту кригинговой неопределённости;

провести кросс-валидацию и интерпретировать метрики (ME, MAE, RMSE, стандартизованные ошибки);

отличать «низкую кригинговую дисперсию» от «реально надёжной модели» и уметь находить причины расхождений.

Следующий логический шаг после кригинга — стохастическое моделирование (например, последовательная гауссовская симуляция), где модель вариограммы используется для генерации реализаций поля, а не только сглаженной оценки.

5. Стохастическое моделирование: симуляции и многореализационные модели

Стохастическое моделирование: симуляции и многореализационные модели

Связь с предыдущими темами курса

Ранее мы построили основу геостатистического анализа:

подготовили и проверили пространственные данные (QC, поддержка измерений, системы координат);

ввели случайные поля и стационарность как рабочую модель;

научились строить экспериментальные вариограммы и подбирать допустимые модели;

применили кригинг для интерполяции и получили карту оценок и карту кригинговой неопределённости.

Теперь делаем следующий шаг: переходим от единственной сглаженной оценки к множеству возможных реализаций поля, которые:

совпадают с данными в точках наблюдений;

имеют заданную пространственную структуру (вариограмму);

позволяют моделировать неопределённость и риски через многореализационный анализ.

Зачем нужны симуляции, если уже есть кригинг

Кригинг даёт лучшую линейную несмещённую оценку и кригинговую дисперсию, но кригинговая карта обычно:

сглаживает экстремальные значения;

не воспроизводит реальную мелкомасштабную изменчивость (особенно при заметном наггете);

описывает неопределённость в каждой точке, но не даёт естественного набора «как может выглядеть весь объект целиком».

Стохастическая симуляция решает другую задачу: не «самая вероятная карта», а набор правдоподобных карт, согласованных с данными и вариограммой.

Практические задачи, где без симуляций трудно:

оценка рисков превышения порога (например, вероятность для загрязнения или содержания);

расчёт запасов с учётом неопределённости и построение доверительных интервалов по тоннажу/качеству;

анализ связности (перколяция) коллекторов, рудных зон или загрязнения;

оптимизация сети бурения по ожидаемому снижению неопределённости.

!Сравнение сглаживания в кригинге и воспроизведения вариабельности в симуляции

Базовые понятия: реализация, ансамбль и многореализационная модель

Реализация

Реализация — это одна возможная карта/3D-модель поля , удовлетворяющая условиям:

в точках измерений совпадает с наблюдениями (для условной симуляции);

имеет согласованную с моделью вариограммы пространственную структуру;

статистически правдоподобна в рамках выбранной геостатистической модели.

Ансамбль реализаций

Ансамбль — это набор из реализаций (например, 50–200), который используют для вычисления статистик.

Если обозначить значение в ячейке (или точке сетки) в -й реализации как , то:

средняя модель (E-type)

Где:

— среднее значение по реализациям в точке ;

— число реализаций;

— значение в -й реализации.

Интерпретация: часто напоминает кригинг по форме, но строится из ансамбля.

карта стандартного отклонения (пространственная неопределённость)

Где:

— разброс между реализациями (практическая мера неопределённости);

используется как стандартная поправка для оценки дисперсии по выборке.

Важно: этот разброс описывает именно многовариантность возможных пространственных карт, а не только «локальную» ошибку.

Условная и безусловная симуляция

Безусловная: генерируем поле только по вариограмме и распределению, без привязки к данным. Полезно для тестов и понимания структуры.

Условная: реализация обязана совпасть с измерениями в точках наблюдений. Это стандарт для прикладных задач.

Основные семейства методов симуляции

Ниже — методы, с которыми чаще всего сталкиваются в геологии.

| Метод | Тип данных | Что моделирует | Когда уместен | |---|---|---|---| | Последовательная гауссовская симуляция (SGS) | непрерывные величины | условные реализации гауссовского поля | содержания, пористость, мощности (после трансформаций) | | Последовательная индикаторная симуляция (SIS) | категориальные/пороговые | вероятности классов и их реализации | литологии/фации, рудность по порогу, типы грунтов | | Симуляция по множественным точкам (MPS) | сложные структуры | воспроизводит «рисунок» по обучающему изображению | русловые тела, сложная текстура фаций |

Ссылки для ориентира:

Kriging (Wikipedia)

Variogram (Wikipedia)

gstat (CRAN)

GSTools (документация)

SGeMS (Stanford Geostatistical Modeling Software)

Последовательная гауссовская симуляция (SGS): идея без «чёрного ящика»

SGS — самый распространённый подход для непрерывных геологических свойств. Он опирается на предпосылку, что после преобразования переменной можно работать с гауссовским полем.

Зачем нужен переход к гауссовскому полю

Многие геологические параметры:

сильно асимметричны;

имеют «тяжёлые хвосты»;

содержат редкие экстремумы.

SGS обычно работает так:

исходные данные переводят в нормальные баллы (normal score transform), чтобы получить распределение близкое к стандартному нормальному;

выполняют симуляцию в гауссовском пространстве;

возвращают результат в исходные единицы обратным преобразованием.

Практический смысл: модель вариограммы описывает пространственную структуру, а преобразование обеспечивает корректную вероятностную часть (распределение значений).

Пошаговая логика SGS

Вы задаёте сетку (2D/3D), где хотите получить значения.

Вы выбираете случайный порядок обхода ячеек.

Для очередной ячейки :

1. берёте соседние данные (и уже смоделированные ранее ячейки); 2. делаете обыкновенный кригинг в гауссовском пространстве и получаете:

- среднее (кригинговую оценку) ; - стандартное отклонение .

3. интерпретируете это как локальное условное распределение:

Где:

— значение в гауссовском пространстве (после трансформации);

— нормальное распределение с параметрами:

- — среднее; - — дисперсия.

4. случайно выбираете одно значение из этого распределения и фиксируете его в ячейке.

Повторяете до заполнения всей сетки.

Делаете обратное преобразование в исходные единицы.

Ключевой момент: кригинг в SGS используется не как финальная «гладкая карта», а как способ получить локальное условное распределение, из которого потом делается случайная выборка.

!Схема алгоритма последовательной гауссовской симуляции

Индикаторные симуляции (SIS): когда переменная не «число», а класс или порог

Если нужно моделировать:

литологические/фациальные классы;

«руда/пусто»;

превышение порога качества,

то удобнее перейти к индикаторам.

Индикаторная переменная

Для порога определяют индикатор:

Где:

— индикатор для порога ;

— исходная величина;

значение 1 означает «ниже или равно порогу», 0 — «выше порога».

Дальше моделируют индикаторное поле (или набор индикаторов для нескольких порогов). В результате можно получать:

вероятности классов в каждой ячейке;

реализацию классов (категориальную карту/объём).

Практический плюс: не нужно предполагать нормальность распределения исходной величины.

Входные параметры симуляции: что реально управляет результатом

Модель вариограммы и анизотропия

Симуляция наследует всё, что вы заложили в вариограмму:

наггет задаёт долю микровариабельности и «шероховатость»;

рэнджи задают протяжённость связности;

анизотропия задаёт направленность тел и корреляции.

Если вариограмма неверна, симуляции будут правдоподобны только «математически», но не геологически.

Окрестность (neighborhood) и сетка

Важные настройки:

радиусы поиска и число соседей;

сектора (чтобы соседние точки были с разных сторон);

размер ячейки сетки.

Типичный эффект:

слишком маленькая окрестность может давать шумные, «пятнистые» реализации;

слишком большая — увеличивает вычисления и может размывать локальные особенности через переусловливание;

слишком крупная сетка может скрыть мелкомасштабную структуру.

Поддержка измерения

Если данные — композиты по 1 м, а вы моделируете блоки 10×10×10 м, то симуляция будет отражать вариабельность на «не той» поддержке. Это та же проблема, что обсуждалась в подготовке данных и блочном кригинге: поддержка должна быть согласована (или явно учтена через регуляризацию).

Как анализировать ансамбль реализаций

После генерации реализаций важно не «выбрать самую красивую», а вычислять статистики для принятия решений.

Типичные продукты многореализационного моделирования:

карта среднего ;

карта стандартного отклонения ;

вероятности превышения порога:

Где:

— критический порог;

— индикатор: равен 1, если условие истинно, и 0 иначе;

сумма считает, в скольких реализациях порог превышен.

распределения интегральных показателей:

- суммарный тоннаж выше порога; - среднее качество по рудному телу; - объём/площадь зоны превышения.

Для интегральных показателей ключевой смысл симуляций в том, что они сохраняют пространственную структуру, а значит корректнее отражают «сцепленность» высоких/низких значений, чем независимые точечные ошибки.

Проверка качества симуляций

Минимальный набор проверок, которые стоит делать до использования результатов:

обусловленность данными

- в точках измерений условная симуляция должна воспроизводить наблюдения (с учётом того, как именно реализован conditioning в выбранном ПО);

гистограммы и квантиль-квантиль

- распределение реализаций в целом должно соответствовать целевому распределению (с учётом трансформаций и ограничений);

вариограммы реализаций

- средняя экспериментальная вариограмма по реализациям должна быть близка к заданной модели (в пределах естественного разброса);

геологическая правдоподобность

- формы тел, ориентировка, связность должны согласовываться с концептуальной моделью и структурой данных.

Типичные ошибки и как их распознавать

Симуляции выглядят «слишком шумными»

- часто причина в слишком большом наггете, неучтённых выбросах или неправильной поддержке;

Симуляции выглядят «слишком гладкими»

- возможны завышенные рэнджи, чрезмерно большая окрестность, доменное смешение, удалённые тренды;

Вероятности превышения порога не совпадают с ожиданиями геолога

- проверьте трансформации (normal score), корректность обратного преобразования, доменирование и корректность порога в исходных единицах;

Реализации дают правильные локальные статистики, но неправильную связность

- это часто сигнал, что вариограмма описывает только парные зависимости и не «держит» сложную геометрию; в таких задачах рассматривают MPS и другие структурные подходы.

Практический итог темы

После освоения стохастического моделирования вы должны уметь:

объяснить, почему симуляции дополняют кригинг, а не «заменяют интерполяцию»;

построить несколько десятков реализаций условной симуляции на основе модели вариограммы;

получать карты среднего, разброса и вероятности превышения порога;

проверять, что реализации согласованы с данными, распределением и вариограммой;

интерпретировать ансамбль реализаций как инструмент для оценки риска и неопределённости геологической модели.

6. Математические модели геопроцессов: фильтрация, потоки и деформации

Математические модели геопроцессов: фильтрация, потоки и деформации

Связь с геостатистикой из предыдущих тем

В предыдущих статьях курса мы научились описывать пространственные данные как случайные поля, строить вариограммы, выполнять кригинг и генерировать многореализационные модели через стохастические симуляции. Эти инструменты отвечают на вопрос: как разумно восстановить неизвестное поле по редким измерениям и как оценить неопределённость.

Математические модели геологических процессов отвечают на другой вопрос: почему поле устроено так, а не иначе.

В прикладных задачах их часто объединяют:

геостатистика даёт статистически корректную интерполяцию и симуляции при неполных данных;

физические модели (уравнения фильтрации, переноса, деформации) задают причинно-следственные ограничения и связывают разные типы наблюдений.

Эта статья вводит три базовых класса моделей, которые постоянно встречаются в геологии и геофизике:

фильтрация как способ описывать масштаб, поддержку измерений и сглаживание;

потоки как модели движения воды, флюидов и переноса примесей;

деформации как модели напряжений, перемещений и разломообразования.

!Три ключевых класса моделей: фильтрация, потоки, деформации

Зачем геологу уравнения, если есть кригинг и симуляции

Кригинг и симуляции используют модель пространственной связности (вариограмму), но обычно не «знают» физику процесса. Это важно в ситуациях, где:

есть сильный тренд, связанный с источником или границей (интрузия, водораздел, граница коллектора);

нужно прогнозировать не только где больше/меньше, но и как будет развиваться во времени;

есть разные типы данных, связанные физически (давление и дебит, температура и теплопроводность, осадки и деформация);

важно соблюдать законы сохранения (массы, энергии, импульса).

На практике часто используют гибрид:

физическая модель даёт детерминированный компонент тренда;

геостатистика моделирует остатки и неопределённость параметров.

Фильтрация: сглаживание, масштаб и связь с поддержкой измерения

Что такое фильтрация в геонауках

Фильтрация в контексте обработки геоданных означает преобразование поля так, чтобы выделить нужный масштаб:

подавить шум и микромасштабные флуктуации;

подчеркнуть крупные структуры (региональный тренд) или, наоборот, убрать их, чтобы анализировать локальные аномалии.

Фильтрация напрямую связана с темой поддержки измерения из подготовки данных:

измерение по композиту 2 м уже является сглаживанием относительно точечных измерений;

блочный кригинг тоже даёт сглаживание, но уже как часть модели оценки.

Линейная фильтрация как взвешенное усреднение

Один из самых универсальных способов описать фильтрацию непрерывного поля — свертка:

Где:

— значение после фильтрации в точке ;

— исходное поле в точке ;

— весовая функция (ядро фильтра), задающая, какие соседние точки важнее;

и — пространственные координаты (в 2D или 3D);

— интеграл по области, то есть «суммирование вкладов» от окружающих точек.

Практический смысл: фильтр берёт окрестность вокруг точки и усредняет значения с заданными весами.

Пример: гауссов фильтр как «плавное» сглаживание

Часто используют гауссово ядро (в 2D), потому что оно не создаёт резких артефактов:

Где:

— вектор смещения от центра фильтра, то есть ;

— длина этого вектора (расстояние);

— параметр масштаба сглаживания (чем больше , тем шире окрестность);

— экспонента;

множитель нормирует веса так, чтобы суммарный вес был равен 1.

!Интуиция: ядро задаёт, как именно усредняется поле

Как фильтрация меняет вариограмму и кригинг

Фильтрация почти всегда:

уменьшает дисперсию на малых масштабах;

визуально снижает «шероховатость» поля;

меняет параметры вариограммы, которые вы бы оценили по этим данным.

Типичные следствия для вариограммы:

наггет может уменьшиться, если шум был измерительным;

рэндж может увеличиться, потому что поле становится более гладким.

Это важно: если вы строите вариограмму уже по фильтрованным данным (например, по карте после сильной обработки), вы описываете структуру обработанного поля, а не исходной геологии.

Полезная справка по свёртке и фильтрации: Свертка (математика))

Потоки: фильтрация (в смысле гидрогеологии), перенос и уравнения сохранения

В геологии слово фильтрация часто означает движение флюида через пористую среду. Чтобы избежать путаницы, далее используем:

фильтрация данных для сглаживания и обработки полей;

фильтрация флюида для подземных потоков.

Базовый закон: закон Дарси

Для подземных вод и многих инженерно-геологических задач основной эмпирический закон — закон Дарси:

Где:

— вектор удельного расхода (сколько воды проходит через единицу площади за единицу времени);

— гидравлическая проводимость (характеристика среды: «насколько легко течёт»);

— пьезометрический напор (высота, связанная с давлением и отметкой);

— градиент напора, то есть направление и скорость изменения в пространстве;

знак минус означает: поток направлен в сторону убывания напора.

Практический смысл: вода течёт из области с большим напором в область с меньшим, а коэффициент управляет интенсивностью потока.

Справка: Закон Дарси

Сохранение массы: от расхода к уравнению

Чтобы из закона Дарси получить модель распределения напора, добавляют сохранение массы. В простейшем стационарном виде (без накопления во времени) это означает: сколько воды «входит» в малый объём, столько же «выходит», плюс возможные источники/стоки.

На этом уровне важно понимать идею:

уравнения потока связывают поле напора с параметрами среды ;

если неизвестна и меняется в пространстве, её часто моделируют геостатистически как случайное поле.

Перенос примеси: адвекция и диффузия

Если кроме потока воды нужно описывать распространение растворённого вещества (загрязнение, солёность) или тепла, базовая модель обычно включает два механизма:

адвекция — перенос потоком;

диффузия/дисперсия — расплывание из-за микродвижений и неоднородности.

Упрощённая форма уравнения переноса концентрации :

Где:

— концентрация как функция координат и времени;

— время;

— скорость изменения концентрации во времени;

— вектор скорости потока (направление и величина);

— адвективный перенос, то есть «снос» концентрации потоком;

— коэффициент диффузии/дисперсии (насколько быстро происходит расплывание);

— лапласиан (оператор, описывающий сглаживание поля за счёт диффузии).

!Как формируется форма шлейфа: снос и расплывание

Справка по уравнению: Уравнение адвекции — диффузии

Где здесь геостатистика

Параметры потока почти всегда пространственно неоднородны:

для коллекторов и водоносных горизонтов меняется по фациям и трещиноватости;

зависит от неоднородности и масштаба;

источники и границы заданы неопределённо.

Поэтому типичный гибридный подход выглядит так:

строят геологические домены и первичную геостатистику параметров (вариограммы , кригинг/симуляции);

прогоняют гидродинамическую модель на множестве реализаций параметров;

получают ансамбль прогнозов (например, вероятности превышения порога концентрации) уже с учётом физики потока.

Деформации: напряжения, перемещения и простая линейная упругость

Деформационные модели нужны, когда важны:

устойчивость склонов и горных выработок;

реактивация разломов при добыче, закачке и разгрузке;

оседание поверхности из-за откачки флюидов;

интерпретация геодезических наблюдений (GPS, InSAR) и связь их с процессами в недрах.

Кинематика: перемещения и деформации

Пусть — вектор перемещений породы в точке .

Малая деформация (тензор деформаций) задаётся как:

Где:

— тензор деформаций, описывает растяжение/сжатие и сдвиг;

— матрица пространственных производных перемещений (как быстро меняется в разных направлениях);

— транспонирование, нужно чтобы отделить деформацию от чистого вращения;

множитель — стандартная симметризация.

Интуиция: деформация связана не с тем, насколько сместилась порода, а с тем, насколько по-разному сместились соседние точки.

Равновесие: от сил к напряжениям

Если система квазистатична (инерция не важна), то выполняется условие равновесия:

Где:

— тензор напряжений (внутренние силы на площадках внутри тела);

— дивергенция напряжений, показывает, как внутренние силы «несбалансированы» в точке;

— объёмные силы (например, гравитация);

означает отсутствие ускорения (равновесие).

Связь напряжений и деформаций: закон Гука для упругой среды

Для линейной изотропной упругости (упрощённый, но часто полезный первый шаг) используют связь:

Где:

и — параметры Ламе, описывающие упругие свойства материала;

— дивергенция перемещений, характеризует объёмное сжатие/расширение;

— единичная матрица;

— тензор деформаций;

множитель показывает, что управляет сопротивлением сдвигу.

Справка: Линейная упругость

!Как деформационная модель связывает нагрузки, перемещения и разломы

Где здесь геостатистика

В деформационных задачах неопределённы:

упругие параметры (, или , ) в разных литологиях;

геометрия разломов и зон ослабления;

граничные условия и нагрузки.

Поэтому геостатистика используется для:

интерполяции и симуляции полей свойств (например, модуль Юнга) внутри доменов;

оценивания пространственных ошибок и их влияния на прогноз деформаций;

согласования модели с наблюдениями (например, через сравнение с InSAR/GPS по ансамблю реализаций параметров).

Как объединять процессные модели и геостатистику в одном проекте

Ниже — практическая схема, которая согласуется со всеми предыдущими темами курса.

Подготовить данные

- привести координаты и поддержку; - выполнить QC; - разделить на домены.

Выделить детерминированную часть

- тренд, связанный с источниками/границами; - физическая модель потока или деформации, если она доступна.

Смоделировать остатки геостатистически

- построить вариограмму остатков; - кригинг для оценки; - симуляции для неопределённости.

Провести многореализационный расчёт

- прогнать процессную модель на множестве реализаций параметров; - получить вероятности превышений, интервалы неопределённости интегральных показателей.

Проверить результат

- кросс-валидация геостатистики; - физические проверки: баланс массы, реалистичность полей скоростей/напряжений; - сравнение с независимыми наблюдениями.

Практический итог темы

После этой статьи вы должны уверенно различать и связывать три уровня описания геологических объектов:

фильтрация данных как управление масштабом и сглаживанием, влияющее на вариограмму и кригинг;

модели потока и переноса как причинная связь между напорами, свойствами среды и эволюцией концентраций/температур;

модели деформаций как связь нагрузок, перемещений, деформаций и напряжений.

Это расширяет геостатистический инструментарий курса: теперь вариограммы, кригинг и симуляции можно использовать не только для картирования, но и как часть строгой схемы моделирования геопроцессов с учётом физики и неопределённости.

7. Интеграция моделей и принятие решений: неопределённость и сценарии

Интеграция моделей и принятие решений: неопределённость и сценарии

Связь с предыдущими темами курса

Ранее в курсе мы построили цепочку от данных к моделям:

подготовили пространственные геоданные и устранили типовые проблемы качества;

описали геологические свойства как случайные поля и ввели стационарность как рабочую предпосылку;

оценили пространственную структуру через вариограммы;

выполнили кригинг и кросс-валидацию, получая оценки и карты неопределённости;

построили ансамбли реализаций через стохастические симуляции;

познакомились с процессными моделями (потоки, перенос, деформации) и с тем, как геостатистика дополняет физику.

Эта статья отвечает на следующий практический вопрос: как объединить геостатистику, физические модели и экспертные ограничения так, чтобы принимать решения при неопределённости.

!Схема того, как результаты геостатистики и процессных моделей превращаются в сценарии и решения

Что именно означает «интеграция моделей»

В геологических проектах обычно существует несколько уровней описания объекта:

Данные как редкие и неоднородные наблюдения.

Геостатистическая модель как способ восстановить неизвестные поля и их неопределённость.

Процессная (физическая) модель как причинное описание того, как поля связаны и как они меняются.

Решение как выбор действия: где бурить, какой контур принять, какой вариант разработки/ремедиации выбрать.

Интеграция моделей — это согласованный способ:

передать неопределённость из данных в параметры и прогнозы;

сравнить альтернативы по понятным метрикам риска/стоимости;

обосновать решение не одной «красивой картой», а диапазоном правдоподобных исходов.

Виды неопределённости, которые важно различать

Один из главных источников ошибок в принятии решений — смешение разных типов неопределённости.

Случайная и познавательная неопределённость

Алеаторная неопределённость (случайная) — реальная природная вариабельность (например, микронеоднородность руды).

Эпистемическая неопределённость (познавательная) — нехватка информации и несовершенство модели (например, редкая сеть бурения, неизвестные границы доменов).

Практический смысл:

алеаторную неопределённость нельзя «убрать», но можно учитывать в рисках;

эпистемическую можно уменьшать, если собирать новые данные или уточнять модель.

Где они проявляются в инструментах курса

кригинг и симуляции отражают неопределённость, связанную с редкостью наблюдений и пространственной структурой;

процессные модели добавляют неопределённость параметров (например, , , упругие модули) и граничных условий;

доменирование и тренды — это зона, где эпистемическая неопределённость особенно сильна (ошибка концептуальной модели часто важнее «тонкой» настройки вариограммы).

Что такое сценарий и чем он отличается от реализации

В предыдущей теме мы строили реализации — многовариантные карты/объёмы, согласованные с данными и вариограммой.

Сценарий шире:

он включает не только одну реализацию поля, но и набор допущений о мире;

он определяет, какие законы/условия применяются в процессной модели;

он фиксирует вариант принятия решений, который мы оцениваем.

Типы сценариев в геологических задачах

| Тип сценария | Что меняется | Пример | Чем опасно игнорировать | |---|---|---|---| | Геологический (концептуальный) | домены, границы тел, тренды, анизотропия | два варианта контакта рудного тела | можно получить «точную» оценку в неправильном теле | | Параметрический | вариограмма, распределение, параметры процесса | разные рэнджи, разные в доменах | недооценка/переоценка связности и риска | | Граничные условия | источники/стоки, границы, нагрузки | расход на скважине, уровень реки | прогноз будет систематически смещён | | Операционный (решенческий) | действия и ограничения | 20 скважин vs 30, иной радиус воздействия | сравнение «яблок с апельсинами» |

Общая схема принятия решений на ансамбле моделей

Практически полезно мыслить не картами, а функцией последствие от решения.

Шаги, которые можно воспроизвести в проекте

Сформулировать решения как набор альтернатив .

Определить целевую метрику: стоимость, риск, надёжность, экологический ущерб, NPV.

Построить ансамбль неопределённостей:

- геостатистические реализации свойств; - варианты параметров/условий процессной модели; - (при необходимости) несколько концептуальных сценариев.

Прогнать расчёт последствий для каждого варианта на каждом элементе ансамбля.

Свернуть результаты в метрики принятия решений (вероятности, ожидаемые потери, доверительные интервалы).

Выбрать решение по заранее согласованному критерию и зафиксировать обоснование.

Ключевые метрики для решений при неопределённости

Ниже — набор метрик, которые чаще всего работают «в полях» и легко объясняются стейкхолдерам.

Вероятность превышения порога

Если критично событие превышен порог (загрязнение, минимальный борт, предел прочности), используют вероятность:

Где:

— значение интересующего свойства в точке/ячейке ;

— порог (например, ПДК или минимальное содержание);

— вероятность события.

В многореализационной модели вероятность часто оценивают долей реализаций, где порог превышен:

Пояснение каждого элемента:

— число реализаций в ансамбле;

— значение в точке в -й реализации;

— индикатор: равен 1, если условие истинно, и 0 иначе;

сумма считает, в скольких реализациях порог превышен.

Практический смысл: карта вероятности часто полезнее карты среднего, потому что напрямую отвечает на вопрос «насколько рискованно».

Справка по вероятностной постановке риска: Оценка риска

Ожидаемые потери (ожидаемый ущерб)

Если события имеют разную цену, используют ожидаемые потери.

Пусть — потери (или отрицательная полезность), зависящие от решения и состояния мира .

Ожидаемые потери:

Пояснение:

— математическое ожидание (среднее по неопределённости);

— -е состояние мира из ансамбля (например, конкретная реализация свойств и набор параметров процесса);

— потери при решении в состоянии ;

усреднение по сценариям/реализациям даёт оценку ожидаемых потерь.

Практический смысл: вы выбираете решение не по «среднему содержанию», а по «средней цене ошибки».

Квантили и доверительные интервалы для интегральных показателей

Для запасов, тоннажа, объёма зоны загрязнения обычно важны не карты, а интегральные величины .

Тогда по ансамблю можно строить:

медиану (типичный исход);

и (оптимистичный и пессимистичный хвосты);

интервал неопределённости (например, ).

Эта логика аналогична подходам в вероятностной оценке запасов, где распределение результата важнее одного числа.

Интеграция геостатистики и процессных моделей через ансамбли

На практике наиболее воспроизводимый подход — прямая прогонка процессной модели по ансамблю параметров.

Типовой «сквозной» конвейер

Сгенерировать реализации полей свойств (например, , пористость, мощности) с учётом доменов и анизотропии.

Для каждой реализации:

- вычислить производные параметры (например, из ); - запустить процессную модель (поток/перенос/деформация); - сохранить прогнозный показатель (например, время прихода фронта, максимальную концентрацию, осадку).

По массиву прогнозов:

- оценить вероятности превышения порогов; - построить распределение итоговых рисков/стоимостей; - сравнить решения.

Справка о вероятностном моделировании и роли Монте-Карло: Метод Монте-Карло

Как не «потерять» концептуальные сценарии

Частая ловушка: сделать 200 реализаций при одной концептуальной модели и считать неопределённость «закрытой». Но если концептуальная модель неверна, большой ансамбль только создаёт ложную уверенность.

Практика, которая обычно работает:

держать 2–4 концептуальных сценария (границы доменов, тренд, анизотропия, геологические контакты);

внутри каждого сценария строить 50–200 реализаций (в зависимости от стоимости расчёта);

сравнивать решения по всем концептуальным сценариям, а не усреднять их бездумно.

Если сценарии нужно взвесить по правдоподобию, это можно делать аккуратно, но важно явно документировать основания. Базовые идеи такого подхода описываются в вероятностном выводе: Байесовский вывод

Анализ чувствительности: куда тратить усилия на уточнение

Когда вы получили распределение результата (например, стоимости или риска), следующий вопрос: что сильнее всего на него влияет.

Полезные практические шаги:

проверить чувствительность к параметрам вариограммы (наггет, рэндж, анизотропия);

проверить чувствительность к доменированию и тренду;

проверить чувствительность к ключевым параметрам процесса (, , нагрузки, граничные условия);

выделить 2–3 фактора, которые дают наибольший вклад в разброс результата.

Смысл: вы находите, какие новые данные или уточнения модели реально снизят риск, а какие улучшат лишь «косметику» карт.

Ценность информации: как оправдать дополнительные данные

Если можно собрать дополнительные данные (новые скважины, испытания, геофизику), возникает вопрос: окупится ли это снижением риска.

Идея проста: сравнить лучшую метрику решения до и после получения информации.

Простая формулировка на ожидаемых потерях

Пусть:

— выбранное решение;

— потери;

— дополнительная информация (новые данные).

Тогда ценность информации можно выразить как разницу минимальных ожидаемых потерь:

Пояснение элементов:

— value of information, ценность информации;

— выбор лучшего решения среди альтернатив;

— ожидаемые потери без новых данных;

— ожидаемые потери при условии, что информация получена (то есть неопределённость уменьшилась);

внешнее во второй части означает, что информация сама по себе случайна (какие данные вы получите заранее неизвестно).

Практический смысл: если стоимость дополнительных данных меньше , их сбор часто экономически оправдан.

Коммуникация неопределённости: что показывать, кроме «средней карты»

Чтобы решение было устойчивым и воспроизводимым, полезно показывать не только оценку, но и последствия неопределённости.

Минимальный набор артефактов для отчёта:

карта среднего или E-type (как ориентир);

карта вероятности превышения порога (если есть критерий порога);

карта неопределённости (например, стандартное отклонение по реализациям);

распределение интегрального показателя (гистограмма/квантили –);

краткое сравнение альтернатив решений по одной общей метрике (ожидаемые потери, вероятность нарушения ограничения).

!Пример того, как неопределённость показывают через вероятность и распределение итогового показателя

Типичные ошибки интеграции и как их распознать

Сведение неопределённости к одной карте кригинговой дисперсии: это локальная метрика и она не заменяет ансамбль сценариев.

Игнорирование концептуальных сценариев: маленькая неопределённость внутри неверного домена создаёт ложную уверенность.

Смешение поддержки измерений и поддержки решения: например, решение принимают по блокам, но анализировали точечные пробы без регуляризации.

Непроверенная вариограмма и отсутствие кросс-валидации: риск становится «модельной фантазией».

Отсутствие единой метрики для сравнения решений: обсуждение превращается в спор картинок.

Практический итог темы

После этой статьи вы должны уметь:

отличать реализацию от сценария и планировать оба уровня неопределённости;

строить метрики для решений: вероятность превышения, ожидаемые потери, квантили интегральных показателей;

организовать ансамбль: геостатистические реализации → процессная модель → распределение результата;

выявлять, какие факторы реально управляют риском (анализ чувствительности);

аргументировать сбор дополнительных данных через идею ценности информации.

Эта логика завершает курс как единую систему: от качества данных и вариограмм через кригинг и симуляции к физическим моделям и, наконец, к воспроизводимым решениям при неопределённости.

1. Пространственные геоданные: источники, качество и подготовка

Пространственные геоданные: источники, качество и подготовка

Зачем геостатистике «правильные» данные

Что такое пространственные геоданные

Основные формы представления

Источники геоданных в геологии

Примеры реальных каталогов и инструментов

Системы координат и единицы: частая причина «невидимых» ошибок

Качество геоданных: что именно проверять

Точность, прецизионность и разрешение

Полнота, репрезентативность и смещения выборки

Выбросы: ошибка или геология

Неопределённость и метаданные

Минимальный контроль качества (QC) перед анализом

Подготовка данных к геостатистике

Приведение к единому формату и справочникам

Очистка: пропуски, цензурированные данные и ошибки

Согласование поддержки измерения (support)

Объединение наборов данных (integration)

Первичный статистический контроль и метрики ошибки

Практический результат статьи: что должно быть на выходе

2. Основы геостатистики: случайные поля и стационарность

Основы геостатистики: случайные поля и стационарность

Связь с предыдущей темой

Случайная величина, случайный процесс и случайное поле

Случайная величина

Случайный процесс

Случайное поле

Почему геостатистика вводит стационарность

Среднее, ковариация и вариограмма

Математическое ожидание (среднее)

Ковариация

Вариограмма

Виды стационарности, которые важны в геостатистике

Строгая стационарность

Стационарность второго порядка

Внутренняя (интринсик) стационарность

Что нарушает стационарность в геологических задачах

Как на практике добиваются приемлемой стационарности

Анизотропия как частный случай «одинаковости»

Что нужно запомнить перед переходом к вариограммному анализу и кригингу

3. Вариограммы: расчёт, интерпретация и подбор моделей

Вариограммы: расчёт, интерпретация и подбор моделей

Как эта тема связана с предыдущими

Зачем вариограмма нужна на практике

Полувариограмма и что означает её формула

Экспериментальная вариограмма: как её считают из данных

Что мы считаем на самом деле

Пошаговый алгоритм расчёта

Почему важно смотреть на число пар

Как читать вариограмму: ключевые элементы и геологический смысл

Наггет: что он означает

Силл: общий уровень вариабельности

Рэндж: масштаб геологического контроля

Анизотропия: когда направление важно

Подбор модели вариограммы: зачем нужна модель, а не «точки»

Популярные модели и когда они уместны

Сферическая модель

Экспоненциальная модель

Гауссовская модель

Модель с несколькими структурами

Стратегия подбора модели: рабочая последовательность

Типичные ошибки и как их избежать

Практический результат темы

4. Кригинг: интерполяция, оценка ошибок и кросс-валидация

Кригинг: интерполяция, оценка ошибок и кросс-валидация

Связь с предыдущими темами курса

Что такое кригинг и чем он отличается от «обычной» интерполяции

Кригинговая оценка: базовая формула и смысл каждого элемента

Основные виды кригинга и когда какой выбирать

Простой кригинг

Обыкновенный кригинг

Универсальный кригинг

Откуда берутся веса: роль вариограммы и кригинговая система

Кригинговая дисперсия: что это и чего это не означает

Определение

Как интерпретировать

Чего кригинговая дисперсия не учитывает автоматически

Практические настройки кригинга, которые влияют на результат

Выбор окрестности (neighborhood)