Лингвистические маркеры патогенной речи: теория и практика анализа

Курс посвящён систематическому изучению языковых аномалий, характерных для различных психопатологических состояний, на всех уровнях языковой системы. Рассматриваются фонологические, морфологические, синтаксические и дискурсивные маркеры патологической речи с позиций классических лингвистических теорий и доказательных методов анализа. Материал ориентирован на применение в судебной лингвистике, клинической практике, нейролингвистике и автоматизированной классификации текстов.

1. Фонологические и морфологические маркеры патогенной речи

Фонологические и морфологические маркеры патогенной речи

Почему психиатр, выслушав пациента всего несколько минут, может с высокой вероятностью предположить диагноз — ещё до того, как задаст первый прямой вопрос? Ответ кроется не в содержании высказываний, а в том, как человек произносит слова и какие формы языка выбирает. Фонологический и морфологический уровни — самые «низкие» в языковой иерархии, и именно они первыми реагируют на когнитивные и аффективные нарушения, становясь надёжными лингвистическими маркерами патологических состояний.

Фонологические девиации: когда звук предаёт мысль

Фонологический уровень охватывает систему звуков языка, их организацию в слоги, ритм, интонацию и просодию. В норме носитель языка автоматически реализует фонологические правила: расставляет ударения, выбирает нужные интонационные контуры, соблюдает темп. При патологии эта автоматизация нарушается — и текст, даже записанный, начинает нести следы этих нарушений через орфографические отражения, транскрипции и метаязыковые комментарии исследователей.

Дизартрия — нарушение моторной реализации речи — даёт характерный набор фонологических маркеров. При спастической дизартрии (часто сочетающейся с ДЦП или последствиями инсульта) наблюдаются:

  • Сглаживание просодического контура: речь становится монотонной, лишённой естественных подъёмов и спадов мелодики. В транскрипции это отражается как отсутствие интонационных знаков или их неадекватное распределение.
  • Назализация гласных и согласных: звуки приобретают «носовой» оттенок из-за нарушения работы мягкого нёба. В письменной речи это может проявляться как замены типа «мамба» вместо «банка».
  • Искажение артикуляции сонорных: звуки [л], [м], [н] теряют чёткость, что ведёт к персеверациям — непроизвольным повторам слогов.
  • При атаксической дизартрии (поражения мозжечка) возникает так называемая «скандированная» речь: каждый слог произносится с одинаковой силой и длительностью, что разрушает естественную ритмическую структуру слова. Сравните нормативное произношение «за-ВОД» с атаксическим «ЗА-ВОД» — ударение смещается, и слово становится неузнаваемым.

    Заикание — ещё один мощный фонологический маркер. Классическая триада включает блоки (внезапные остановки звука), повторы слогов и пролонгации (растягивание звуков). Но для лингвистического анализа важнее не сам факт заикания, а его распределение: заикание усиливается на начальных слогах фраз, на содержательных словах (существительных, глаголах) и в условиях коммуникативного давления. Это делает его не просто фонетическим дефектом, а индикатором когнитивной нагрузки.

    При шизофрении фонологические маркеры приобретают иной характер. Описано явление фонологической парафазии — замены звуков, не объяснимые артикулярными трудностями. Пациент может сказать «корова» вместо «корона», заменив [н] на [в], хотя оба звука доступны его артикуляционному аппарату. Это указывает на нарушение не моторного, а категориального уровня фонологической системы.

    Морфологические маркеры: грамматика под давлением болезни

    Морфологический уровень — это система способов изменения слов: склонение, спряжение, словообразование. Морфологические ошибки в патологической речи делятся на два принципиально разных типа.

    Парадигматические ошибки — выбор неверной формы из доступного набора. Типичный пример — морфологическая персеверация: пациент, описывая несколько объектов, применяет форму единственного числа ко всем: «Я видел стол, стул, окно — все был деревянный». Глагол «был» застревает в форме мужского рода единственного числа, хотя контекст требует множественного.

    При афазии Брока морфология страдает особенно сильно. Характерна аграмматичность — утрата грамматических морфем при сохранении корневых morphemes. Пациент произносит: «Я... вчера... больница... доктор... говорить». Словарные корни на месте, но окончания, предлоги, артикли исчезли. Это явление получило название телеграфного стиля — речь напоминает телеграмму, где каждое слово стоит в начальной форме.

    > Аграмматизм при афазии Брока — не просто «плохая грамматика». Это избирательное разрушение системы морфологической обработки при относительной сохранности лексического доступа. > > H. Goodglass, Understanding Aphasia (1993)

    Словообразовательные девиации — второй класс морфологических маркеров. При шизофрении описаны неологизмы, создаваемые по правилам русского словообразования, но лишённые денотата: «светопроводность» (вместо «прозрачность»), «мыслетечение» (вместо «поток сознания»). Эти слова грамматически корректны — у них есть корень, суффикс, окончание, — но семантически они пусты. Такие образования называют морфологически валидными семантическими неологизмами.

    При деменции морфологические ошибки принимают иной облик. Пациенты теряют способность к словоизменению редуцированных парадигм: неправильно склоняют существительные с беглыми гласными («в саду» → «в саде»), путают спряжения глаголов («он видит» → «он видает»). Эти ошибки отражают утрату не общего правила, а исключений — система распадается с периферии.

    Связь двух уровней: когда фонология ломает морфологию

    На практике фонологические и морфологические нарушения переплетаются. Дизартрия может приводить к тому, что окончания просто не произносятся — и внешне это выглядит как аграмматизм, хотя морфологическая система формально сохрана. Различить эти два феномена помогает метод двойной задачи: пациенту предлагают одновременно выполнять моторную задачу (например, постукивать пальцами) и говорить. Если морфологические ошибки усиливаются при дополнительной моторной нагрузке — они связаны с артикуляцией; если нет — это истинный аграмматизм.

    Для NLP-моделей этот нюанс критичен: классификатор, обученный на письменных текстах, будет видеть только морфологические девиации и не сможет отделить их фонологическую природу. Поэтому при построении корпусов для автоматической классификации патогенной речи необходимо учитывать модальность данных — устная или письменная — как отдельный признак.

    2. Синтаксические особенности и нарушения грамматического строя

    Синтаксические особенности и нарушения грамматического строя

    Когда человек с шизофренией говорит: «Окно потому что стекло зеркало отражение я», — слушатель ощущает, что что-то не так, но не может сразу назвать причину. Причина — в разрушении синтаксического уровня: системы правил, по которым слова складываются в предложения. Если морфология отвечает за форму отдельного слова, то синтаксис — за архитектуру высказывания. Именно здесь патогенная речь проявляется наиболее драматично.

    Синтаксическое упрощение: телеграф и его пределы

    Синтаксическое упрощение — сокращение длины предложений, утрата подчинительных связей, редукция придаточных — один из самых устойчивых маркеров. При афазии Брока средняя длина высказывания (MLU) падает с нормативных 10–12 слов до 2–4. Но упрощение — не всегда патология: оно наблюдается и при нормальном старении, и в условиях когнитивной перегрузки.

    Ключевое отличие патологического упрощения от нормативного — в сохранности иерархии. Здоровый человек, упрощая речь, сохраняет структуру «субъект — предикат — объект» (SVO). Пациент с афазией Брока разрушает и эту базовую структуру: «Мальчик... мяч... окно» — три существительных без глагола, без предлога, без указания на связь. Это не телеграмма, а список лексем, лишённый синтаксической оболочки.

    При шизофрении упрощение принимает другую форму. Предложения формально корректны, но лишены иерархической глубины: пациент строит длинные цепочки однородных предложений без подчинения. «Я пошёл в магазин. Там были люди. Люди смотрели. Смотрели на витрину. Витрина была красная». Каждое предложение — отдельный блок, между ними нет каузальных, временных или условных связей. Такая структура называется паратаксисом — он противопоставляется гипотаксису (подчинительной связи).

    | Параметр | Нормативная речь | Афазия Брока | Шизофазия | |---|---|---|---| | Средняя длина предложения | 10–15 слов | 2–4 слова | 8–12 слов | | Тип связи | Гипотаксис | Отсутствие связей | Паратаксис | | Глагольная группа | Полная | Редуцирована | Формально полна | | Предлоги/союзы | Нормативные | Опущены | Формально на месте |

    Инверсия и нарушение порядка слов

    В русском языке порядок слов относительно свободный, но существуют базовые позиции, нарушение которых воспринимается как аномалия. При патологиях наблюдаются несколько типов инверсий.

    Эмфатическая инверсия — вынос компонента в начало предложения для усиления: «Эту тетрадь я купил». В норме это осознанный риторический приём. При мании инверсия становится компульсивной: пациент выносит в начало каждое новое слово, создавая эффект нарастающей хаотичности. «Красный дом. Там я жил. Мама приходила. Каждый день».

    При афазии Вернике наблюдается иной феномен — случайная инверсия: порядок слов не подчиняется ни коммуникативным, ни грамматическим правилам. «К столу яблоко зелёное ест бабушка» — предложение формально содержит все необходимые компоненты, но они расположены в невозможной последовательности. Это маркер нарушения синтаксического планирования — способности удерживать грамматический шаблон на протяжении всего высказывания.

    Нарушения согласования и управления

    Согласование — грамматическая связь, при которой зависимое слово принимает форму главного (прилагательное согласуется с существительным в роде, числе, падеже). Управление — связь, при которой главное слово требует от зависимого определённого падежа.

    При шизофрении описаны характерные нарушения управления: «Я думаю про это» вместо «Я думаю об этом» — предложно-падежная конструкция заменяется разговорным вариантом, но не как стилистический выбор, а как единственно доступная форма. Пациент не может восстановить нормативное управление при прямом запросе.

    При деменции Альцгеймера нарушения согласования нарастают по мере прогрессирования заболевания. На ранних стадиях ошибки единичны и касаются сложных конструкций (причастные обороты). На поздних — распадается согласование в простых предложениях: «Большая стол стоит» (род прилагательного не совпадает с родом существительного). Этот градиент — от сложного к простому — является диагностически значимым.

    Элизия и пропуск синтаксических компонентов

    Элизия — опущение компонента, который восстанавливается из контекста. В норме: «Кто пришёл? — Петя» (пропущено «пришёл»). В патологической речи элизия становится невосполнимой: слушатель не может восстановить пропущенное, потому что контекст сам разрушен.

    При шизофазии — тяжёлой форме шизофренического расстройства речи — наблюдаются так называемые слитые предложения: границы между отдельными высказываниями стираются, и получается поток, в котором невозможно выделить отдельные пропозиции. «Сегодня солнце ярко потому что весна и цветы расцвели мама сказала что надо идти гулять собака лает за забором». Формально каждое предложение корректно, но их соединение лишено логических связей — это синтаксический коллапс.

    Для судебной лингвистики синтаксические маркеры особенно ценны, потому что они труднее всего поддаются сознательному контролю. Человек может подобрать «правильные» слова, но неосознанно выстроит предложения так, как требует его когнитивный профиль. Именно поэтому анализ синтаксиса — ключевой инструмент при определении авторства и психического состояния автора текста.

    3. Дискурсивные маркеры и нарушения связности текста

    Дискурсивные маркеры и нарушения связности текста

    Представьте, что вы читаете письмо, в котором автор начинает рассказывать о поездке на море, через два абзаца переходит к рецептам борща, затем вспоминает детский сад, а в финале утверждает, что всё это — доказательство теоремы Ферма. Текст формально грамматичен, слова подобраны корректно, но смысловое единство разрушено. Именно на уровне дискурса — развёрнутого связного высказывания — патогенная речь проявляется наиболее отчётливо, и именно этот уровень наиболее сложен для формализации.

    Когерентность и когезия: два столпа связности

    Лингвистическая теория дискурса разводит два понятия. Когезия — формальная связность текста, обеспечиваемая грамматическими и лексическими средствами: союзами, местоимениями, лексическими повторами, синонимическими заменами. Когерентность — смысловая связность, логическая последовательность пропозиций, обеспечивающая понимание текста как единого целого.

    В нормативном дискурсе оба уровня работают совместно. При патологии они могут нарушаться независимо, и это разделение имеет диагностическое значение.

    Когезивные нарушения характерны для афазии. Пациент с афазией Брока может построить отдельные грамматически правильные предложения, но не способен связать их анафорическими средствами: «Мужчина пришёл. Человек сел. Он сказал» — три предложения, три разных способа ссылки на одно лицо, без единого анафорического местоимения. Текст распадается на изолированные фрагменты.

    Когерентные нарушения — признак шизофрении. Текст формально связан: союзы на месте, местоимения согласованы, лексические повторы присутствуют. Но смысловая нить утрачена. Это явление получило название шибболет-феномена (по имени библейского эпизода): формальные маркеры связности присутствуют, но не выполняют свою функцию. Союз «поэтому» стоит между двумя предложениями, между которыми нет каузальной связи.

    Стереотипия и персеверация на дискурсивном уровне

    Стереотипия — навязчивое повторение одних и тех же слов, фраз или конструкций. На дискурсивном уровне она проявляется как возврат к одной теме или одной формулировке, несмотря на попытки сменить тему разговора.

    При кататонии стереотипия достигает экстремальных форм: пациент может часами повторять одно предложение или одну фразу. В менее тяжёлых случаях стереотипия ограничивается тематической фиксацией: какой бы вопрос ни задавал собеседник, пациент возвращает разговор к одной теме — болезни, страху, конкретному человеку.

    Персеверация на дискурсивном уровне отличается от стереотипии. Если стереотипия — это намеренное (пусть и патологически обусловленное) возвращение к теме, то персеверация — непроизвольное «застревание». Пациент с поражением лобных долей может начать отвечать на вопрос, затем перейти к следующему, но через несколько предложений непроизвольно вернуться к формулировкам предыдущего ответа. В письменном тексте это выглядит как повторение целых фрагментов с минимальными вариациями.

    Нарушения тематического прогресса

    Нормативный дискурс развивается по принципу тема — рема: каждое новое предложение содержит новую информацию (рему), отталкиваясь от уже известной (темы). Этот механизм обеспечивает тематический прогресс — постепенное движение от известного к новому.

    При шизофазии тематический прогресс разрушается. Классический пример из клинической практики: пациент описывает прогулку в парке, затем без перехода начинает говорить о том, как его дед строил дом, затем — о свойствах воды, и каждая тема развивается на протяжении 2–3 предложений, после чего сменяется следующей. Такая структура получила название катастрофической дезорганизации дискурса.

    > Шизофазия — это не бессмысленная речь. Это речь, в которой каждое отдельное высказывание осмысленно, но их последовательность лишена общего смысла. > > A. Andreasen, Thought, Language, and Communication Disorders (1979)

    Прагматические провалы: нарушение коммуникативной интенции

    Даже при сохранной грамматике и лексике дискурс может быть патологическим, если нарушена коммуникативная интенция — намерение говорящего. При конфабуляциях (ложных воспоминаниях) пациент рассказывает события, которых не было, с полной уверенностью и детализацией. Формально дискурс безупречен: связный, когерентный, грамматически правильный. Но его референциальная база — соответствие действительности — разрушена.

    Для NLP-классификации это представляет особую сложность: модель, анализирующая только формальные признаки текста, не способна отличить конфабуляцию от правдивого повествования. Необходимо привлекать внелингвистические данные — проверку фактов, анализ временных несоответствий, сопоставление с документальными источниками.

    Дискурсивные маркеры в автоматическом анализе

    Для извлечения дискурсивных маркеров из текста применяются специализированные инструменты:

  • Анализ цепочек кореференций — выявление того, как текст ссылается на одни и те же сущности. Разрывы кореференционных цепочек — маркер когезивных нарушений.
  • Тематическое моделирование (LDA, BERTopic) — определение тематической структуры текста. Слишком много тем при малом объёме текста — признак тематической дезорганизации.
  • Анализ дискурсивных связок — подсчёт союзов, наречий и вводных слов, выполняющих связующую функцию. Аномально высокая частота каузальных связок («поэтому», «следовательно», «таким образом») при отсутствии логической связи — маркер шиболет-феномена.
  • Каждый из этих инструментов работает на определённом уровне анализа, и только их совокупность позволяет построить полноценный дискурсивный профиль текста.

    4. Когнитивные и прагматические аспекты патологической коммуникации

    Когнитивные и прагматические аспекты патологической коммуникации

    Почему два человека с одинаковым словарным запасом и одинаковыми грамматическими навыками производят принципиально разное впечатление в разговоре? Один говорит ясно, по делу, учитывает реакцию собеседника. Другой — произносит грамматически безупречные фразы, но собеседник не понимает, что тот имеет в виду и зачем это говорит. Разница — в когнитивных и прагматических компетенциях: способности планировать высказывание, учитывать контекст и достигать коммуникативных целей. Именно эти компетенции разрушаются при патологиях, и именно их нарушения наиболее трудноуловимы для формального анализа.

    Теория релевантности и прагматический провал

    Теория релевантности Спербера и Уилсона утверждает: каждое высказывание предполагает, что оно оптимально релевантно — то есть даёт максимальный познавательный эффект при минимальных усилиях обработки. Слушатель автоматически интерпретирует высказывание так, чтобы оно было релевантным контексту.

    При шизофрении этот механизм ломается. Пациент произносит: «Сегодня вторник, а значит, надо полить цветы». Формально — связное предложение. Но логическая связь между днём недели и необходимостью полива отсутствует. Слушатель тратит когнитивные ресурсы на поиск скрытой связи — и не находит её. Это прагматический провал: высказывание не соответствует ожиданиям релевантности.

    В отличие от лжи, где говорящий намеренно нарушает релевантность, при патологической коммуникации нарушение непроизвольно. Пациент искренне считает свою связь логичной — и это ключевое диагностическое отличие.

    Импликатуры и их распад

    Грайсовская теория импликатур описывает, как в общении передаётся больше, чем сказано буквально. Ответ «У меня уже есть plans» на вопрос «Пойдёшь в кино?» имплицирует отказ, хотя прямо он не выражен. Импликатуры работают благодаря кооперативному принципу — предположению, что собеседник следует определённым максимам (качества, количества, релевантности, способа).

    Патологическая речь нарушает эти максимы систематически:

  • Максима качества (говори правду): нарушается при конфабуляциях и бредовых высказываниях. Пациент утверждает: «Меня преследуют инопланетяне» — и это не метафора, а буквальное убеждение.
  • Максима количества (говори ровно столько, сколько нужно): нарушается при мании — пациент говорит чрезмерно много, перегружая высказывание деталями, — и при депрессии — речь становится лаконичной до неразборчивости.
  • Максима релевантности (говори по теме): нарушается при шизофазии — поток ассоциаций уносит высказывание далеко от исходной темы.
  • Максима способа (говори ясно, кратко, упорядоченно): нарушается при афазии — речь становится запутанной, с ложными стартами и самокоррекциями.
  • Деиксис и нарушение привязки к контексту

    Дейксис — система языковых средств, указывающих на элементы речевой ситуации: «я», «здесь», «сейчас», «этот», «там». Дейктические выражения бессмысленны вне контекста — фраза «Он придёт сюда» не несёт информации без знания, кто «он» и где «здесь».

    При деменции дейксис нарушается характерным образом. Пациент использует указательные местоимения, но не может пояснить, на что они указывают: «Возьми это и положи туда» — при этом жесты отсутствуют или противоречат словам. Это пустой дейксис — формально присутствующий, но семантически нефункциональный.

    При расстройствах аутистического спектра дейксис нарушается иначе. Пациент может избегать местоимения «я», заменяя его на собственное имя или безличные конструкции: «Дима пошёл в магазин» вместо «Я пошёл в магазин». Это отражает нарушение самореференции — способности отнести высказывание к себе как к субъекту.

    Когнитивные функции за речью

    Патологическая коммуникация — не самостоятельный феномен, а отражение нарушений базовых когнитивных функций:

  • Рабочая память — способность удерживать и манипулировать информацией в процессе речепорождения. При её нарушении пациент теряет нить высказывания к середине предложения. Маркер: незавершённые предложения, ложные старты.
  • Исполнительные функции — планирование, переключение, торможение. При поражении лобных долей пациент не может переключиться с одной темы на другую (персеверация) или, наоборот, не способен удержать тему (отвлекаемость).
  • Семантическая память — хранилище знаний о значениях слов и концептов. При болезни Альцгеймера пациент теряет доступ к семантическим признакам слов: не может объяснить, чем «яблоко» отличается от «груши», хотя слово узнаёт.
  • Теория психики — способность приписывать другим людям мысли, убеждения, намерения. При РАС эта способность нарушена, что проявляется в неспособности учитывать знание собеседника: пациент рассказывает о событиях, неизвестных слушателю, без вводной информации.
  • Прагматический анализ в судебной лингвистике

    В криминалистике прагматический анализ применяется для определения коммуникативного намерения автора текста. Угроза, например, требует не только семантики насилия, но и прагматического условия: автор должен намеренно создавать у адресата ощущение опасности. Текст «Я тебя убью» может быть угрозой, шуткой, цитатой из фильма или симптомом обсессивно-компульсивного расстройства (интрузивные мысли). Различить эти случаи можно только через прагматический анализ контекста, адресата и коммуникативной ситуации.

    5. Методология лингвистической экспертизы и автоматизированного анализа

    Методология лингвистической экспертизы и автоматизированного анализа

    В 2017 году британский суд впервые признал лингвистическую экспертизу авторства как самостоятельное доказательство по делу о кибербуллинге — на основании анализа стилистических маркеров в анонимных сообщениях. С тех пор потребность в формализованных методах анализа патогенной речи только растёт: от судебной практики до автоматической модерации контента. Но как превратить интуитивное ощущение «что-то не так с этим текстом» в воспроизводимую, верифицируемую процедуру? Именно этому посвящена методология лингвистической экспертизы.

    Протокол лингвистической экспертизы: от корпуса к заключению

    Любая лингвистическая экспертиза патогенной речи строится на протоколе — последовательности фиксированных шагов, каждый из которых документируется и может быть проверен независимым экспертом.

    Шаг 1. Формирование корпуса. Объектом анализа является не отдельное высказывание, а корпус — совокупность текстов одного автора, достаточная для выявления устойчивых паттернов. Минимальный объём для стилистического анализа — 3 000–5 000 слов. Корпус должен включать тексты разных жанров (письма, устные высказывания, монологи, диалоги), чтобы отделить жанровые особенности от личностных.

    Шаг 2. Многоуровневая разметка. Каждый текст размечается по четырём уровням, рассмотренным в предыдущих статьях курса:

  • Фонологический (для устных текстов): темп, паузы, просодические аномалии
  • Морфологический: ошибки склонения/спряжения, неологизмы, персеверации
  • Синтаксический: длина предложений, типы связей, инверсии, элизии
  • Дискурсивный: тематический прогресс, когезивные средства, прагматические нарушения
  • Шаг 3. Количественная оценка. Для каждого уровня вычисляются метрики, которые затем сравниваются с референсными значениями — показателями нормативной речи и речи при известных патологиях.

    Шаг 4. Классификация и интерпретация. На основании профиля маркеров выносится заключение о вероятном психолингвистическом состоянии автора. Заключение формулируется в терминах вероятности, а не категоричного диагноза — лингвистическая экспертиза не заменяет психиатрическую.

    Метрики для автоматического извлечения

    Для автоматизации анализа необходимо формализовать лингвистические маркеры в виде вычислимых метрик.

    | Метрика | Формула / метод | Интерпретация | |---|---|---| | MLU (Mean Length of Utterance) | Среднее количество слов на предложение | — маркер аграмматизма | | TTR (Type-Token Ratio) | Уникальные слова / все слова | — лексическая бедность | | Индекс персевераций | Повторы -грамм / все -граммы | — стереотипия | | Коэффициент когезии | Связки / все слова | Аномально высокий — шиболет-феномен | | Энтропия тематического распределения | | Высокая — тематическая дезорганизация |

    Энтропия тематического распределения deserves отдельного пояснения. Если текст посвящён одной теме, вероятность для этой темы близка к 1, а энтропия — к нулю. Если темы хаотично сменяют друг друга, вероятности распределяются равномерно, и энтропия достигает максимума. Пороговое значение зависит от жанра и объёма текста, но для связного монолога бит — сигнал тревоги.

    NLP-пайплайн для классификации патогенной речи

    Современный пайплайн автоматической классификации включает несколько этапов.

    Предобработка. Токенизация, лемматизация, удаление стоп-слов. Для русского языка — морфологический анализ через pymorphy2 или SpaCy с языковой моделью ru_core_news_lg. На этом этапе извлекаются морфологические признаки: распределение частей речи, частотность падежей, соотношение глаголов к существительным (глагольная плотность).

    Извлечение синтаксических признаков. Dependency parsing (через UDPipe или Stanza) позволяет вычислить глубину синтаксического дерева, среднее число зависимых на вершину, частоту подчинительных союзов. Глубина дерева — маркер синтаксического упрощения.

    Дискурсивный анализ. Тематическое моделирование (BERTopic на основе эмбеддингов) выделяет тематические кластеры. Анализ кореференций (через нейросетевые модели) определяет целостность референциальных цепочек. Подсчёт дискурсивных маркеров по лексикону (союзы, вводные слова, наречия порядка) даёт коэффициент формальной когезии.

    Классификация. Извлечённые признаки подаются в классификатор. Для бинарной задачи (патологическая / нормативная речь) эффективны градиентный бустинг (XGBoost) и логистическая регрессия. Для многоуровневой классификации (конкретный тип патологии) — многослойный перцептрон или fine-tuned трансформер.

    Валидация и этические ограничения

    Любая модель, классифицирующая речь как патологическую, требует строгой валидации. Перекрёстная проверка (k-fold cross-validation) с — минимальное требование. Метрики качества должны включать не только accuracy, но и precision, recall и F1-score для каждого класса, поскольку дисбаланс классов (нормативных текстов всегда больше) может создавать иллюзию высокой точности.

    Этический аспект критичен: автоматическая классификация речи как патологической может приводить к стигматизации. Модель, ошибочно пометившая текст здорового человека как шизофазию, наносит реальный вред. Поэтому ни одна автоматизированная система не должна выносить финальное заключение — она может лишь маркировать тексты для последующего анализа специалистом.

    > Автоматизированный анализ патогенной речи — это не замена эксперта, а инструмент, расширяющий его возможности. Модель находит паттерны; человек интерпретирует их в контексте. > > T. Cummins et al., Automated Assessment of Speech in Psychopathology (2021)

    Практический кейс: анализ анонимного обращения

    Допустим, в распоряжении эксперта находится анонимное письмо объёмом 800 слов. Пайплайн выдаёт следующие результаты: MLU = 6,2 (снижено), TTR = 0,38 (норма), индекс персевераций = 0,22 (повышен), энтропия тематического распределения = 3,1 бит (высокая), коэффициент когезии = 0,18 (аномально высокий). Профиль указывает на сочетание синтаксического упрощения, стереотипии и тематической дезорганизации при формально сохранной когезии — классическая картина шизофазии. Эксперт проверяет заключение модели, анализирует конкретные примеры персевераций и тематических скачков, и формулирует вывод: «Текст с высокой вероятностью принадлежит лицу с расстройством шизофренического спектра».

    Именно так — от звуков к смыслам, от интуиции к метрикам, от ручного анализа к автоматизации — выглядит путь лингвистической экспертизы патогенной речи.