Выявление болезни Альцгеймера по речи пациента с помощью ИИ
Искусственный интеллект — не только голосовые ассистенты и роботы-художники. Сегодня машинное обучение готово приносить пользу всему человечеству, сохраняя здоровье людей. Компания REG.RU открывает цикл статей о вычислительных методах диагностики и лечении различных заболеваний.
Болезнь Альцгеймера (БА) — нейродегеративное заболевание, которым страдают десятки миллионов пожилых людей во всём мире. Только в США ежегодные расходы на лечение этой болезни составляют до 290 миллиардов долларов. Разработка и применение методов выявления БА по речи человека полностью возложены на опытных врачей. Облегчить им задачу могут стандартные технологии машинного обучения, которые применяются для обнаружения скрытых пространств (latent spaces) в данных. Предлагаем вам ознакомиться с переводом статьи о разработке метода выявления этой болезни.
Описание проблемы и задачи
Основная цель — научиться анализировать фразы, сказанные пациентом, и выделять из них особые признаки, указывающие на присутствие болезни. Признаки отдельных слов состоят из семантической, морфологической и синтаксической информации. Задача тематического моделирования (тематизации) — вместе с этими признаками обнаружить также скрытые семантические структуры. Раньше для решения этой проблемы применялся сложный метод обширного преобразования признаков (extensive feature engineering, EFE). Но современные алгоритмы машинного обучения могут обнаруживать скрытые пространства в данных без применения EFE.
В основе разработанной модели лежит Латентное размещение Дирихле (Latent Dirichlet allocation, LDA). Оно использует статистику наборов слов (bag-of-words) и позволяет определить тематику текстов на основе скрытых переменных. В LDA каждый документ рассматривается как распределение вероятностей по темам, а каждая тема — распределение вероятностей по всем словам в словаре. Предполагается, что оба в качестве априори имеют распределение Дирихле.
Для семантического анализа слов существует программный инструмент word2vec, который основан на векторном представлении слов и дистрибутивной семантике. Авторы предположили, что создание гибрида моделей LDA и word2vec позволит выявлять отличительные признаки речи при заболевании Альцгеймера. Было создано три новых варианта гибридных моделей. Общий принцип их работы заключается в следующем: сначала исследуется тематическое распределение слов в модели LDA, а затем полученная информация включается в модель word2vec в процессе её обучения.
Модели обучаются на стандартных датасетах, и после этого применяются для классификации медицинских данных. Такая архитектура может применяться и для других проблем классификации текста, а не только для выявления БА.
Цели проекта состоят в следующем:
- эффективно дополнить word2vec латентным размещением Дирихле для классификации;
- повысить точность выявления болезни с помощью автоматических методов.
Подробнее
www.reg.ru/blog/detection-of-alzheimers-disease-by-the-patients-speech-with-ai/
0 комментариев
Вставка изображения
Оставить комментарий