ИИ-система CoDaS ускорила поиск биомаркеров по данным с носимых устройств

Группа исследователей, включая специалистов Google, разработала мультиагентную систему на основе больших языковых моделей — CoDaS (AI Co-Data-Scientist), предназначенную для автоматизации поиска цифровых биомаркеров. Анализируя данные с носимых устройств (фитнес-трекеров и смартфонов) 9 279 участников, система самостоятельно сгенерировала и проверила 66 потенциальных биомаркеров психического и метаболического здоровья, показав небольшое, но устойчивое улучшение прогностических моделей.

ИИ-система CoDaS ускорила поиск биомаркеров по данным с носимых устройств

CoDaS автоматизирует основные этапы научного поиска: от анализа данных и генерации гипотез до статистической проверки и обобщения результатов. Архитектура системы включает несколько специализированных «агентов», которые имитируют работу научной группы: одни отвечают за статистический анализ, другие — за проверку гипотез на противоречия (включая «состязательную» валидацию), третьи — за поиск литературы и физиологическую интерпретацию. Главная особенность — сохранение контроля со стороны человека-эксперта, который может вмешиваться на определенных этапах.

Эффективность CoDaS оценили на трех наборах данных с общим числом наблюдений около 9 300 участников в области психического здоровья и метаболических нарушений.

Система выявила 41 потенциальный биомаркер, связанный с психическим здоровьем (например, вариабельность продолжительности сна и использование соцсетов ночью коррелировали с уровнем депрессии), и 25 кандидатов для метаболических исходов (включая индекс кардиореспираторной выносливости, связанный с инсулинорезистентностью). Все кандидаты проходили многоступенчатую проверку на воспроизводимость, устойчивость и устойчивость к ложным корреляциям.

Добавление биомаркеров, найденных CoDaS, к стандартным демографическим данным (возраст, пол) повысило точность прогнозов на 4% для моделей депрессии и на 2,1% — для моделей инсулинорезистентности. Эти улучшения небольшие, но устойчивые, то есть не случайны и воспроизводятся на разных выборках данных.

Разработка демонстрирует подход к систематическому, документируемому и масштабируемому поиску физиологически интерпретируемых биомаркеров в больших массивах данных, собранных носимой электроникой. При этом авторы подчеркивают, что все полученные результаты являются гипотетическими и требуют дальнейшей валидации в независимых проспективных исследованиях.

Что будем искать? Например,ChatGPT

Мы в социальных сетях