Главная /
Алгоритмы интеллектуальной обработки больших объемов данных
Алгоритмы интеллектуальной обработки больших объемов данных - ответы на тесты Интуит
В курсе изучаются подходы к решению задач Data Mining, основанных на алгоритмах машинного обучения.
Список вопросов:
- # Михаил получает на электронную почту в среднем 1000 писем в месяц, из них 2,44% - это спам. Известно, что среди спама слово "знакомство" встречается в 0,01% писем, а среди обычных писем в 10 раз реже. Какова вероятность того, что письмо, попавшее на почтовый ящик Михаила, в тексте которого встречается указанное слово, не является спамом? (Ответ укажите в целых процентах без знака процента.)
- # Выберите оптимальный параметр для следующей модели согласно принципу ML (Maximum Likelihood / Максимальное правдоподобие): "Вероятность того что идет дождь если есть тучи сильнее, чем вероятность того что идет дождь, если туч нет":
- # Дома на четной стороне улицы имеют номера 2, 4, 6, … . Номер дома – это признак:
- # Недостаток алгоритма Expectation Maximization (EM) заключается в следующем:
- # Какому этапу CRISP-DM соответствует Exploratory data analysis:
- # На практике, более какого числа раз имеет смысл проводить запуск алгоритма K-means ?
- # Выберите лишний этап методологии CRISP-DM:
- # Пример задачи эффекта "проклятие размерности". Даны два случайных вектора x и y в пространстве размерности D. Как зависит математическое ожидание косинус-расстояния между x и y от размерности D, при наблюдениях, что числитель стремится к нулю, а знаменатель положительный ? Ответ укажите с точность до 2-го знака после запятой.
- # Данные какой размерности представлены на данном графике? [Большая Картинка]
- # Какие проблемы решают задачи кластеризации, отыскивая "скрытую структуру" исследуемых данных и не имея опорной целевой переменной?
- # Что из перечисленного является средством EDA?
- # Подходы к построению моделей Data Mining
- # Для преобразования многомерного пространства в пространство низшей размерности и формирования малого количества признаков из большого количества признаков следует использовать следующий алгоритм:
- # На диаграмме процесса CRISP-DM после этапа Моделирование (Modeling) следует этап
- # Какие характерные активности этапа подготовки данных (Data Preparation) для процесса CRISP-DM
- # Дан единичный квадрат с координатами вершин (0;0), (0;1), (1;1), (1;0). При этом первая и третья вершины относятся к классу "-1", а вторая и четвертая – "1". Требуется построить классификатор, получающий на входе координату вершины, а на выходе дающий метку класса (задача XOR). Функция потерь определяется числом неправильно классифицированных вершин с учетом их веса. В результате применения алгоритма AdaBoost были построены три модели со следующими разделяющими границами: (1) прямая, проходящая через точки (1/2;0) и (0;1/2), (2) прямая, проходящая через точки (1/2;1) и (1;1/2), (3) прямая, проходящая через точки (1/2;1) и (0;1/2). Изначально веса вершин одинаковы и равны 1/4, далее они пересчитываются в соответствии с алгоритмом. Укажите получившиеся веса первой, второй и третьей модели соответственно:
- # Укажите достоинства алгоритма AdaBoots:
- # Дан единичный квадрат с координатами вершин (0;0), (0;1), (1;1), (1;0). При этом первая и третья вершины относятся к классу "-1", а вторая и четвертая – "1". Требуется построить классификатор, получающий на входе координату вершины, а на выходе дающий метку класса (задача XOR). Применим алгоритм градиентного бустинга (gradient boosting) с функцией потерь L(y,h)=(1/2)*(y-h)^2. Очевидно, h0(x)=const=0. Далее, выбираем в качестве a1 функцию, равную -1 левее разделяющей границы, проходящей через точки (1/2;0) и (0;1/2), и 1 в противном случае. Найдите b1 – вес функции a1 с точностью до одного знака после запятой.
- # Что следует предпринять, если функция, которую стараемся оптимизировать, не дифференцируема?
- # Дан единичный квадрат с координатами вершин (0;0), (0;1), (1;1), (1;0). При этом первая и третья вершины относятся к классу "-1", а вторая и четвертая – "1". Требуется построить классификатор, получающий на входе координату вершины, а на выходе дающий метку класса (задача XOR). Применим алгоритм градиентного бустинга (gradient boosting) с функцией потерь L(y,h)=ln(1+exp(-2*y*h)). Очевидно, h0(x)=const=0. Далее, выбираем в качестве a1 функцию, равную -1 левее разделяющей границы, проходящей через точки (1/2;0) и (0;1/2), и 1 в противном случае. Найдите итоговый коэффициент перед функцией a1 с учетом коэффициента регуляризации (shrinkage) 0,55.
- # В чем состоят ключевые идеи бустинга ?
- # Выберите верное утверждение
- # Факты об алгоритме бустинга. При нулевой ошибке на обучающей выборке, количество ошибок на тестовой выборке ?
- # Укажите основные преимущества алгоритма адаптивного бустинга
- # Выберете верное утверждение про алгоритмы бустинга :
- # Выберите верные утверждения
- # Укажите метод, который одновременно уменьшает смещение и дисперсию
- # Можно ли использовать в качестве базовых моделей линайную регрессию для алгоритма AdaBoots?
- # Укажите не верное высказывание про алгоритм AdaBoost
- # Что из указанного работает лучше для больших обучающих выборок в ситуациях когда в данных имеются сложные зависимости
- # Укажите минимальное количество скрытых слоев многослойного персептрона и нейронов в них, которое достаточно для построения равномерной аппроксимации с заданной точностью для любого обучающего множества, представленного набором m>1 входов и желаемого отклика f.
- # Напишите максимальное количество скрытых слоев, которое можно обучить согласно алгоритму обратного распространения
- # Нейрон i получает входной сигнал только от трех других нейронов с выходными сигналами 1, 2, -3 по связям с весами 0,3, 0,4, 0,5 соответственно. Смещение нейрона i равно 0,2. Функция активации нейрона i – логистическая функция с параметром a=1. Найдите выходной сигнал нейрона i с точностью до двух знаков после запятой.
- # Что является задачей функции активации?
- # Нейрон i в скрытом слое получает входной сигнал только от трех других нейронов i1, i2, i3 с выходными сигналами 1, 2, -3 по связям с весами 0,3, 0,4, 0,5 соответственно и по связи с весом 0,5 отдает выходной сигнал только нейрону j в выходном слое с выходным сигналом 0,8. Смещение нейронов равно нулю. Функция активации у всех нейронов – логистическая функция с параметром a=1. Желаемый отклик нейрона j равен 0,7. Пользуясь алгоритмом обратного распространения ошибки (back propagation) – градиентного спуска с параметром скорости обучения 0,5 и с функцией стоимости в виде среднеквадратичной ошибки, найдите вес связи между нейронами i3 и i после первой итерации с точностью до трех знаков после запятой.
- # Для задачи функции активации - ограничить амплитуду выходного значения нейрона, чаще всего используется сигмоидальная (S-образная) функция(и) ?
- # Сколько скрытых слоев Вы видите в данной нейронной сети? [Большая Картинка]
- # Что можно сказать о нейронах в мозгу человека ?
- # В чем задача функции активации?
- # Нейроансамбль - это ?
- # Какая функция активации применяется наиболее удобна для описания выходного сигнала нейрона?
- # Сколько скрытых слоев нейронов применяют в реальной практике в соответствии с обычным алгоритмом обратного распространения ошибки
- # Слой нейронной сети – это:
- # Что является задачей функции активации
- # Какой из режимов обучения для "Ограниченной машины больцмана" будет самым точным и давать истинный градиент?
- # Дан отрезок, четко "раскрашенный" слева на 4/7 черным цветом, а справа на 3/7 – белым, что можно представить в виде вектора (1;1;1;1;-1;-1;-1). Чтобы запомнить этот "правильный" образ, обучается нейронная сеть Хопфилда с семью нейронами (возможные состояния нейронов 1/-1, порог нулевой), где указанный вектор подается как образец (обучающий пример). В качестве тестового образца подадим на вход обученной нейронной сети черно-белый отрезок с "размытой" границей (1;1;1;-1;1;-1;-1). Проверьте, сможет ли обученная нейронная сеть проигнорировать испорченный участок и восстановить исходный отрезок:
- # Укажите достоинства машины Боцмана:
- # Имеется стохастическая нейронная сеть машина Больцмана (Boltzmann machine - BM) с возможными состояниями нейронов 1/0. В некоторый фиксированный момент рассмотрим нейрон из скрытого слоя i, связанный только с нейронами i1, i2, i3, имеющими состояния 1, 1, 0 соответственно. Веса связей нейрона i с нейронами i1, i2, i3 равны 0,4, -0,3, 0,2 соответственно. Смещение нейрона i равно 0,5. Найдите, во сколько раз вероятность включения нейрона i P(i=1) выше при температуре T=1, чем при температуре T=10. Ответ укажите с точностью до двух знаков после запятой:
- # Сети с обратными связями – это
- # Имеется стохастическая нейронная сеть ограниченная машина Больцмана (restricted Boltzmann machine - RBM) с возможными состояниями нейронов 1/0. Рассмотрим видимый нейрон i с состоянием Vi и скрытый нейрон j с состоянием Hj. Для определения изменения весов применим алгоритм Contrastive Divergence. Найдено следующее соответствие состояний нейронов для 6 моментов времени. t=0: Vi=0, Hj=1; t=1: Vi=1, Hj=1; t=2: Vi=0, Hj=1; t=3: Vi=1, Hj=1; t=4: Vi=0, Hj=0; t=5: Vi=1, Hj=1. Постройте 2 статистики для вычисления математических ожиданий произведений состояний нейронов i и j: одна из них (позитивная фаза) является средним из 6 чисел, другая (негативная фаза) - из 5. Найдите величину необходимого изменения веса связи между нейронами i и j, если параметр скорости обучения равен 0,4. Ответ укажите с точностью до двух знаков после запятой:
- # Какое утверждение можно отнести к первому правилу Хебба ?
- # Укажите пропущенные слова в первом правиле Хебба: "Если два нейрона по разные стороны от синапсов активируются …, то "вес" синапса … "
- # Машина Больцмана представляет из себя полносвязный неориентированный граф, где ?
- # Продолжите фразу "Машина Больцмана - стохастический генеративный…"
- # В чем состоит основная идея обучения алгоритма Contrastive Divergence?
- # Что из этого не нужно сэмплировать: скрытый слой, видимой слой, значения скрытого слоя, значения видимого слоя
- # Для чего используется логарифм правдоподобия Бернулли?
- # На картине ниже представлена схема: [Большая Картинка]
- # Выберете не верное высказывание характеризующее машину Больцмана?
- # Выберете верное высказывание, характеризующее семплирование по Гиббсу?
- # Рассмотрим многослойный персептрон, состоящий из вытянутых в линейную цепочку 10 нейронов (один из них входной, один выходной, а 8 образуют 8 скрытых слоев). Для коррекции весов используется алгоритм обратного распространения ошибки (back propagation). Функция ошибки среднеквадратическая. Значения весов и ошибка на выходе не превышают по модулю единицы. Выберите, при каких значениях сигнала на входе градиент на входе может превысить 0,0001.
- # Особенностью паралича сети является:
- # Сколько слоев может обработать одна ограниченная машина Больцмана (restricted Boltzmann machine - RBM)?
- # Ошибкой обучения нейронной сети называется:
- # Выберите верные утверждения:
- # Согласно стандартной модели зрительной коры головного мозга, считается что?
- # Как можно решить проблему паралича сети?
- # Решением проблемы паралича сети могут быть следующие идеи.
- # Выберите верное утверждение
- # Жадный алгоритм предобучения включает этапы ?
- # Зачем нужен backprop?
- # Выберете верное высказывание, характеризующее паралич сети для Backprop?
- # Напишите название типа нейронной сети, представленной на схеме ниже: "Это ___ нейросеть с общими весами во времени" [Большая Картинка]
- # Весь процесс обучения глубокой сети можно свести к процессу?
- # Тип нейросетей которые на данный момент доминируют во всем компьютерном зрении?
- # N-мерное нормальное распределение имеет количество параметров порядка
- # Дендрограмма формируется как результат работы:
- # Суть алгоритма Expectation-Maximization:
- # Укажите недостатки DBSCAN (возможен выбор нескольких вариантов):
- # На плоскости даны 8 точек с координатами A(1;1), B(2;2), C(2;4), D(3;3), E(4;2), F(4;4), G(5;5), H(6;6). Изначально центроиды находятся в точках (1;3), (6;4). Применив алгоритм 2-средних с евклидовой метрикой, определите точки, принадлежащие тому же кластеру, что и точка A, при достижении стационарного состояния.
- # При больших наборах данных MAP, какой из алгоритмов (мaximum likelihood, maximum a posteriori) будет эффективнее при условии нахождении глобальных максимумов?
- # Основная задача кластеризации:
- # Выберите составляющие шаги для агломеративного подхода в иерархической кластеризации?
- # Укажите этапы EM-алгоритма?
- # Для использования алгоритмов иерархической кластеризации текста, какие подходы существуют для выбора "типичного" представителя - кластроида в каждом из кластеров ?
- # Как называется данный граф? [Большая Картинка]
- # Назовите причины использования алгоритмов кластеризации.
- # Напишите название подхода иерархической кластеризации, при использовании которого перед началом кластеризации все объекты считаются отдельными кластерами, а затем, в ходе алгоритма, объединяются.
- # Выберите алгоритмы которые решают задачи кластеризации
- # Решение проблемы чувствительности функции расстояния к преобразованиям в данных
- # На электронную почту пришло письмо. Пусть X – бинарный признак, указывающий, содержит входящее письмо сочетание слов "вам оставили наследство" (=1), или нет(=0), а Y – класс письма, указывающий, спам это (=1), или нет (=0). Известно, что P(Y=1)=0,05, P(X=1|Y=1)=0,0001, P(X=1|Y=0)=0,00001, и в письме присутствует указанное словосочетание. Каким решающим правилом нужно воспользоваться – максимального правдоподобия (ML) или апостериорного максимума (MAP), чтобы определить, пришедшее письмо – спам или нет:
- # Укажите достоинства иерархической кластеризации:
- # На плоскости даны 6 точек с координатами A(1;1), B(2;2), C(3;2), D(3;4), E(4;5), F(5;4). Осуществите алгоритм иерархической агломеративной кластеризации. Расстояние между кластерами определите как полную связь (complete linkage). Определите точку, объединившуюся последней:
- # Выберите ситуацию, при кластеризации которой, НЕ используется метод DBSCAN:
- # На плоскости даны 6 точек с координатами A(1;1), B(2;2), C(3;2), D(3;4), E(4;5), F(5;4). Осуществите алгоритм иерархической агломеративной кластеризации вплоть до момента, когда сформируются два кластера (два кластера объединять в один уже не нужно). Расстояние между кластерами определите как полную связь (complete linkage). Вычислите средний силуэт (silhouette) для всех 6 точек, используя евклидову метрику, с точностью до одного знака после запятой:
- # При больших наборах данных MAP, какой из алгоритмов (мaximum likelihood, maximum a posteriori) будет эффективнее при условии нахождении глобальных максимумов?
- # Какие подходы иерархической кластеризации вы знаете?
- # Выберите составляющие шаги для агломеративного подхода в иерархической кластеризации ?
- # Основной минус иерархической кластеризации
- # Для использования алгоритмов иерархической кластеризации текста, какие подходы существуют для выбора "типичного" представителя - кластроида в каждом из кластеров ?
- # На чем основана кластеризация DBSCAN?
- # При каких условиях подход Maximum a posteriori (MAP) выигрывает перед Maximum Likelihood (ML)
- # Иерархические дивизимные методы характеризуются следующим:
- # Назовите основные подходы иерархической кластеризации
- # Назовите основные плюсы иерархической кластеризации
- # В городе N живет 1000 человек, из них 100 мошенников. За год осудили за мошенничество 80 человек, из них на самом деле реальных мошенников было 70 человек. Вычислите следующие три метрики качества борьбы с мошенничеством в городе N: верность (accuracy), полноту (recall) и точность (precision). В качестве ответа напишите среднее арифметическое трех указанных метрик с точностью до трех знаков после запятой:
- # Выберите вариант, НЕ являющийся преимуществом вероятностных моделей
- # Дана случайная величина X, принимающая 2 значения с равными вероятностями 1/2 и случайная величина Y, принимающая 8 значений с равными вероятностями 1/8. Вычислите разность между энтропией случайной величины Y и энтропией случайной величины X с точностью до целых:
- # Основной смысл теоремы "No free lunch theorem" заключается в следующем Есть модель, которая является оптимальной для решений всех задач:
- # Дано исследование самоощущения собственного материального положения среди 200 человек. 100 из них оценили свое материальное положение как "ниже среднего" ("нс"), другие 100 - как "выше среднего" ("вс"). Также эти 200 человек ответили на вопросы о наличии у них дачи, автомобиля и детей. Дача – есть/нет. Дача есть: "нс" - 35 человек, "вс" – 75 человек. Автомобиль – есть/нет. Автомобиль есть: "нс" – 20 человек, "вс" – 70 человек. Дети - нет/1/больше 1. Нет детей: "нс" - 20 человек, "вс" – 40 человек; 1 ребенок: "нс" – 50 человек, "вс" – 50 человек. Требуется построить дерево по алгоритму CART, нечистота (impurity) вычисляется по Джини. Расположите признаки в порядке убывания по качеству разбиения в корне дерева:
- # Уважите преимущества вероятностных моделей (дискриминативные и генеративная модели ) ?
- # Что из этого является видом модели классификации?
- # Для оценки "натренированной" модели на эффективность ее применения, используется тестирование на независимой выборке. Какой из алгоритмов проверки "тренируется" на всем количестве данных, при условии многократного повторения?
- # О чем говорит no free lunch theorem?
- # Версия какого алгоритма для построения деревьев решений использует числовые признаки как в CART, а номинальные - как в ID3 ? Ответ укажите с точность до целого значения.
- # Что изображено на рисунке? [Большая Картинка]
- # Назовите типы моделей классификации в порядке убывания сложности
- # Вычислить наилучшее бинарное разделение корневого узла по одному признаку, пользуясь gini impurity: [Большая Картинка]
- # Назовите плюсы использования вероятностных моделей против функций решений
- # В обобщенной формуле обучения модели learning= representation +Evaluation+ optimization критериями Evaluation являются
- # В некотором языке четвертое по частоте использования слово встречается в два раза реже второго по частоте, а третье по частоте использования имеет частоту, на 0,04 меньше первого по частоте. Используя закон Ципфа (Zipf’s law), вычислите частоту использования десятого по частоте использования слова с точностью до трех знаков после запятой:
- # Напишите название этапа обработки текста, скрытого на схеме ниже [Большая Картинка]
- # В документе d слово "кластер" встречается с частотой TF("кластер",d)=0,0125. Мы имеем возможность программным образом изучить миллион документов, и выяснить, что указанное слово встречается только в 100 из них. Вычислите TF-IDF слова "кластер" в документе d с точностью до двух знаков после запятой:
- # Все переменные являются одинаково важными и статистически независимыми, т.е. значение одной переменной ничего не говорит о значении другой. Это свойства:
- # На электронную почту пришло два подозрительных письма, одно из них (A) содержало слово "лотерея", второе (B) – слова "лекарство" и "похудение". Дано, что спам составляет 3% писем, доля писем, где встречается слово "лотерея": спам - 0,04%, не спам – 0,01%; слово "лекарство": спам - 0,02%, не спам – 0,01%; слово "похудение": спам - 0,01%, не спам - 0,0005%. Пользуясь наивным байесовским классификатором (Naive Bayes) с правдоподобием Бернулли (BernoulliNB), определить, какие из полученных писем являются спамом.
- # В задачах Text Mining, при извлечения очевидной информации, основные трудности для "машины" представляют ?
- # В результате действия чего из знаменитой фразы "to be or not to be" может удалиться все содержимое?
- # При обработке текстов, укажите подходы для приведения токенов к единому виду, чтобы избавиться от поверхностной разницы в написании ?
- # Укажите преимущества байесовского классификатора.
- # Назовите преимущества "наивного Байесовского классификатора" ?
- # Что такое токенизация в обработке текстов?
- # Какие задачи может решать Text Mining
- # Укажите тип информации, извлечение которой осуществляется в Data Mining:
- # На диаграмме "Этапы обработки текста" этап токенизации идет следом за этапом…
- # Укажите основные плюсы использования Naive Bayes
- # Для 9 значений количественного признака X 0; 1; 2; 3; 4; 5; 6; 7; 8 даны соответствующие значения Y: 4,06; 3,05; 3,93; 6,96; 12,05; 18,92; 28,03; 39,02; 51,98. Найдите линейную регрессию с базисными функциями 1, x, x^2 и квадратичной функцией потерь, применяя регуляризацию с коэффициентом 0,01 и q=2 (ridge регрессия). В качестве ответа напишите получившийся вес при базисной функции x^2 с точностью до одного знака после запятой:
- # Основный принцип, который используется в машинном обучении – это принцип:
- # Имеются бактерии с двумя количественными признаками x1, x2, строится логистическая регрессия для определения вероятности, с которой бактерии относятся к одному из двух классов (видов) - y1 или y2. Предполагается нормальное распределение условных вероятностей, соответственно модель получается линейной, и p(y1|x)=1/(1+exp(-(w1*x1+w2*x2+w0))). В результате обучения были найдены следующие значения: w0=1, w1=3, w2=-4. Найдите, с какой вероятностью бактерия с признаками x1=1, x2=1 относится ко второму классу. Ответ укажите с точностью до одного знака после запятой:
- # Напишите название регрессии, используемой для предсказания вероятности возникновения некоторого события путём подгонки данных к логистической кривой
- # Уравнение разделяющей гиперплоскости в пятимерном пространстве признаков имеет вид: x1+2*x2+3*x3+4*x4+5*x5=6. Найдите евклидово расстояние от разделяющей гиперплоскости до начала координат. Ответ укажите с точностью до одного знака после запятой:
- # По скольким параметрам определяется вид цветка ириса для набора данных в задаче Фишера ?
- # В модели линейной регрессии h(x,w) чем является w?
- # Идея линейного классификатора определяется тем, что признаковое пространство может быть разделено гиперплоскостью на полупространства, в каждом из которых прогнозируется одно из двух значений целевого класса (линейная разделимость). Укажите число полупространств.
- # Выберите верное утверждение.
- # Принцип Maximum Likelihood . Функция правдоподобия . Максимизируя , в результате имеем одну из составляющих ?
- # Объект 1 находится выше функции принятия решений, объект 2 - ниже функции принятия решений. Выберите верное утверждение.
- # С помощью какого принципа можно справляться с переобучением методом ограничения весов
- # В формуле линейной модели "W" означает следующее
- # Назовите основные виды регуляризации
- # Какие значения q соответствуют контурам функции регуляризации [Большая Картинка]
- # Даны три обучающих примера (x1,x2): (0;4), (0;-4), (4;-4), первый относится к классу "1", второй и третий – к классу "-1". Постройте решающую границу методом опорных векторов (SVM). В качестве тестовых возьмите примеры A(-1;-1), B(-1;1), C(1;1), D(1;-1), первые два относятся к классу "-1", вторые два – к "1". Укажите, какие тестовые примеры подтверждают решающую границу.
- # Напишите название теоремы, с помощью которой можно установить, что выбранная функция является функцией ядра
- # Даны 6 обучающих примеров (x1,x2): (3;2), (2;6), (4;8), (3;6), (6;2), (6;4), первые три относятся к классу "1", оставшиеся – к классу "-1". Постройте решающую границу методом опорных векторов (SVM) со смягчением границ с константой регуляризации С=0,5. В качестве ответа укажите вторую компоненту получившегося вектора весов с точностью до трех знаков после запятой:
- # Выберите особенность SVM, о которой говорится ниже: SVM оптимизирует квадратичную функцию, которая является вогнутой и её максимум существует только один:
- # Рассмотрим полиномиальное ядро второй степени с константой и двумерное пространство входов. Сколько измерений в результирующем пространстве признаков, суммарно линейных и квадратичных? (Напишите ответ в виде целого числа.)
- # Максимальный зазор между классами Margin - это ?
- # Чему равно расстояние между разделяющей поверхностью и объектом?
- # Преимущества SVM?
- # Выберите верные свойства функции, присущие функции ядра
- # Недостатки SVM?
- # Укажите плюсы метода опорных векторов
- # Какое из предложенных решений соответствует рисункам, когда мы ограничены только линейными классификаторами? [Большая Картинка]
- # Класс алгоритмов, являющийся элегантной идей по построению разделяющей поверхности, а также осуществляющий переход в новое пространство значительно дешевле, чем вычисление всех обучающие объектов в новом пространстве напрямую:
- # В теореме Мерсера функция k(x;z) является ядром тогда и только тогда, когда она…
- # Плюсы использования алгоритма SVM
- # Даны четыре примера (наблюдения) в трехмерном пространстве признаков: A(1;4;10), B(2;5;6), C(1;3;8) и D(2;4;8). В результате применения метода главных компонент исходное пространство признаков свели к двумерному пространству признаков на плоскости. Какую часть общей дисперсии сохранило редуцированное пространство? Ответ укажите с точностью до трех знаков после запятой:
- # Даны четыре примера (наблюдения) в трехмерном пространстве признаков: A(1;4;10), B(2;5;6), C(1;3;8) и D(2;4;8). В результате применения метода главных компонент исходное пространство признаков свели к двумерному пространству признаков на плоскости. Найдите евклидово расстояние между примерами C и D в редуцированном пространстве с точностью до одного знака после запятой:
- # Дан единичный интервал [0,1]. Сколько равномерно разбросанных точек будет достаточно, чтобы покрыть этот интервал с частотой не менее 0,01?
- # Даны четыре примера (наблюдения) в трехмерном пространстве признаков: A(1;4;10), B(2;5;6), C(1;3;8) и D(2;4;8), при этом известно, что первый и третий примеры относятся к классу "1", а второй и четвертый – к классу "0". Проведите процедуру отбора признаков (feature selection) методом minimum redundancy maximum relevance (mRMR), используя логарифм по основанию 2. Укажите, какие признаки нужно оставить:
- # Какая мотивация для сдерживания размерности признакового описания данных?
- # Укажите два основных подхода к снижению размерности.
- # Какова идея метода главных компонент?
- # Укажите верное утверждение
- # Каковы недостатки метода главных компонент?
- # Если в сети автоэнкодера находится всего один скрытый слой, то чему будет эквивалентен результат?
- # Что может служить мотивацией для снижения размерности пространства
- # Выберите сферы применения PCA
- # Укажите достоинство использования PCA
- # Выберите неверное высказывание при использовании "Жадных алгоритмов отбора признаков"
- # Для 10 значений количественного признака X 1; 2; 3; 4; 5; 6; 7; 8; 9; 10 даны соответствующие значения Y: 2,5; 3,1; 0,4; -2,3; -3,2; -0,8; 2,0; 3,0; 1,2; -2,0. Функция регрессии ищется в виде Y=A*sin(X), A=3,174 (квадратичная функция потерь). Для более стабильного результата был применен алгоритм бэггинга (bagging). С помощью датчика случайных чисел были сделаны четыре выборки из указанных 10 примеров с возвращением (указаны только значения X): {1; 1; 2; 3; 4; 6; 8; 8; 10; 10}, {2; 2; 3; 4; 5; 7; 7; 8; 9; 10}, {1; 3; 3; 3; 6; 6; 7; 8; 8; 9}, {4; 4; 4; 5; 5; 5; 6; 9; 9; 9}. Для каждой из четырех выборок вычислите коэффициент A при sin (X) с квадратичной функцией потерь. В качестве ответа укажите среднее арифметическое этих четырех значений с точностью до двух знаков после запятой.
- # Укажите играть в гольф на открытой площадке или нет, основываясь на дерево решений ниже [Большая Картинка]
- # Даны четыре примера (наблюдения) в трехмерном пространстве признаков: A(1;4;10), B(2;5;6), C(1;3;8) и D(2;4;8), при этом известно, что первый и третий примеры относятся к классу "1", а второй и четвертый – к классу "0". Для обучения на данных примерах применяется метод случайных подпространств (RSM, random subspace method). Случайным образом были выбраны 5 различных двумерных наборов признаков: (1;4;-), (2;-;6), (-;3;8), (2;4;-), (2;-;8). Принадлежность к классу определяется голосованием – числом наборов, которые относят тот или иной пример к определенному классу. Сколько наборов относят тестовый пример E(2;4;6) к классу "0"? (Напишите ответ в виде целого числа.)
- # В синхронных нейронных сетях в каждый момент времени свое состояние меняет
- # Даны четыре примера (наблюдения) в трехмерном пространстве признаков: A(1;4;10), B(2;5;6), C(1;3;8) и D(2;4;8), при этом известно, что первый и третий примеры относятся к классу "1", а второй и четвертый – к классу "0". Для обучения на данных примерах применяется алгоритм случайный лес (random forest). Случайным образом были выбраны 5 наборов примеров и признаков: (1) пример 1 (признаки 1,2) + пример 2 (признаки 1,3); (2) пример 3 (признаки 2,3) + пример 4 (признак 1); (3) пример 2 (признаки 1,2,3) + пример 3 (признак 1); (4) пример 1 (признаки 1,3) + пример 2 (признак 1) + пример 3 (признак 3); (5) пример 1 (признаки 2,3) + пример 4 (признаки 2,3). Для этих пяти наборов были построены соответственно пять деревьев по алгоритму CART, нечистота (impurity) вычислялась по Джини. Принадлежность к классу определяется голосованием – числом деревьев, которые отнесли тот или иной пример к определенному классу. Сколько деревьев отнесут тестовый пример F(2;3;6) к классу "0"? (Напишите ответ в виде целого числа.)
- # Где лучшая область применения нейронных сетей ?
- # Что Вы видите на данном графике? [Большая Картинка]
- # Где лучшая область применения ансамблей деревьев решений ?
- # Укажите основные подходы к построению стохастических методов:
- # Назовите основные недостатки алгоритма Random Forest ?
- # Укажите отрицательные стороны алгоритма Random Forest
- # Выберите неверное высказывание про нейронные сети в сравнении с алгоритмическими композициям
- # Если зависимая переменная принимает непрерывные значения, то дерево решений решает задачу:
- # Физический смысл соотношения между большим смещением и маленькой дисперсией характеризуется
- # Укажите не верное выражение характеристики использования алгоритма RandomForest