Вопрос или проблема
ЧАСТЬ A.
Загрузите файл weather.numeric.arff в WEKA. Этот набор данных содержит медицинскую и связанную со здоровьем информацию, часто используемую для задач классификации или регрессии. Используйте этот набор данных для пунктов 1-3.
-
Выберите правильное утверждение, которое описывает набор данных.
I. Количество записей равно 14, количество входных переменных равно 5, количество меток классов равно 1.
II. Количество записей равно 14, количество входных переменных равно 4, количество меток классов равно 2.
III. Атрибут «температура» имеет положительное смещение вправо, а «влажность» не показывает смещения данных.
IV. Атрибуты «температура» и «влажность» имеют положительное смещение вправо.
-
Перейдите на вкладку Визуализировать, чтобы изучить диаграмму рассеяния. Определите, какие из следующих утверждений ЛОЖНЫ.
I. Существует неясная корреляция между атрибутом «влажность» и атрибутом «температура».
II. Существует корреляция между атрибутом «влажность» и атрибутом «температура».
III. Когда класс равен ‘Да’, значения ‘ветреный’ могут быть ‘истинным’ или ‘ложным’. Таким образом, разные значения ветреного могут способствовать метке класса.
IV. Когда класс равен ‘Да’, значения ‘перспектива’ – ‘солнечный’ и ‘дождливый’. Таким образом, нет корреляции между любыми из атрибутов.
-
Примените подходящий фильтр, чтобы найти выбросы и экстремальные значения. Определите, какие из следующих утверждений ПРАВДИВЫ.
I. Выбросы и экстремальные значения не могут быть применены, потому что фильтр не может быть выбран.
II. Этапы: Предобработка >> Фильтр >> Неподконтрольный >> Атрибут >> Межквартильный диапазон >> Применить. Результат: нет выбросов и экстремальных значений в наборе данных.
III. Межквартильный диапазон можно использовать только для номинальных атрибутов.
IV. Когда экземпляры состоят из выбросов и экстремальных значений, экземпляры рекомендуется удалить из набора данных.
- Создайте модель простой линейной регрессии, используя числовые атрибуты. Используйте WEKA для генерации формулы модели. Выберите лучшие ответы.
I. Формула для оценки температуры: температура = 0.49 * температура + 45.36
II. Формула для оценки влажности: влажность = 0.49 * температура + 45.36
III. Формула для оценки температуры: температура = 0.2 * влажность + 57.14
IV. Формула для оценки влажности: влажность = 0.2 * влажность + 57.14
ЧАСТЬ B
Загрузите файл vote.arff в WEKA. Этот набор данных содержит записи голосования членов Палаты представителей США по различным законопроектам с двоичными значениями, указывающими на их голоса «да» или «нет». Используйте этот набор данных для пунктов 4-6.
- Исправьте пропущенные значения в наборе данных, выбрав правильные шаги. ОДИН ответ только. (2 балла)
a. Нет ответа.
b. Выберите фильтр>> неподконтрольный>> атрибут>> Заменить пропущенные значения и нажмите применить. Все атрибуты больше не будут содержать пропущенные значения.
c. Выберите фильтр>> неподконтрольный>> атрибут>> Заменить пропущенные значения и нажмите применить. Все входные атрибуты больше не будут содержать пропущенные значения.
d. В наборе данных нет пропущенных значений.
e. Выберите фильтр>> неподконтрольный>> атрибут>> Заменить пропущенные значения и нажмите применить. Все атрибуты больше не будут содержать пропущенные значения.
-
После завершения вопроса (4) наблюдайте атрибуты «безналоговые экспортные товары» и «расходы на образование» в наборе данных. Выберите ПРАВДИВОЕ утверждение.
I. После замены пропущенных значений, метка ‘n’ для атрибута «безналоговые экспортные товары» увеличилась на 28 записей.
II. После замены пропущенных значений, метка ‘n’ для атрибута «расходы на образование» увеличилась на 31 запись.
III. Оба двоичных атрибута имеют более 50% ответов ‘n’.
IV. Оба двоичных атрибута имеют более 50% ответов ‘y’.
-
Есть ли в наборе данных выбросы и экстремальные значения? Какое из утверждений правильное?
a. Нет ответа.
b. Этапы: Предобработка >> Фильтр >> Неподконтрольный >> Экземпляры >> Межквартильный диапазон >> Применить. Фильтр не может быть применен, из-за наличия только номинальных атрибутов в наборе данных.
c. Этапы: Предобработка >> Фильтр >> Неподконтрольный >> Атрибут >> Межквартильный диапазон >> Применить. В наборе данных 435 выбросов и экстремальных значений.
d. Выбросы и экстремальные значения не могут быть применены, потому что их нет.
e. Этапы: Предобработка >> Фильтр >> Неподконтрольный >> Атрибут >> Межквартильный диапазон >> Применить. В наборе данных нет выбросов и экстремальных значений.
Ответ или решение
К сожалению, я не могу просмотреть или проанализировать загруженные вами наборы данных в WEKA, так как у меня нет доступа к внешним файлам. Однако я могу помочь вам, объяснив общий процесс анализа данных и предлагая ответы на ваши вопросы на основе описания задач. Давайте рассмотрим ваши вопросы по порядку.
ЧАСТЬ A
1. Описание набора данных
Для правильного ответа на первый вопрос необходимо загрузить файлы .arff в WEKA и ознакомиться с метаданными. Ниже представлены потенциальные ответы на основе типичных наборов данных:
- I. Верное утверждение, если в наборе данных 14 записей, 5 переменных входа и 1 класс.
- II. Верное, если 14 записей, 4 переменные входа и 2 класса.
- III. Если распределение показателя «температура» положительно скошено вправо, а «влажность» – нормально распределена, это утвердительное.
- IV. Верно, если оба показателя положительно скошены вправо.
Скорее всего, правильный ответ зависит от анализа самих данных.
2. Корреляция между атрибутами
Для анализа корреляции используйте инструменты визуализации в WEKA.
- I. Вероятно, это утверждение может быть ложным, если визуализация показывает определённую корреляцию.
- II. Верное, если между «влажностью» и «температурой» действительно существует корреляция.
- III. Верное, если разные значения «ветреного» действительно могут повлиять на класс.
- IV. Вероятно, это ложное утверждение, если данные не показывают, что между атрибутами существует отсутствие корреляции.
3. Обнаружение аутлайеров
Для фильтрации аутлайеров:
- I. Верно только в случае, если фильтр недоступен.
- II. Верно, если после применения фильтра действительно не оказалось аутлайеров.
- III. Ложное, если InterquartileRange можно использовать только на числовых атрибутах.
- IV. Верно, если аутлайеры действительно целесообразно удалить.
4. Простая линейная регрессионная модель
Для этой задачи необходимо сгенерировать модель с помощью WEKA и проверить формулы:
- I. Ложное, так как формула не может быть написана в таком виде.
- II. Ложное, если формула не имеет смысла.
- III. Верно, если комбинация переменных приводит к правильной оценке.
- IV. Ложное, так как такие выражения не соответствует правилам регрессионного анализа.
ЧАСТЬ B
5. Устранение пропусков в данных
Правильный ответ:
- c. Верно, если выбрать фильтр "ReplaceMissingValues", то все пропуски будут заменены.
6. Анализ атрибутов “duty-free-exports” и “education-spending”
- I. Верно, если после фильтрации количество «n» увеличилось.
- II. Верно, если «education-spending» показывает увеличение репрезентативных данных.
- III. Верно, если у обоих атрибутов более 50% «n».
- IV. Ложно, если хотя бы один из атрибутов показывает подобное распределение.
7. Наличие аутлайеров и экстремальных значений
Правильный ответ:
- b. Если фильтр не может быть применен из-за номинальных атрибутов.
- c. Верно, если в наборе данных действительно 435 аутлайеров.
- d. Верно, если аутлайеры отсутствуют.
- e. Верно, если после применения фильтра не существует аутлайеров.
Заключение
Таким образом, анализ данных в WEKA требует внимательного обращения с набором данных и анализа атрибутов. Для более точных ответов обязательно загрузите данные в WEKA и внимательно рассмотрите графики, корреляции и результаты фильтрации. Если требуется дальнейшая помощь или если у вас есть другие вопросы, не стесняйтесь обращаться.