Вопрос или проблема
Я хотел бы использовать Orange для создания модели, которая позволит мне предсказать будущие скорости WiFi, используя среднюю квартальную скорость WiFi за последние несколько лет. Наборы данных, которые я использую, включают среднюю скорость загрузки, скорость скачивания и задержку в миллисекундах для каждой страны. Мой проект требует использования трех различных моделей. Я выбрал линейную регрессию, kNN и нейронную сеть. Как мне создать эту модель?
Создание этих моделей должно быть довольно простым. Однако, у вас могут не быть хороших результатов с линейной регрессией, потому что такие данные обычно слишком сложны для линейного представления. Вы можете предпочесть логистическую регрессию с более коротким временным интервалом, начав с одной характеристики.
Рекомендую использовать ARIMA, так как это может быть хорошим предсказателем в данном случае. Поэтому вам нужно будет установить надстройку Time-Series (см. опции, надстройки).
Смотрите также: http://dbfriend.blogspot.com/2021/03/time-series-forecasting-in-orange.html
Имейте в виду, что Orange очень полезен для хороших предсказаний данных, но существуют лучшие предсказательные модели на Python (мультимодульный LSTM, Prophet и т. д.).
https://medium.com/mlearning-ai/multivariate-time-series-forecasting-using-fbprophet-66147f049e66
Предсказание набора данных в будущем в Orange невозможно с использованием контролируемого машинного обучения (и я не нашел полезной информации о том, как предсказывать/прогнозировать с помощью неконтролируемого машинного обучения в Orange). Еще один большой недостаток — это функция поиска Grid для настройки формы нейронной сети и гиперпараметров. По сути, вы ограничены столбцом целевой переменной, который нельзя превышать. Orange — это хороший инструмент, но крайне ограничен только для анализа уже известных данных и, как таковой, требует серьезного “обновления”. Вместо этого используйте JASP с функцией “Добавить предсказание данных” (которой нет в Orange), и у вас также есть встроенный Prophet в версии 18. Но JASP использует R, а Orange использует Python.
Ответ или решение
Чтобы создать модель предсказания будущей скорости Wi-Fi с использованием Orange, выполните следующие шаги, учитывая, что вы будете использовать три разных модели: линейная регрессия, kNN и нейронная сеть. Изучите каждый шаг ниже, чтобы добиться наилучших результатов.
Шаг 1: Подготовка данных
-
Сбора данных: Убедитесь, что у вас есть исторические данные о средней скорости загрузки, выгрузки и задержке (lat ms) для каждого региона. Данные должны быть организованы в виде таблицы, где строки представляют временные метки (например, кварталы), а столбцы – различные метрики.
-
Очистка данных: Проверьте данные на наличие пропусков или выбросов. Используйте виджеты для обработки данных в Orange, такие как "Select Columns" и "Edit Domain", чтобы удалить ненужные столбцы и управлять характеристиками.
Шаг 2: Создание моделей
1. Линейная регрессия
- Выбор виджета: Используйте виджет "Linear Regression".
- Подключение данных: Подключите ваш очищенный датасет к виджету линейной регрессии.
- Настройка модели: Выберите целевую переменную (например, загрузку или выгрузку) и настройте параметры модели.
- Обучение модели: Запустите процесс обучения и оцените точность модели с помощью кросс-валидации.
2. kNN (k-Nearest Neighbors)
- Выбор виджета: Используйте виджет "kNN".
- Подключение данных: Настройте ваши данные аналогично предыдущему шагу.
- Выбор k: Подберите значение k (количество ближайших соседей) для улучшения модели, так как значение k существенно влияет на результаты.
- Обучение мезанизова: Запустите обучение и оцените точность, используя аналогичные методы оценки.
3. Нейронная сеть
- Выбор виджета: Используйте виджет "Neural Network".
- Конфигурация сети: Укажите количество слоев и нейронов в каждом слое. Вы можете начать с простой архитектуры и увеличить ее сложность, если потребуется.
- Обучение модели: Обучите нейронную сеть и используйте разные методы оптимизации для улучшения результатов.
Шаг 3: Оценка результатов
После того как вы обучили все три модели, используйте виджет "Test & Score" для оценки их производительности. Визуализируйте результаты для сравнения моделей:
- Сравните метрики: Используйте такие метрики, как RMSE (среднеквадратическая ошибка) или R² (коэффициент детерминации), чтобы сравнить точность каждой модели.
- Выбор модели: Основываясь на оценках, выберите лучшую модель для предсказания будущей скорости Wi-Fi.
Заключение
Orange — это мощный инструмент для визуального анализа данных и создания моделей, но он может быть ограничен в некоторых аспектах по сравнению с другими библиотеками Python, такими как Scikit-Learn, TensorFlow или Prophet. Для более сложного анализа и предсказаний рассмотрите возможность использования Python и других специализированных библиотек.
Если у вас есть дополнительные вопросы или потребуется помощь в конкретных аспектах работы с Orange, не стесняйтесь обращаться за помощью!