Data Science
Что именно означает “переобучение” в линейной регрессии?
00
Вопрос или проблема Я пытался понять концепцию переобучения. Я знаю, что когда обучающий R^2 больше 95%, это означает, что модель переобучена, и после некоторого исследования я пришел к следующему пониманию: Модель, которая захватывает шум и случайные
Data Science
Работа с разнообразными группами в регрессии
00
Вопрос или проблема Что произойдет, если определенный набор данных содержит разные «группы», которые следуют различным линейным моделям? Например, представим, что, изучая диаграмму рассеяния определенной характеристики $x_i$ против $y$, мы можем увидеть
Data Science
Добавление признаков с высоким p-значением и низким R-квадратом в линейную регрессию для улучшения результата.
00
Вопрос или проблема Я работаю над задачей линейной регрессии. Признаки для моего анализа были выбраны с использованием p-значений и знаний в области. После выбора этих признаков производительность $R^2$ и $RMSE$ улучшилась с 0.
Data Science
Как лучше всего использовать год сделок перепродажи для прогнозирования цен на жилье?
00
Вопрос или проблема Я изучаю классическую задачу предсказания цен на квартиры (вторичный рынок) в зависимости от их типа, размера, местоположения и т. д. Довольно просто, и линейная регрессия или регрессионные деревья дают первые приличные результаты
Data Science
Можно ли построить регрессионную модель для прогнозирования кассовых сборов фильмов, используя разделы на их страницах в Википедии?
00
Вопрос или проблема Я получил это как задание от рекрутера и успешно собрал датасет из примерно 650 фильмов с их разделами «Сюжет», «Музыка» и «Маркетинг», а также кассовыми сборами. Я попробовал tfidf и count векторизаторы и выполнил LSA/PCA для уменьшения
Data Science
Кодирование целевой переменной для обнаружения точек изменений временных рядов
00
Вопрос или проблема Я работаю с временными рядами, для которых намерен применить модель машинного обучения для обнаружения точек изменений в данных временных рядов. Эти данные записываются с машин, и нам нужно предсказать, когда процесс завершится.
Data Science
Как объединить NLP и числовые данные для задачи линейной регрессии
00
Вопрос или проблема Я совершенно новичок в области науки о данных (это мой проект “Hello World”), и у меня есть набор данных, состоящий из комбинации текста отзывов и числовых данных, таких как количество столов. Также есть колонка для отзывов
Data Science
Какие входные характеристики мне нужно удалить после изучения фактора инфляции дисперсии (VIF)?
00
Вопрос или проблема Например, я получил следующий результат фактора VIF (weekday_ – это кодирование с помощью one-hot): VIF Factor features 0 0.000000 Intercept ... 9 51.136294 utc_timestamp 10 19.603974 weekday_Friday 11 10.
Data Science
Могу ли я инициализировать веса nn.Linear с помощью ридж-регрессии, а затем обучить с использованием другой функции потерь?
00
Вопрос или проблема Я исследую стратегию, при которой я инициализирую веса nn.Linear с помощью ридж-регрессии, а затем обучаю модель с помощью контрастной потери. Идея состоит в том, чтобы использовать ридж-регрессию для получения лучшей инициализации
Data Science
Почему не использовать линейную регрессию для дообучения последнего слоя нейронной сети?
00
Вопрос или проблема В трансферном обучении часто лишь последний слой сети перенастраивается с использованием градиентного спуска. Однако последний слой обычной нейронной сети выполняет только линейное преобразование, так почему мы используем градиентный
Data Science
Вопрос относительно реализации выбора подмножества OLS
00
Вопрос или проблема На этом сайте я нашел реализацию на Python для выбора набора предикторов в обычной линейной регрессии, включающую Метод Лучшего Подмножества, Прямой Пошаговый Отбор и др. Это должно быть дополнением к книге An Introduction to Statistical
Data Science
Простая линейная регрессия и множественная линейная регрессия
00
Вопрос или проблема Я изучал простую линейную регрессию и многократную линейную регрессию. Я задумался над вопросом: получим ли мы одинаковые коэффициенты признаков, если проведем многократную линейную регрессию и Ответ или решение Вопрос о том, получаем
Data Science
Использование прогнозных значений из унивариантной модели в качестве входных данных для линейной регрессии
00
Вопрос или проблема У меня есть еженедельные временные ряды данных за последние 2 года с переменными "неделя", "расходы на маркетинг", "трафик на сайте" и "выручка". Теперь мне нужно спрогнозировать "потенциальный трафик на сайте" и "потенциальную выручку" на следующие 12 недель.
Вопросы и ответы
Проведение многомерного предсказания временных рядов с известной будущей переменной
00
Вопрос или проблема У меня есть набор данных с 71 различной переменной за длительный временной ряд, проводимый ежемесячно с 1960 до 2023 года, и я хочу предсказать значение всех этих переменных, когда одна из них, обозначенная как coa, которая не показана
Data Science
Отношения между группами признаков и независимыми переменными
00
Вопрос или проблема У меня есть несколько групп признаков, которые я хотел бы протестировать в отношении независимых переменных. Идея заключается в том, чтобы выяснить, с какими группами в большей степени ассоциируется конкретное значение независимой переменной.
Data Science
Множественная регрессия (с использованием машинного обучения – как построить график данных)
00
Вопрос или проблема Мне интересно, как я могу использовать машинное обучение для построения множественной линейной регрессии на графике. У меня есть одна зависимая переменная (цены на квартиры) и пять независимых (этаж, год постройки, количество комнат
Data Science
Попытка определить степень полинома для полиномиальной регрессии
00
Вопрос или проблема Я пытаюсь предсказать вес новорожденного, используя полиномиальную регрессионную модель. Сначала мне нужно понять, какая степень полинома лучше всего подходит для моих данных. Для этого я разделил свой набор данных на обучающую выборку
Data Science
Почему мы не проверяем значимость коэффициентов в моделях Lasso и elastic net?
00
Вопрос или проблема Насколько я знаю, мы не проверяем значимость коэффициентов в моделях Lasso и Elasticnet. Это связано с тем, что незначимые коэффициенты признаков будут сведены к нулю в этих моделях? Значит ли это, что все признаки в этих моделях значимы?
Data Science
Почему цепочка классификаторов требует как минимум 2 класса, когда у меня есть?
00
Вопрос или проблема Я использую Classifier Chain с логистической регрессией, и когда пытаюсь использовать метод fit, получаю Этот решатель требует наличие образцов как минимум 2 классов в данных, но данные содержат только один класс: 1 Но я довольно уверен