model-selection
Data Science
Вопрос или проблема Предположим, у меня есть набор данных из 50 000 записей, из которых примерно 2% отсутствовали изначально. Из того, что я узнал, нам нужно использовать индикаторы для сравнения модели импутации с истинным значением, чтобы проверить
Data Science
Вопрос или проблема Что касается нелинейной и многомерной регрессии, я использую R или Matlab. В случае, когда у меня есть регрессия только с двумя переменными, я просто рисую график Y относительно X и ищу уравнение модели, которое наилучшим образом соответствует
Data Science
Вопрос или проблема У меня есть небольшой набор данных с 300 строками и несбалансированным распределением классов (35% положительных). Когда я обучаю модель логистической регрессии, она постоянно показывает результаты хуже случайного выбора.
Data Science
Вопрос или проблема Я сравниваю 3 различные классификатора: ANN, XG Boost и Random Forest для прогнозирования. Я также использовал SHAP для оценки важности признаков. Меня интересуют только 10 лучших признаков на основе SHAP. 3 классификатора имеют только
Data Science
Вопрос или проблема Я применил как SVM, так и CNN (используя Keras) на одном наборе данных. Теперь я хочу сравнить производительность обеих моделей. Функция Keras model.evaluate предсказывает выходные данные для данного ввода, а затем вычисляет заданную в model.
Data Science
Вопрос или проблема Читая о глубоких нейронных сетях, я часто сталкиваюсь с утверждением, что глубокое обучение эффективно только тогда, когда у вас есть большие объемы данных. Эти утверждения обычно сопровождаются таким рисунком: Пример (взятый из https://hackernoon.com/%EF%B8%8F-big-challenge-in-deep-learning-training-data-31a88b97b282) приписывается “
Data Science
Вопрос или проблема У нас есть большая коллекция документов (D), каждый из которых сопровождается набором метаданных (M). В этой коллекции некоторые документы являются родительскими и имеют несколько дочерних документов. Как родительские, так и дочерние
Data Science
Вопрос или проблема У меня есть данные, похожие на рейтинги фильмов, и метки расположены в порядке, например, от 1 до 10. Поскольку целевая метка не является номинальной, а порядковой переменной, какие типы моделей мне следует использовать для классификации таких данных?
Data Science
Вопрос или проблема На этом сайте я нашел реализацию на Python для выбора набора предикторов в обычной линейной регрессии, включающую Метод Лучшего Подмножества, Прямой Пошаговый Отбор и др. Это должно быть дополнением к книге An Introduction to Statistical
Data Science
Вопрос или проблема Может ли кто-нибудь объяснить мне разницу между Индексом Стабильности Популяции (PSI) и Индексом Точности Популяции (PAI)? Стабильность популяции относится к тому, изменяется ли распределение объясняющих переменных со временем.
Data Science
Вопрос или проблема Возможно ли построить модель склонности (т.е. вероятность того, что пользователь купит товар), используя только положительные значения? Например, у меня есть множество данных о Клиентах (людях, которые что-то купили) и Пользователях
Data Science
Вопрос или проблема Я имею в виду этот вопрос: Вложенная кросс-валидация и выбор лучшей модели регрессии – является ли это правильным процессом SKLearn? В ответах говорится, что вложенная кросс-валидация может оценивать ошибку обобщения оптимизации