sampling - ответы на вопросы

Data Science

Вопрос о коллапсировании переменной и сверхвыборке меньшинств.

00

Вопрос или проблема У меня есть несбалансированные данные, состоящие из девяти классов, и я планирую объединить их в два класса. Я провел стратифицированную (пропорциональную) выборку между тестовыми, валидационными и обучающими наборами данных в соответствии с девятью классами.

Data Science

Восстановление целочисленной функции с помощью *-обучения

00

Вопрос или проблема У меня следующая проблема. Из технической модели у нас есть функция $f(n,p)$, приближающая время выполнения. Функция $f$ отображает $$ f: \mathbb{N} \times \mathbb{P} \to \mathbb{R}_{+} $$ где $\mathbb{P} = \{1,\ldots,50\} \subset\mathbb{N}$.

Data Science

Генерация искусственных данных для расширения обучающего набора

00

Вопрос или проблема У меня есть набор данных, содержащий 42 экземпляра (X) и одну финальную Y, на которой я хочу выполнить регрессию LASSO. Все они непрерывные и числовые. Поскольку размер выборки небольшой, я хочу его увеличить.

Data Science

Выборка из RBM для временных рядов

00

Вопрос или проблема Я использую Ограниченную Машину Больцмана (RBM), чтобы изучить распределение переменной X, для которой у меня есть временной ряд из, скажем, 1000 точек (следовательно, 1000 выборок на языке машинного обучения).

Data Science

Получение сбалансированной выборки по многим переменным.

00

Вопрос или проблема Допустим, каждый элемент в моей популяции имеет несколько характеристик. Назовем их A, B, C, D, E, F. Предположим, для простоты, что каждая характеристика имеет 10 значений (но может быть любое число от 2 до 30).

Data Science

Переобученная модель дает схожий AUC на тестовом наборе данных, так какую модель мне выбрать?

00

Вопрос или проблема Я пытался сравнить эффект выполнения GridSearchCV на наборе данных, который был перераспределен до и после выбора обучающих фолдов. Метод перераспределения, который я использовал, был случайным перераспределением.

Data Science

Отбор, пытаясь сохранить как можно больше многомерной дисперсии.

00

Вопрос или проблема Я задумывался, рассматривает ли кто-нибудь технику выборки, которая бы стремилась сохранить как можно больше дисперсии (например, как можно больше уникальных значений или очень широко распределенные непрерывные переменные).

Data Science

Создание набора различных сценариев на основе некоторых начальных наблюдений.

00

Вопрос или проблема У меня в руках 3 разные временные ряда, которые моделируют 3 разные сценария (базовый, неблагоприятный, благоприятный). Каждый из этих временных рядов зависит от набора из 11 различных атрибутов, которые принимают значения для различных временных интервалов.

Data Science

Как оценить точность на большом наборе данных?

00

Вопрос или проблема Учитывая, что у меня есть модель глубокого обучения (передача от бывшего коллеги). По какой-то причине наборы для обучения и валидации отсутствовали. В моей ситуации я хочу классифицировать свои данные на 100 категорий.

Data Science

Существует ли взаимосвязь между скоростью обучения и размером обучающего набора?

00

Вопрос или проблема У меня есть большой набор данных для обучения модели нейронной сети. Однако у меня недостаточно ресурсов для надлежащей настройки гиперпараметров на всем наборе данных. Поэтому моя идея заключается в том, чтобы отрегулировать скорость

Data Science

Как выбрать выборку из набора данных с учетом заданной категориальной или числовой переменной на основе заданного произвольно выбранного распределения? (Python)

00

Вопрос или проблема Предположим, у меня есть набор данных за некоторый прошлый период. Теперь появляются новые данные, и для данной переменной в данных мы находим, что распределения изменились (например, с “возрастом”

Data Science

Переподбор нормально распределенного набора данных для регрессионных задач?

00

Вопрос или проблема У меня есть набор данных из операционного процесса с 5 измерениями и 1 результатом. Все значения нормально распределены. Когда я обучаю регрессионную модель на этом наборе данных, она хорошо работает на большинстве данных – в условиях по умолчанию.

Data Science

Обучение вариационного автокодировщика (VAE) для генерации случайных чисел

00

Вопрос или проблема У меня есть сложное 20-мерное многомодальное распределение, и я рассматриваю обучение VAE для приближения его с помощью 2000 образцов. Однако, в частности, с целью впоследствии генерировать псевдослучайные числа, соответствующие структуре распределения.

Data Science

Возможно ли применение логистической регрессии с использованием удобной выборки?

00

Вопрос или проблема Я собрал данные опроса бездомных людей, изучая их употребление наркотиков, уровень образования, возраст, пол и т.д. Я надеюсь провести логистическую регрессию, чтобы узнать, насколько бездомность (+ другие зависимые переменные) влияет

Data Science

Использование SMOTE для генерации синтетических данных с целью улучшения производительности на несбалансированных данных

00

Вопрос или проблема В настоящее время у меня есть набор данных с 21392 образцами, из которых 16948 относятся к мажоритарному классу (класс A), а оставшиеся 4444 – к миноритарному классу (класс B). В настоящее время я использую SMOTE (Метод синтетического