sampling
Data Science
Вопрос или проблема У меня есть несбалансированные данные, состоящие из девяти классов, и я планирую объединить их в два класса. Я провел стратифицированную (пропорциональную) выборку между тестовыми, валидационными и обучающими наборами данных в соответствии с девятью классами.
Data Science
Вопрос или проблема У меня следующая проблема. Из технической модели у нас есть функция $f(n,p)$, приближающая время выполнения. Функция $f$ отображает $$ f: \mathbb{N} \times \mathbb{P} \to \mathbb{R}_{+} $$ где $\mathbb{P} = \{1,\ldots,50\} \subset\mathbb{N}$.
Data Science
Вопрос или проблема У меня есть набор данных, содержащий 42 экземпляра (X) и одну финальную Y, на которой я хочу выполнить регрессию LASSO. Все они непрерывные и числовые. Поскольку размер выборки небольшой, я хочу его увеличить.
Data Science
Вопрос или проблема Я использую Ограниченную Машину Больцмана (RBM), чтобы изучить распределение переменной X, для которой у меня есть временной ряд из, скажем, 1000 точек (следовательно, 1000 выборок на языке машинного обучения).
Data Science
Вопрос или проблема Допустим, каждый элемент в моей популяции имеет несколько характеристик. Назовем их A, B, C, D, E, F. Предположим, для простоты, что каждая характеристика имеет 10 значений (но может быть любое число от 2 до 30).
Data Science
Вопрос или проблема Я пытался сравнить эффект выполнения GridSearchCV на наборе данных, который был перераспределен до и после выбора обучающих фолдов. Метод перераспределения, который я использовал, был случайным перераспределением.
Data Science
Вопрос или проблема Я задумывался, рассматривает ли кто-нибудь технику выборки, которая бы стремилась сохранить как можно больше дисперсии (например, как можно больше уникальных значений или очень широко распределенные непрерывные переменные).
Data Science
Вопрос или проблема У меня в руках 3 разные временные ряда, которые моделируют 3 разные сценария (базовый, неблагоприятный, благоприятный). Каждый из этих временных рядов зависит от набора из 11 различных атрибутов, которые принимают значения для различных временных интервалов.
Data Science
Вопрос или проблема Учитывая, что у меня есть модель глубокого обучения (передача от бывшего коллеги). По какой-то причине наборы для обучения и валидации отсутствовали. В моей ситуации я хочу классифицировать свои данные на 100 категорий.
Data Science
Вопрос или проблема У меня есть большой набор данных для обучения модели нейронной сети. Однако у меня недостаточно ресурсов для надлежащей настройки гиперпараметров на всем наборе данных. Поэтому моя идея заключается в том, чтобы отрегулировать скорость
Data Science
Вопрос или проблема Предположим, у меня есть набор данных за некоторый прошлый период. Теперь появляются новые данные, и для данной переменной в данных мы находим, что распределения изменились (например, с “возрастом”
Data Science
Вопрос или проблема У меня есть набор данных из операционного процесса с 5 измерениями и 1 результатом. Все значения нормально распределены. Когда я обучаю регрессионную модель на этом наборе данных, она хорошо работает на большинстве данных – в условиях по умолчанию.
Data Science
Вопрос или проблема У меня есть сложное 20-мерное многомодальное распределение, и я рассматриваю обучение VAE для приближения его с помощью 2000 образцов. Однако, в частности, с целью впоследствии генерировать псевдослучайные числа, соответствующие структуре распределения.
Data Science
Вопрос или проблема Я собрал данные опроса бездомных людей, изучая их употребление наркотиков, уровень образования, возраст, пол и т.д. Я надеюсь провести логистическую регрессию, чтобы узнать, насколько бездомность (+ другие зависимые переменные) влияет
Data Science
Вопрос или проблема В настоящее время у меня есть набор данных с 21392 образцами, из которых 16948 относятся к мажоритарному классу (класс A), а оставшиеся 4444 – к миноритарному классу (класс B). В настоящее время я использую SMOTE (Метод синтетического