Data Science
Data Science
Вопрос или проблема Я работаю над задачей классификации. У меня есть две модели: Модель логистической регрессии Модель случайного леса Для первой модели, если я выберу только предикторы с p-значениями<0.05, я снизлю точность, полноту и т.
Data Science
Вопрос или проблема Здравствуйте, в данный момент я пишу дипломную работу и застрял на некоторых этапах. Я разработал несколько моделей машинного обучения (XGBoost, (сбалансированный) случайный лес, ElasticNet и др.) на крайне несбалансированном наборе
Data Science
Вопрос или проблема Контекст Я работаю над моделью обработки естественного языка (NLP), которая может классифицировать документы в одну из N категорий. У меня есть данные документов от нескольких различных клиентов. Темы документов схожи между клиентами
Data Science
Вопрос или проблема Я создаю пользовательский уровень Keras FConv2D() и добавляю вес в его функции build() с помощью метода add_weight(), как предложено в официальном руководстве Keras по созданию пользовательских уровней. def build(self, input_shape): shape = tf.
Data Science
Вопрос или проблема Основано на deeplearningbook: $$ \begin{align} MSE &= E[(\theta_m^{-} – \theta)^2] \\ &= Bias(\theta_m^{-})^2 + Var(\theta_m^{-})\\ \end{align} $$ где $m$ — это количество образцов в обучающем наборе, $\theta$ — это фактический
Data Science
Вопрос или проблема Я новичок в статистике. У меня есть небольшая выборка из 646 образцов, на которой я обучил достаточно производительную модель (около 99% точности на тестовой и валидационной выборках). Чтобы усложнить задачу, классы немного несбалансированы.
Data Science
Вопрос или проблема Прямо сейчас у меня есть обучающий набор данных, который выглядит примерно так (Изображение, Число с плавающей запятой), где Изображение является независимой переменной, а число с плавающей запятой — зависимой переменной: (Собака1, 3.
Data Science
Вопрос или проблема Я пытаюсь обучить простую нейронную сеть для многоклассовой классификации. У меня есть столбцы x1, x2, x3, x4 с 4 классами для предсказания. Если тренировать только на x1, x2, x3, x4, то я получаю точность 88% С некоторыми знаниями
Data Science
Вопрос или проблема У меня есть набор данных о разных людях с их страховыми расходами. Я обучил нейронную сеть для предсказания страховых расходов (столбец charges) на основе других признаков (возраст, индекс массы тела и т. д.
Data Science
Вопрос или проблема Я ищу алгоритмы извлечения признаков в литературе (либо в обычной компьютерной зрении, либо в нейронных сетях) или готовые движки индексации, подходящие для поиска оригинальных изображений в базе данных при условии, что воспроизведение
Data Science
Вопрос или проблема Я начинаю проект, в котором хочу извлекать ключевые слова из заданных сообщений. Ключевые слова, например, такие как: “жесткий диск”, “часы” или другие технические компоненты. Я работаю с набором данных, в котором
Data Science
Вопрос или проблема У меня есть многомерные временные ряды. Каждый образец имеет признаки от f0 до f100, с 24 временными шагами. Что-то вроде этого: По оси x находятся 24 временных шага, а по оси y – 100 признаков. Задача состоит в том, что у каждого
Data Science
Вопрос или проблема Я видел множество уроков и статей о том или ином модели, которые демонстрируют отличные показатели точности. В данном случае, скажем, 85%. Но я никогда не вижу, что делать с оставшимися 15%? Я предполагаю, что большинство из тех людей
Data Science
Вопрос или проблема Я использую AgglomerativeClustering из scikit-learn на большом наборе данных. Я хотел бы изменить distance_threshold после того, как модель уже была вычислена. Вычисление модели выполняется медленно (квадратичное время), но переобчисление
Data Science
Вопрос или проблема У меня есть финансовый временной ряд, и я хочу вычислить корреляцию между прошлыми и будущими доходностями. Сначала я выбираю интервалы, скажем, l и h. Затем я вычисляю прошлые доходности, что равно текущему значению, деленному на
Data Science
Вопрос или проблема У меня есть некоторое представление о том, как будет работать обратное распространение для функции потерь, такой как: loss=summation(predicted-true)^2 Где predicted и true — векторы одинаковой длины и одна и та же операция применяется ко всем элементам.
Data Science
Вопрос или проблема У меня формальное образование в области социальных наук, но я новый в области анализа данных. Меня интересует создание предсказательных моделей для применения в социальных науках, в основном (но не только) в экономике.
Data Science
Вопрос или проблема Я реализую модель последовательность-в-последовательность с архитектурой RNN-VAE и использую механизм внимания. У меня проблема в части декодирования. Я сталкиваюсь с этой ошибкой: IndexError: list index out of range Когда я запускаю
Data Science
Вопрос или проблема Я написал стохастический алгоритм машинного обучения. Каждый раз, когда я запускаю алгоритм на одних и тех же тестовых данных, я получаю разные результаты. Я определяю точность каждый раз в сравнении с истинным значением.
Data Science
Вопрос или проблема Я обучил систему рекомендаций, чтобы рекомендовать игры Steam на основе тегов игр. Пример вывода показан ниже, где GAME — это игра, рекомендованная на основе similarity (показателя схожести). Игра для рекомендации: Total War: WARHAMMER