Data Science
Data Science
Вопрос или проблема Мне нужна помощь в оптимизации затрат на маркетинг. Я работаю с клиентом, который ведет оффлайн-операции, основанные в основном на онлайн-маркетинге (фейсбук, гугл, твиттер и т.д.). Они попросили меня проанализировать их маркетинговые
Data Science
Вопрос или проблема У меня имеется сильно несбалансированный набор данных (± 5% положительных экземпляров), для которого я обучаю бинарные классификаторы. Я использую вложенную 5-кратную кросс-валидацию с поиском по сетке для настройки гиперпараметров.
Data Science
Вопрос или проблема Большинство обсуждений по поводу предсказаний моделей утверждает, что следует сосредоточиться на метриках ошибки, таких как RMSE, MSE, MAE или MAPE. Некоторые даже утверждают, что r-квадрат может быть низким в хорошей модели.
Data Science
Вопрос или проблема Я провел анализ набора данных с помощью модели случайного леса. Результаты следующие. Почему MSE крайне высок, но коэффициент детерминации (r2) показывает точность около 83-84%? Это нормально и связано с набором данных, или это указывает на проблему?
Data Science
Вопрос или проблема Я работаю над задачей классификации. У меня есть две модели: Модель логистической регрессии Модель случайного леса Для первой модели, если я выберу только предикторы с p-значениями<0.05, я снизлю точность, полноту и т.
Data Science
Вопрос или проблема Здравствуйте, в данный момент я пишу дипломную работу и застрял на некоторых этапах. Я разработал несколько моделей машинного обучения (XGBoost, (сбалансированный) случайный лес, ElasticNet и др.) на крайне несбалансированном наборе
Data Science
Вопрос или проблема Контекст Я работаю над моделью обработки естественного языка (NLP), которая может классифицировать документы в одну из N категорий. У меня есть данные документов от нескольких различных клиентов. Темы документов схожи между клиентами
Data Science
Вопрос или проблема Я создаю пользовательский уровень Keras FConv2D() и добавляю вес в его функции build() с помощью метода add_weight(), как предложено в официальном руководстве Keras по созданию пользовательских уровней. def build(self, input_shape): shape = tf.
Data Science
Вопрос или проблема Основано на deeplearningbook: $$ \begin{align} MSE &= E[(\theta_m^{-} – \theta)^2] \\ &= Bias(\theta_m^{-})^2 + Var(\theta_m^{-})\\ \end{align} $$ где $m$ — это количество образцов в обучающем наборе, $\theta$ — это фактический
Data Science
Вопрос или проблема Я новичок в статистике. У меня есть небольшая выборка из 646 образцов, на которой я обучил достаточно производительную модель (около 99% точности на тестовой и валидационной выборках). Чтобы усложнить задачу, классы немного несбалансированы.
Data Science
Вопрос или проблема Прямо сейчас у меня есть обучающий набор данных, который выглядит примерно так (Изображение, Число с плавающей запятой), где Изображение является независимой переменной, а число с плавающей запятой — зависимой переменной: (Собака1, 3.
Data Science
Вопрос или проблема Я пытаюсь обучить простую нейронную сеть для многоклассовой классификации. У меня есть столбцы x1, x2, x3, x4 с 4 классами для предсказания. Если тренировать только на x1, x2, x3, x4, то я получаю точность 88% С некоторыми знаниями
Data Science
Вопрос или проблема У меня есть набор данных о разных людях с их страховыми расходами. Я обучил нейронную сеть для предсказания страховых расходов (столбец charges) на основе других признаков (возраст, индекс массы тела и т. д.
Data Science
Вопрос или проблема Я ищу алгоритмы извлечения признаков в литературе (либо в обычной компьютерной зрении, либо в нейронных сетях) или готовые движки индексации, подходящие для поиска оригинальных изображений в базе данных при условии, что воспроизведение
Data Science
Вопрос или проблема Я начинаю проект, в котором хочу извлекать ключевые слова из заданных сообщений. Ключевые слова, например, такие как: “жесткий диск”, “часы” или другие технические компоненты. Я работаю с набором данных, в котором
Data Science
Вопрос или проблема У меня есть многомерные временные ряды. Каждый образец имеет признаки от f0 до f100, с 24 временными шагами. Что-то вроде этого: По оси x находятся 24 временных шага, а по оси y – 100 признаков. Задача состоит в том, что у каждого
Data Science
Вопрос или проблема Я видел множество уроков и статей о том или ином модели, которые демонстрируют отличные показатели точности. В данном случае, скажем, 85%. Но я никогда не вижу, что делать с оставшимися 15%? Я предполагаю, что большинство из тех людей
Data Science
Вопрос или проблема Я использую AgglomerativeClustering из scikit-learn на большом наборе данных. Я хотел бы изменить distance_threshold после того, как модель уже была вычислена. Вычисление модели выполняется медленно (квадратичное время), но переобчисление
Data Science
Вопрос или проблема У меня есть финансовый временной ряд, и я хочу вычислить корреляцию между прошлыми и будущими доходностями. Сначала я выбираю интервалы, скажем, l и h. Затем я вычисляю прошлые доходности, что равно текущему значению, деленному на
Data Science
Вопрос или проблема У меня есть некоторое представление о том, как будет работать обратное распространение для функции потерь, такой как: loss=summation(predicted-true)^2 Где predicted и true — векторы одинаковой длины и одна и та же операция применяется ко всем элементам.