Data Science
Техники оптимизации маркетинговых расходов
00
Вопрос или проблема Мне нужна помощь в оптимизации затрат на маркетинг. Я работаю с клиентом, который ведет оффлайн-операции, основанные в основном на онлайн-маркетинге (фейсбук, гугл, твиттер и т.д.). Они попросили меня проанализировать их маркетинговые
Data Science
Использование Keras с sklearn: применение class_weight с cross_val_score
00
Вопрос или проблема У меня имеется сильно несбалансированный набор данных (± 5% положительных экземпляров), для которого я обучаю бинарные классификаторы. Я использую вложенную 5-кратную кросс-валидацию с поиском по сетке для настройки гиперпараметров.
Data Science
Когда низкий коэффициент детерминации может создать хорошие предсказательные модели?
00
Вопрос или проблема Большинство обсуждений по поводу предсказаний моделей утверждает, что следует сосредоточиться на метриках ошибки, таких как RMSE, MSE, MAE или MAPE. Некоторые даже утверждают, что r-квадрат может быть низким в хорошей модели.
Data Science
Метрики регрессии интерпретации
00
Вопрос или проблема Я провел анализ набора данных с помощью модели случайного леса. Результаты следующие. Почему MSE крайне высок, но коэффициент детерминации (r2) показывает точность около 83-84%? Это нормально и связано с набором данных, или это указывает на проблему?
Data Science
Как выбрать подходящие предикторы для модели классификации?
00
Вопрос или проблема Я работаю над задачей классификации. У меня есть две модели: Модель логистической регрессии Модель случайного леса Для первой модели, если я выберу только предикторы с p-значениями<0.05, я снизлю точность, полноту и т.
Data Science
Плохие результаты метрик из-за сильного классового дисбаланса в классификации кредитных карт.
00
Вопрос или проблема Здравствуйте, в данный момент я пишу дипломную работу и застрял на некоторых этапах. Я разработал несколько моделей машинного обучения (XGBoost, (сбалансированный) случайный лес, ElasticNet и др.) на крайне несбалансированном наборе
Data Science
Обучение с переносом с использованием множества небольших наборов данных
00
Вопрос или проблема Контекст Я работаю над моделью обработки естественного языка (NLP), которая может классифицировать документы в одну из N категорий. У меня есть данные документов от нескольких различных клиентов. Темы документов схожи между клиентами
Data Science
Keras – метод add_weight() не добавляет к общему количеству параметров модели
00
Вопрос или проблема Я создаю пользовательский уровень Keras FConv2D() и добавляю вес в его функции build() с помощью метода add_weight(), как предложено в официальном руководстве Keras по созданию пользовательских уровней. def build(self, input_shape): shape = tf.
Data Science
Математика за этим, $MSE = смещение^2 + дисперсия$
00
Вопрос или проблема Основано на deeplearningbook: $$ \begin{align} MSE &= E[(\theta_m^{-} – \theta)^2] \\ &= Bias(\theta_m^{-})^2 + Var(\theta_m^{-})\\ \end{align} $$ где $m$ — это количество образцов в обучающем наборе, $\theta$ — это фактический
Data Science
Как я могу оценить надежность специфики модели с очень маленькими обучающими, тестовыми и валидационными наборами данных?
00
Вопрос или проблема Я новичок в статистике. У меня есть небольшая выборка из 646 образцов, на которой я обучил достаточно производительную модель (около 99% точности на тестовой и валидационной выборках). Чтобы усложнить задачу, классы немного несбалансированы.
Data Science
Обучение нейронной сети на стандартном отклонении
00
Вопрос или проблема Прямо сейчас у меня есть обучающий набор данных, который выглядит примерно так (Изображение, Число с плавающей запятой), где Изображение является независимой переменной, а число с плавающей запятой — зависимой переменной: (Собака1, 3.
Data Science
Почему моя нейронная сеть не может выучить функцию abs(x1-x2)?
00
Вопрос или проблема Я пытаюсь обучить простую нейронную сеть для многоклассовой классификации. У меня есть столбцы x1, x2, x3, x4 с 4 классами для предсказания. Если тренировать только на x1, x2, x3, x4, то я получаю точность 88% С некоторыми знаниями
Data Science
Как узнать, достаточно ли хороши результаты моей модели?
00
Вопрос или проблема У меня есть набор данных о разных людях с их страховыми расходами. Я обучил нейронную сеть для предсказания страховых расходов (столбец charges) на основе других признаков (возраст, индекс массы тела и т. д.
Data Science
Извлечение изображений из (возможно) испорченной репродукции
00
Вопрос или проблема Я ищу алгоритмы извлечения признаков в литературе (либо в обычной компьютерной зрении, либо в нейронных сетях) или готовые движки индексации, подходящие для поиска оригинальных изображений в базе данных при условии, что воспроизведение
Data Science
Извлечение ключевых слов из сообщений с помощью собственной модели NER
00
Вопрос или проблема Я начинаю проект, в котором хочу извлекать ключевые слова из заданных сообщений. Ключевые слова, например, такие как: “жесткий диск”, “часы” или другие технические компоненты. Я работаю с набором данных, в котором
Data Science
Многомерная временная серия с переменным размером входных данных: классификация
00
Вопрос или проблема У меня есть многомерные временные ряды. Каждый образец имеет признаки от f0 до f100, с 24 временными шагами. Что-то вроде этого: По оси x находятся 24 временных шага, а по оси y – 100 признаков. Задача состоит в том, что у каждого
Data Science
Что делать с неудачной частью обучающего набора данных?
00
Вопрос или проблема Я видел множество уроков и статей о том или ином модели, которые демонстрируют отличные показатели точности. В данном случае, скажем, 85%. Но я никогда не вижу, что делать с оставшимися 15%? Я предполагаю, что большинство из тех людей
Data Science
Как можно пересчитать метки AgglomerativeClustering?
00
Вопрос или проблема Я использую AgglomerativeClustering из scikit-learn на большом наборе данных. Я хотел бы изменить distance_threshold после того, как модель уже была вычислена. Вычисление модели выполняется медленно (квадратичное время), но переобчисление
Data Science
Корреляция Пирсона с перекрывающимися данными
00
Вопрос или проблема У меня есть финансовый временной ряд, и я хочу вычислить корреляцию между прошлыми и будущими доходностями. Сначала я выбираю интервалы, скажем, l и h. Затем я вычисляю прошлые доходности, что равно текущему значению, деленному на
Data Science
Дифференцирование вектора с различными операциями над каждым элементом
00
Вопрос или проблема У меня есть некоторое представление о том, как будет работать обратное распространение для функции потерь, такой как: loss=summation(predicted-true)^2 Где predicted и true — векторы одинаковой длины и одна и та же операция применяется ко всем элементам.