Data Science
Как выбрать подходящие предикторы для модели классификации?
00
Вопрос или проблема Я работаю над задачей классификации. У меня есть две модели: Модель логистической регрессии Модель случайного леса Для первой модели, если я выберу только предикторы с p-значениями<0.05, я снизлю точность, полноту и т.
Data Science
Плохие результаты метрик из-за сильного классового дисбаланса в классификации кредитных карт.
00
Вопрос или проблема Здравствуйте, в данный момент я пишу дипломную работу и застрял на некоторых этапах. Я разработал несколько моделей машинного обучения (XGBoost, (сбалансированный) случайный лес, ElasticNet и др.) на крайне несбалансированном наборе
Data Science
Обучение с переносом с использованием множества небольших наборов данных
00
Вопрос или проблема Контекст Я работаю над моделью обработки естественного языка (NLP), которая может классифицировать документы в одну из N категорий. У меня есть данные документов от нескольких различных клиентов. Темы документов схожи между клиентами
Data Science
Keras – метод add_weight() не добавляет к общему количеству параметров модели
00
Вопрос или проблема Я создаю пользовательский уровень Keras FConv2D() и добавляю вес в его функции build() с помощью метода add_weight(), как предложено в официальном руководстве Keras по созданию пользовательских уровней. def build(self, input_shape): shape = tf.
Data Science
Математика за этим, $MSE = смещение^2 + дисперсия$
00
Вопрос или проблема Основано на deeplearningbook: $$ \begin{align} MSE &= E[(\theta_m^{-} – \theta)^2] \\ &= Bias(\theta_m^{-})^2 + Var(\theta_m^{-})\\ \end{align} $$ где $m$ — это количество образцов в обучающем наборе, $\theta$ — это фактический
Data Science
Как я могу оценить надежность специфики модели с очень маленькими обучающими, тестовыми и валидационными наборами данных?
00
Вопрос или проблема Я новичок в статистике. У меня есть небольшая выборка из 646 образцов, на которой я обучил достаточно производительную модель (около 99% точности на тестовой и валидационной выборках). Чтобы усложнить задачу, классы немного несбалансированы.
Data Science
Обучение нейронной сети на стандартном отклонении
00
Вопрос или проблема Прямо сейчас у меня есть обучающий набор данных, который выглядит примерно так (Изображение, Число с плавающей запятой), где Изображение является независимой переменной, а число с плавающей запятой — зависимой переменной: (Собака1, 3.
Data Science
Почему моя нейронная сеть не может выучить функцию abs(x1-x2)?
00
Вопрос или проблема Я пытаюсь обучить простую нейронную сеть для многоклассовой классификации. У меня есть столбцы x1, x2, x3, x4 с 4 классами для предсказания. Если тренировать только на x1, x2, x3, x4, то я получаю точность 88% С некоторыми знаниями
Data Science
Как узнать, достаточно ли хороши результаты моей модели?
00
Вопрос или проблема У меня есть набор данных о разных людях с их страховыми расходами. Я обучил нейронную сеть для предсказания страховых расходов (столбец charges) на основе других признаков (возраст, индекс массы тела и т. д.
Data Science
Извлечение изображений из (возможно) испорченной репродукции
00
Вопрос или проблема Я ищу алгоритмы извлечения признаков в литературе (либо в обычной компьютерной зрении, либо в нейронных сетях) или готовые движки индексации, подходящие для поиска оригинальных изображений в базе данных при условии, что воспроизведение
Data Science
Извлечение ключевых слов из сообщений с помощью собственной модели NER
00
Вопрос или проблема Я начинаю проект, в котором хочу извлекать ключевые слова из заданных сообщений. Ключевые слова, например, такие как: “жесткий диск”, “часы” или другие технические компоненты. Я работаю с набором данных, в котором
Data Science
Многомерная временная серия с переменным размером входных данных: классификация
00
Вопрос или проблема У меня есть многомерные временные ряды. Каждый образец имеет признаки от f0 до f100, с 24 временными шагами. Что-то вроде этого: По оси x находятся 24 временных шага, а по оси y – 100 признаков. Задача состоит в том, что у каждого
Data Science
Что делать с неудачной частью обучающего набора данных?
00
Вопрос или проблема Я видел множество уроков и статей о том или ином модели, которые демонстрируют отличные показатели точности. В данном случае, скажем, 85%. Но я никогда не вижу, что делать с оставшимися 15%? Я предполагаю, что большинство из тех людей
Data Science
Как можно пересчитать метки AgglomerativeClustering?
00
Вопрос или проблема Я использую AgglomerativeClustering из scikit-learn на большом наборе данных. Я хотел бы изменить distance_threshold после того, как модель уже была вычислена. Вычисление модели выполняется медленно (квадратичное время), но переобчисление
Data Science
Корреляция Пирсона с перекрывающимися данными
00
Вопрос или проблема У меня есть финансовый временной ряд, и я хочу вычислить корреляцию между прошлыми и будущими доходностями. Сначала я выбираю интервалы, скажем, l и h. Затем я вычисляю прошлые доходности, что равно текущему значению, деленному на
Data Science
Дифференцирование вектора с различными операциями над каждым элементом
00
Вопрос или проблема У меня есть некоторое представление о том, как будет работать обратное распространение для функции потерь, такой как: loss=summation(predicted-true)^2 Где predicted и true — векторы одинаковой длины и одна и та же операция применяется ко всем элементам.
Data Science
Полностью эндогенные модели для прогнозирования мультиизмерных временных рядов
00
Вопрос или проблема У меня формальное образование в области социальных наук, но я новый в области анализа данных. Меня интересует создание предсказательных моделей для применения в социальных науках, в основном (но не только) в экономике.
Data Science
IndexError: индекс списка вне диапазона
00
Вопрос или проблема Я реализую модель последовательность-в-последовательность с архитектурой RNN-VAE и использую механизм внимания. У меня проблема в части декодирования. Я сталкиваюсь с этой ошибкой: IndexError: list index out of range Когда я запускаю
Data Science
Сколько повторений стохастического алгоритма необходимо произвести, прежде чем результаты можно будет считать надежными?
00
Вопрос или проблема Я написал стохастический алгоритм машинного обучения. Каждый раз, когда я запускаю алгоритм на одних и тех же тестовых данных, я получаю разные результаты. Я определяю точность каждый раз в сравнении с истинным значением.
Data Science
Операции с рекомендационными встраиваниями
00
Вопрос или проблема Я обучил систему рекомендаций, чтобы рекомендовать игры Steam на основе тегов игр. Пример вывода показан ниже, где GAME — это игра, рекомендованная на основе similarity (показателя схожести). Игра для рекомендации: Total War: WARHAMMER