Data Science

Почему моя нейронная сеть не может выучить функцию abs(x1-x2)?

00

Вопрос или проблема Я пытаюсь обучить простую нейронную сеть для многоклассовой классификации. У меня есть столбцы x1, x2, x3, x4 с 4 классами для предсказания. Если тренировать только на x1, x2, x3, x4, то я получаю точность 88% С некоторыми знаниями

Data Science

Как узнать, достаточно ли хороши результаты моей модели?

00

Вопрос или проблема У меня есть набор данных о разных людях с их страховыми расходами. Я обучил нейронную сеть для предсказания страховых расходов (столбец charges) на основе других признаков (возраст, индекс массы тела и т. д.

Data Science

Извлечение изображений из (возможно) испорченной репродукции

00

Вопрос или проблема Я ищу алгоритмы извлечения признаков в литературе (либо в обычной компьютерной зрении, либо в нейронных сетях) или готовые движки индексации, подходящие для поиска оригинальных изображений в базе данных при условии, что воспроизведение

Data Science

Извлечение ключевых слов из сообщений с помощью собственной модели NER

00

Вопрос или проблема Я начинаю проект, в котором хочу извлекать ключевые слова из заданных сообщений. Ключевые слова, например, такие как: “жесткий диск”, “часы” или другие технические компоненты. Я работаю с набором данных, в котором

Data Science

Многомерная временная серия с переменным размером входных данных: классификация

00

Вопрос или проблема У меня есть многомерные временные ряды. Каждый образец имеет признаки от f0 до f100, с 24 временными шагами. Что-то вроде этого: По оси x находятся 24 временных шага, а по оси y – 100 признаков. Задача состоит в том, что у каждого

Data Science

Что делать с неудачной частью обучающего набора данных?

00

Вопрос или проблема Я видел множество уроков и статей о том или ином модели, которые демонстрируют отличные показатели точности. В данном случае, скажем, 85%. Но я никогда не вижу, что делать с оставшимися 15%? Я предполагаю, что большинство из тех людей

Data Science

Как можно пересчитать метки AgglomerativeClustering?

00

Вопрос или проблема Я использую AgglomerativeClustering из scikit-learn на большом наборе данных. Я хотел бы изменить distance_threshold после того, как модель уже была вычислена. Вычисление модели выполняется медленно (квадратичное время), но переобчисление

Data Science

Корреляция Пирсона с перекрывающимися данными

00

Вопрос или проблема У меня есть финансовый временной ряд, и я хочу вычислить корреляцию между прошлыми и будущими доходностями. Сначала я выбираю интервалы, скажем, l и h. Затем я вычисляю прошлые доходности, что равно текущему значению, деленному на

Data Science

Дифференцирование вектора с различными операциями над каждым элементом

00

Вопрос или проблема У меня есть некоторое представление о том, как будет работать обратное распространение для функции потерь, такой как: loss=summation(predicted-true)^2 Где predicted и true — векторы одинаковой длины и одна и та же операция применяется ко всем элементам.

Data Science

Полностью эндогенные модели для прогнозирования мультиизмерных временных рядов

00

Вопрос или проблема У меня формальное образование в области социальных наук, но я новый в области анализа данных. Меня интересует создание предсказательных моделей для применения в социальных науках, в основном (но не только) в экономике.

Data Science

IndexError: индекс списка вне диапазона

00

Вопрос или проблема Я реализую модель последовательность-в-последовательность с архитектурой RNN-VAE и использую механизм внимания. У меня проблема в части декодирования. Я сталкиваюсь с этой ошибкой: IndexError: list index out of range Когда я запускаю

Data Science

Сколько повторений стохастического алгоритма необходимо произвести, прежде чем результаты можно будет считать надежными?

00

Вопрос или проблема Я написал стохастический алгоритм машинного обучения. Каждый раз, когда я запускаю алгоритм на одних и тех же тестовых данных, я получаю разные результаты. Я определяю точность каждый раз в сравнении с истинным значением.

Data Science

00

Вопрос или проблема Я обучил систему рекомендаций, чтобы рекомендовать игры Steam на основе тегов игр. Пример вывода показан ниже, где GAME — это игра, рекомендованная на основе similarity (показателя схожести). Игра для рекомендации: Total War: WARHAMMER

Data Science

Визуализация BERTopic

00

Вопрос или проблема Я новичок в моделировании тем и пытаюсь использовать BERTopic в PyCharm. Мне трудно заставить любую визуализацию работать в PyCharm с BERTopic. Вот мой текущий код: import pickle from umap import UMAP from hdbscan import HDBSCAN from

Data Science

Модели машинного обучения с обучением на масштабированных входах

00

Вопрос или проблема У меня есть входные данные, величины которых значительно варьируются между признаками. Я масштабировал их с помощью StandardScaler() из sklearn, а затем использовал keras для обучения нейронной сети на этих данных для предсказания моей целевой переменной.

Data Science

Нормализация данных с неравными группами?

00

Вопрос или проблема У меня есть набор данных с тремя независимыми переменными [город, отрасль, сумма], и я хотел бы нормализовать сумму. Но я хочу сделать это с учетом отрасли и города. Простая группировка по городу и отрасли дает мне множество очень

Data Science

Как я могу исправить фильтр и размер ядра CNN?

00

Вопрос или проблема Я создал 4 x 4 двумерные изображения из сигнала. Теперь я хочу подать эти данные в сверточную нейронную сеть. Как мне выбрать количество фильтров, размер ядра для такого небольшого, по форме и размеру набора данных (4 x 4, 320 изображений)?

Data Science

RandomizedSearchCV(n_iter=10) не останавливается после обучения 10 моделей.

00

Вопрос или проблема Я использую RandomizedSearchCV для оптимизации гиперпараметров. Когда я запускаю модель, она показывает оценки для каждой тренировки модели. Проблема в том, что она обучает гораздо больше 10 моделей, в то время как я ожидаю, что будет

Data Science

Пользовательская регуляризация для логистической регрессии

00

Вопрос или проблема Мое понимание l2 регуляризации: Весы модели считаются имеющими априорное гауссово распределение, центрированное вокруг 0. Затем оценка MAP по данным добавляет дополнительное наказание в функцию стоимости. Мое сформулированное заявление

Data Science

Основной рабочий процесс топологического анализа данных и глубокого обучения

00

Вопрос или проблема У меня есть определенная путаница относительно применения топологического анализа данных (TDA) и глубокого обучения к табличному набору данных. Согласно общепринятому стандарту, строки представляют собой точки, а столбцы — признаки.