Data Science
Интерполяция и имputation геопространственных временных данных
00
Вопрос или проблема У меня есть набор данных, который представляет собой список длин широт, широт и временных меток. Этот набор данных представляет собой поездку автомобиля. Данные могут содержать пропуски и некоторый шум. Я хочу узнать, какие методы
Data Science
Как мы можем сократить нашу анкету, чтобы задавать только самые информативные вопросы в каждом пункте?
00
Вопрос или проблема Наш продукт имеет анкету для внедрения, которая задает одинаковые 58 вопросов (с числовыми ответами) каждому новому пользователю. Это много вопросов, поэтому нам хотелось бы сократить количество вопросов, которые мы задаем каждому новому пользователю.
Data Science
Почему rpart не делит эти данные, даже когда есть прирост в Джини?
00
Вопрос или проблема df <- tibble(x1=factor(c("S1", "S1", "S2", "S2")), y=factor(c(1, 1, 0, 1))) md <- rpart(formula=y~., data=df, method="class", control=rpart.control(minsplit=2, cp=0)) nrow(md$frame) #выводит 1 Рассмотрим разделение левая дочерняя
Data Science
Почему у SVM хуже граница разделения, чем у логистической регрессии?
00
Вопрос или проблема Я использовал как SVM с полиномиальным ядром степени 3, так и логистическую регрессию с преобразованными признаками с помощью PolynomialFeatures с той же степенью 3 на стандартном наборе данных Moons от scikit-learn.
Data Science
Подготовка игрового датасета – one-hot-кодирование против min-max-нормализации для идентификаторов карт
00
Вопрос или проблема У меня есть набор данных для игры. 5 карт игроков с идентификаторами для игрока 1, 5 карт игроков с идентификаторами для игрока 2. Имена столбцов выглядят как player1_card1_id, …, player1_card5_id, player2_card1_id, …
Data Science
Сжать матрицу значений в один столбец?
00
Вопрос или проблема У меня есть набор данных, в котором я ненужно дублировал переменные столбцов, и я хочу его сократить. Я бы хотел, чтобы выходные данные не были такими громоздкими, и мне уже пришлось выполнить некоторую работу, чтобы преобразовать
Data Science
Какой лучший источник для многоклассовых SVM?
00
Вопрос или проблема Может кто-то посоветовать статьи о методах мультиклассовой классификации с использованием SVM? Один против всех? Хороший обзор или статья, которая четко описывает все этапы. Лучший источник по мультиклассовым опорным векторам (SVM) –
Data Science
Кросс-валидация с однолассной классификацией в Python
00
Вопрос или проблема Я пытаюсь выполнить кросс-валидацию с использованием классификации одного класса – я использую библиотеку PyOD – но не знаю, делаю ли я это правильно. Точность слишком низка, и я также не могу вывести среднее и стандартное отклонение F1.
Data Science
Потеря валидации не уменьшается при использовании плотных слоев, хотя данные для обучения и валидации имеют одно и то же распределение.
00
Вопрос или проблема У меня есть проблема, с которой мне сложно справиться: я не понимаю концепцию, которая приводит к этим результатам. Я использую плотный слой keras для отображения 13 входных признаков на 3 выходные метки. Во время обучения значение
Data Science
Предсказание, является ли поисковое ключевое слово низкочастотным, основываясь только на высокочастотных ключевых словах.
00
Вопрос или проблема Моего друга спросили этот вопрос на собеседовании на позицию аналитика, и я не могу добиться ответа, поэтому я хотел бы увидеть, как можно решить эту задачу в области науки о данных. Вот проблема: Предположим, что ключевое слово “
Data Science
Почему значение моего предсказателя (непрерывное) идеально коррелирует с моим логит-значением (при проверке предположений модели логистической регрессии)?
00
Вопрос или проблема Вопрос: Почему мое значение предиктора (непрерывное) идеально коррелирует с моим логитным значением (при тестировании предположений модели логистической регрессии)? Код: # линейность в логите для непрерывной переменной: проверьте линейную
Data Science
На PostgreSQL я провел много попыток, чтобы исключить проблему отсутствия администратора.
00
Вопрос или проблема Этот вопрос, похоже, не касается конкретной проблемы программирования, программного алгоритма или программных инструментов, которые в основном используются программистами. Вы можете отредактировать вопрос, чтобы он соответствовал теме
Data Science
Почему обучение моделей в PyTorch стало крайне медленным
00
Вопрос или проблема Я сталкиваюсь с странным поведением при использовании pytorch/cuda для обучения моделей: я заметил, что тренировка моделей, для которых ранее требовалось мало времени для завершения каждой эпохи, теперь занимает гораздо больше времени.
Data Science
Найдите общие свойства кластерных образцов.
00
Вопрос или проблема У меня есть набор данных, который содержит примерно 15 признаков. С помощью метода локтя я выяснил, что оптимальное количество кластеров, вероятно, равно четырем. Поэтому я применил алгоритм K-средних с четырьмя кластерами.
Data Science
Как получить значение тензора tf, вычисляемое в функции потерь в keras train_on_batch, не вычисляя его дважды и не записывая пользовательский цикл?
00
Вопрос или проблема У меня есть модель, и я реализовал пользовательскую функцию потерь что-то вроде: def custom_loss(labels, predictions): global diff # фактический код использует декоратор, поэтому глобальных переменных нет diff = labels - predictions return tf.
Data Science
Визуализация большого количества точек в виде 3D карты плотности
00
Вопрос или проблема Результат моего компьютерного моделирования представляет собой (временно зависимую) систему большого количества (~100k) движущихся точек в замкнутом пространстве. Каждая точка имеет свои собственные декартовы координаты, а также вес
Data Science
Я получил следующую ошибку: у объекта ‘DataFrame’ нет атрибута ‘data’. Можете помочь, пожалуйста?
00
Вопрос или проблема У меня есть следующая ошибка: AttributeError: 'DataFrame' object has no attribute 'feature_names' Буду признателен за вашу помощь from sklearn.tree import DecisionTreeClassifier, export_graphviz from sklearn import tree from sklearn.
Data Science
проблема нормализации признаков
00
Вопрос или проблема Я понял из этого поста, что нам нужно нормализовать тренировочные характеристики и масштабировать тестовые/валидационные характеристики с использованием тренировочных данных. Мои тренировочные образцы имеют фиксированные размеры, но
Data Science
Модель нейронной сети для разреженного многоклассового классификатора на Tensorflow
00
Вопрос или проблема Проблема, которую я пытаюсь решить, заключается в следующем: данные из Movielens с N_users=6041 и N_movies=3953, ~1 миллион оценок. Для каждого пользователя определяется вектор размером N_movies, и значения вектора равны 1, если пользователь
Data Science
Ошибка работы с несколькими входами Keras при передаче словаря в model.fit
00
Вопрос или проблема Я работаю над моделью с несколькими входами и выходами. Передача выходов в model.fit в виде словаря работает хорошо, но если я хочу сделать то же самое с входами, я всегда получаю следующую ошибку: Недопустимая форма ввода для входного