Data Science
Баланс данных HDFS в кластере
00
Вопрос или проблема Я новичок в больших данных, поэтому, пожалуйста, не критикуйте меня слишком сильно. Не могли бы вы объяснить, почему HDFS работает лучше, когда блоки файлов равномерно распределены по кластеру? Если данные не равномерно распределены
Data Science
Метод обратного распространения с функцией стоимости логарифмического правдоподобия и активацией softmax
00
Вопрос или проблема В онлайн-книге о нейронных сетях Майкла Нилсена, в главе 3, он вводит новую функцию стоимости, называемую функцией логарифмического правдоподобия, определенной следующим образом: $$ C = -ln(a_y^L) $$ Предположим, у нас есть 10 выходных
Data Science
Автоматизированный выбор признаков – Лучшие практики для предотвращения утечки данных?
00
Вопрос или проблема Этот вопрос относится в целом ко всем автоматизированным методам выбора признаков. В моем конкретном случае у нас есть Python-пакет под названием tsfresh и задача многоклассовой классификации. Что было сделано до сих пор?
Data Science
Гипотеза стационарности роста
00
Вопрос или проблема У меня есть две временные серии, демонстрирующие эволюцию количества опубликованных статей в Pubmed: общее количество статей и количество статей, содержащих «святой грааль» в тексте. Я хочу проверить гипотезу о том, будет ли количество
Data Science
Как избежать операций на месте в цикле PyTorch, чтобы разрешить обратное распространение ошибки?
00
Вопрос или проблема Я работаю над моделью PyTorch, которая включает двойной цикл для вычислений. Проблема в том, что я получаю ошибку, связанную с операциями в месте, когда пытаюсь выполнить обратное распространение. Вот упрощенный пример моего кода
Data Science
Модель коллаборативной фильтрации на основе классификации
00
Вопрос или проблема Я изучал алгоритмы для предсказания на основе коллаборативной фильтрации. В большинстве источников я читал о использовании матричной факторизации, основанной на оценках схожести пользователя. Но в моем случае мне нужно делать предсказания
Data Science
Показывает ли этот результат переобучение?
00
Вопрос или проблема Результаты модели случайного леса, которую я настроил с помощью gridsearch, следующие. Я также построил кривую обучения для нее. Вы считаете, что эта модель имеет сильное переобучение? Среднее значение целевых переменных равно 850.
Data Science
Прогнозирование продаж скрытых товаров магазина
00
Вопрос или проблема Я работаю над задачей прогнозирования продаж. Я могу предоставить алгоритму данные о том, какие товары были проданы, а какие нет.Как можно предоставить алгоритму информацию о товарах, которых нет в магазине?
Data Science
TypeError: __init__() принимает 1 позиционный аргумент, но было передано 5.
00
Вопрос или проблема Я получил эту ошибку с позиционными аргументами. Вот код, который я скопировал из других источников. --------------------------------------------------------------------------- TypeError Traceback (most recent call last) Input In [15], in <
Data Science
Как квантование может замедлить модель?
00
Вопрос или проблема Я работаю с библиотекой SentenceTransformers с одной из их моделей встраивания. Производительность хорошая, но я хотел бы пожертвовать частью точности ради повышения производительности. Я пробовал квантизировать модель, с которой работаю
Data Science
Как обрабатывать данные Compass в регрессионном дереве решений (Random Forest)
00
Вопрос или проблема Я работаю над проектом, в котором две функции называются entryHeading и exitHeading. Обе они указывают направление (С, СВ, В, ЮВ, Ю, ЮЗ, З) транспортного средства в нескольких точках. Мой вопрос: как мне подойти к предварительной обработке этих данных?
Data Science
Как улучшить модель предсказания видео в Keras?
00
Вопрос или проблема Я работаю над моделью прогнозирования преступлений. У меня есть изображения того, как преступления выглядят каждый день в городе в течение года, и я хочу использовать 30 дней преступности для прогнозирования 31-го дня (так же, как
Data Science
Как добавить перекрестный член в модель логистической регрессии?
00
Вопрос или проблема У меня есть данные о 2000 (например, местоположения, где растут разные фрукты) и 10000 (например, факторы, влияющие на рост фруктов). Я также знаю, что в этих местоположениях имеется 20 различных типов фруктов.
Data Science
Как количество образцов на обновление повлияет на алгоритм EM?
00
Вопрос или проблема Я использую итеративный метод максимального правдоподобия для подгонки вероятностного распределения. В частности, я использую смесительную модель фон Мизеса-Фишера (сферическую гауссову смесь), и действительно существует закрытая форма
Data Science
Модель LSTM TensorFlow с меньшей потерей эпохи, но более высоким средним RMSE. Как/почему?
00
Вопрос или проблема Меня очень смущает меньшая потеря, но более высокий RMSE: Вот новая модель с лучшими показателями потерь на том же наборе данных и с большим числом предикторов: Сложение 3 из 3 Эпоха 1/10 170362/170362 [==============================]
Data Science
Использование KNN для классификации инвентаря (физических товарных позиций) – это лучший способ?
00
Вопрос или проблема Я работаю над задачей машинного обучения, связанной с инвентаризацией (то есть физическим запасом в розничной торговле), однако в процессе очистки (удаления выбросов) некоторые товары (через соответствующие транзакции) будут удалены.
Data Science
Требуется ли кросс-валидация при моделировании с помощью случайных лесов?
00
Вопрос или проблема Насколько я видел, мнения по этому вопросу сильно различаются. Наилучшей практикой было бы использовать кросс-валидацию (особенно если сравнивать случайные леса с другими алгоритмами на одном и том же наборе данных).
Data Science
Как интерпретировать важность модели случайного леса, среднее уменьшение точности и среднее уменьшение Джини?
00
Вопрос или проблема Модель случайного леса выводит следующие значения важности. Как мне их интерпретировать для выбора признаков? Если это среднее снижение точности, означает ли это, что удаление этих признаков из модели должно увеличить точность?
Data Science
Почему моя модель Transformer выдает один и тот же класс для каждого токена и не улучшается, несмотря на снижение потерь?
00
Вопрос или проблема В настоящее время я обучаю модель Transformer для задачи классификации последовательностей, используя CrossEntropyLoss. Мой входной тензор имеет размерность (batch_size, classes, seq_len), а целевой тензор имеет размерность (batch_size, seq_len).
Data Science
Как определить выбросы на основе регрессии с логарифмическим масштабом?
00
Вопрос или проблема Я сталкиваюсь с проблемой, когда мне нужно обнаружить выбросы в сборе данных. Цель состоит в том, чтобы выявлять выбросы по переменной Y на основе ее связи с переменной X. Для этого я сделал следующее: Построил график в логарифмическом