Data Science

Имеет ли смысл, что производительность XG Boost резко варьируется между двумя машинами при фиксированных гиперпараметрах?

00

Вопрос или проблема Я настраиваю гиперпараметры модели XGBoost и обнаруживаю, что в зависимости от того, тренирую ли я модель локально на своем компьютере или на AWS SageMaker, я получаю довольно разные результаты. Запуск перекрестной проверки локально

Data Science

Выбор количества тем (кластеров) в текстовых данных

00

Вопрос или проблема У меня есть опыт в области социальных наук, и я занимаюсь проектом по текстовому анализу. Я ищу советы по выбору количества тем/кластеров при анализе текстовых данных. В частности, я анализирую набор данных из более чем 200000 твитов

Data Science

Работа с нестабильностью подгонки в прогнозировании временных рядов

00

Вопрос или проблема Я работаю над сложной моделью прогнозирования временных рядов с использованием tensorflow. Модель является бинарным классификатором с примерно 100 признаками, которая в основном состоит из 4 слоев LSTM (входной + 2 скрытых + выходной)

Data Science

Обучение Word2Vec на именах вместо предложений

00

Вопрос или проблема У меня есть научная база данных с статьями и соавторами. С помощью этой базы данных я обучаю модель word2vec на соавторах. Цель использования здесь заключается в разрешении неоднозначностей авторов. Мне интересно, можно ли улучшить

Data Science

Прогнозирование изменения форм/координат

00

Вопрос или проблема Я пытаюсь найти способ предсказать/рассчитать, как форма (например, контур ледника) изменится в будущем, исходя из ее истории (предыдущей формы) и дополнительных факторов (например, Δтемпературы). В моем примере: у меня есть форма/координаты

Data Science

Pyspark Dataframes в Pandas и ML Ops – Задержка при параллельном выполнении?

00

Вопрос или проблема Если я преобразую Spark DataFrame в Pandas DataFrame, а затем применю операции Pandas и модели sklearn к набору данных в Databricks, будут ли операции из Pandas и sklearn распределены по кластеру? Или мне нужно использовать операции

Data Science

Сcurve_fit Scipy и метод “dogbox”

00

Вопрос или проблема Я пытаюсь воспроизвести в этом исследовании1 инженерию признаков для активности пользователей. Они используют 14 дней накопленной активности пользователей и сохраняют параметры (2 параметра), которые соответствуют сигмоиде.

Data Science

XGBoost выводит деревья за пределами n_estimator

00

Вопрос или проблема У меня есть модель XGBoost с следующими параметрами xgbc_final = XGBClassifier(objective="multi:softprob", num_class = 2,max_depth = 60, n_estimators = 512, reg_lambda = 0.1214, alpha = 0.9131, gamma = 0, colsample_bytree = 0.

Data Science

Запрос о использовании CNN и MCTS для определенной игры

00

Вопрос или проблема Я теоретизирую идею использовать CNN и MCTS вместе для игры в определённую игру. В общих чертах, игра имеет следующие характеристики: Есть два игрока, и игра примерно пошаговая. На каждом ходе есть довольно много вариантов, из которых

Data Science

Как нарисовать диаграмму фаз жизненного цикла?

00

Вопрос или проблема Этот тип диаграммы очень похож на диаграмму типа “пончик”, но каждый сегмент является стрелкой для отображения модели. Вот одна из диаграмм, которую я смог создать в формате SVG, используя запрос LLM.

Data Science

Разделитель в деревьях решений в реализации sklearn

00

Вопрос или проблема Я очень запутался в том, как деревья решений выбирают признаки и пороговые значения для разбиения. Я полностью понимаю различные метрики разбиения (индекс Джини и так далее), используемые и то, как они работают.

Data Science

Кластеризация нескольких CSV-файлов, которые не помещаются в ОЗУ

00

Вопрос или проблема У меня есть несколько файлов CSV, каждый из которых содержит не менее 200 МБ данных по 12 столбцам. Каждый CSV файл, возможно, может принадлежать к 4 категориям или меткам. Я пытаюсь выяснить, в какие кластеры попадает каждый из этих файлов.

Data Science

Библиотека для абстрактивного суммаризирования

00

Вопрос или проблема Существует ли библиотека Python, поддерживающая абстрактивное суммирование? (Исключая облачные модели, такие как GPT или ChatGPT). Мы можем легко выполнить экстрактивное суммирование, используя код ниже: !pip3 install transformers==4.11.3 !

Data Science

Итерация по диапазонам, заданным парой целочисленных массивов

00

Вопрос или проблема У меня есть многомерный массив $\boldsymbol{A}$ значений, и я хочу вычислить сумму значений для каждого ортогонального диапазона. Ортогональные диапазоны определяются парой «антиподальных» углов $\left(x_0,\,\dots,\,x_{n-1}\right),\left(x_0+c_0,\,\dots,\,x_{n-1}+c_{n-1}\right);

Data Science

Обучение с подкреплением: негативная награда (наказание) за незаконные действия?

00

Вопрос или проблема Если вы обучаете агента с помощью обучения с подкреплением (в данном случае с использованием функции Q), следует ли давать негативное вознаграждение (наказывать), если агент предлагает незаконные действия для представленного состояния?

Data Science

Обучение с подкреплением: Почему жадные действия с оптимальной функцией значения приводят к оптимальной стратегии?

00

Вопрос или проблема Курс Дэвида Сильвера по обучению с подкреплением объясняет, как получить оптимальную стратегию из оптимальной функции ценности. Это кажется очень простым, нужно всего лишь действовать жадно, максимально увеличивая функцию ценности на каждом шаге.

Data Science

Подходящий статистический тест

00

Вопрос или проблема Я работаю над проектом, в котором у меня есть профили пользователей Twitter и их твиты. Пользователи разделены на две группы в зависимости от количества подписчиков (g1 и g2). Затем для каждого пользователя из g1 был сопоставлен один

Data Science

Ожидаемая производительность обучения модели tf.keras.Sequential с использованием model.fit, model.fit_generator и model.train_on_batch

00

Вопрос или проблема Я использую Keras с бекендом Tensorflow для обучения простейшей 1D КСН для обнаружения определённых событий на основе данных с датчиков. Хотя данные с десятками миллионов выборок легко помещаются в оперативную память в виде одномерного

Data Science

Реально ли использовать алгоритмы деревьев решений для обнаружения ошибок сенсоров?

00

Вопрос или проблема Суть в том, что я хочу отделить системные ошибки от ошибок сенсоров, используя некоторый набор данных из беспроводной сенсорной сети с помощью алгоритма машинного обучения. Например, если у меня есть несколько температурных сенсоров

Data Science

Не удается устранить ошибку типа с использованием Tokenizer.tokenize из NLTK

00

Вопрос или проблема Я хочу токенизировать текстовые данные, но не могу продолжить из-за ошибки типа и не знаю, как исправить ошибку. Чтобы дать немного контекста — все столбцы — ‘Код решения’, ‘Заметка о решении’