Data Science
Имеет ли смысл, что производительность XG Boost резко варьируется между двумя машинами при фиксированных гиперпараметрах?
00
Вопрос или проблема Я настраиваю гиперпараметры модели XGBoost и обнаруживаю, что в зависимости от того, тренирую ли я модель локально на своем компьютере или на AWS SageMaker, я получаю довольно разные результаты. Запуск перекрестной проверки локально
Data Science
Выбор количества тем (кластеров) в текстовых данных
00
Вопрос или проблема У меня есть опыт в области социальных наук, и я занимаюсь проектом по текстовому анализу. Я ищу советы по выбору количества тем/кластеров при анализе текстовых данных. В частности, я анализирую набор данных из более чем 200000 твитов
Data Science
Работа с нестабильностью подгонки в прогнозировании временных рядов
00
Вопрос или проблема Я работаю над сложной моделью прогнозирования временных рядов с использованием tensorflow. Модель является бинарным классификатором с примерно 100 признаками, которая в основном состоит из 4 слоев LSTM (входной + 2 скрытых + выходной)
Data Science
Обучение Word2Vec на именах вместо предложений
00
Вопрос или проблема У меня есть научная база данных с статьями и соавторами. С помощью этой базы данных я обучаю модель word2vec на соавторах. Цель использования здесь заключается в разрешении неоднозначностей авторов. Мне интересно, можно ли улучшить
Data Science
Прогнозирование изменения форм/координат
00
Вопрос или проблема Я пытаюсь найти способ предсказать/рассчитать, как форма (например, контур ледника) изменится в будущем, исходя из ее истории (предыдущей формы) и дополнительных факторов (например, Δтемпературы). В моем примере: у меня есть форма/координаты
Data Science
Pyspark Dataframes в Pandas и ML Ops – Задержка при параллельном выполнении?
00
Вопрос или проблема Если я преобразую Spark DataFrame в Pandas DataFrame, а затем применю операции Pandas и модели sklearn к набору данных в Databricks, будут ли операции из Pandas и sklearn распределены по кластеру? Или мне нужно использовать операции
Data Science
Сcurve_fit Scipy и метод “dogbox”
00
Вопрос или проблема Я пытаюсь воспроизвести в этом исследовании1 инженерию признаков для активности пользователей. Они используют 14 дней накопленной активности пользователей и сохраняют параметры (2 параметра), которые соответствуют сигмоиде.
Data Science
XGBoost выводит деревья за пределами n_estimator
00
Вопрос или проблема У меня есть модель XGBoost с следующими параметрами xgbc_final = XGBClassifier(objective="multi:softprob", num_class = 2,max_depth = 60, n_estimators = 512, reg_lambda = 0.1214, alpha = 0.9131, gamma = 0, colsample_bytree = 0.
Data Science
Запрос о использовании CNN и MCTS для определенной игры
00
Вопрос или проблема Я теоретизирую идею использовать CNN и MCTS вместе для игры в определённую игру. В общих чертах, игра имеет следующие характеристики: Есть два игрока, и игра примерно пошаговая. На каждом ходе есть довольно много вариантов, из которых
Data Science
Как нарисовать диаграмму фаз жизненного цикла?
00
Вопрос или проблема Этот тип диаграммы очень похож на диаграмму типа “пончик”, но каждый сегмент является стрелкой для отображения модели. Вот одна из диаграмм, которую я смог создать в формате SVG, используя запрос LLM.
Data Science
Разделитель в деревьях решений в реализации sklearn
00
Вопрос или проблема Я очень запутался в том, как деревья решений выбирают признаки и пороговые значения для разбиения. Я полностью понимаю различные метрики разбиения (индекс Джини и так далее), используемые и то, как они работают.
Data Science
Кластеризация нескольких CSV-файлов, которые не помещаются в ОЗУ
00
Вопрос или проблема У меня есть несколько файлов CSV, каждый из которых содержит не менее 200 МБ данных по 12 столбцам. Каждый CSV файл, возможно, может принадлежать к 4 категориям или меткам. Я пытаюсь выяснить, в какие кластеры попадает каждый из этих файлов.
Data Science
Библиотека для абстрактивного суммаризирования
00
Вопрос или проблема Существует ли библиотека Python, поддерживающая абстрактивное суммирование? (Исключая облачные модели, такие как GPT или ChatGPT). Мы можем легко выполнить экстрактивное суммирование, используя код ниже: !pip3 install transformers==4.11.3 !
Data Science
Итерация по диапазонам, заданным парой целочисленных массивов
00
Вопрос или проблема У меня есть многомерный массив $\boldsymbol{A}$ значений, и я хочу вычислить сумму значений для каждого ортогонального диапазона. Ортогональные диапазоны определяются парой «антиподальных» углов $\left(x_0,\,\dots,\,x_{n-1}\right),\left(x_0+c_0,\,\dots,\,x_{n-1}+c_{n-1}\right);
Data Science
Обучение с подкреплением: негативная награда (наказание) за незаконные действия?
00
Вопрос или проблема Если вы обучаете агента с помощью обучения с подкреплением (в данном случае с использованием функции Q), следует ли давать негативное вознаграждение (наказывать), если агент предлагает незаконные действия для представленного состояния?
Data Science
Обучение с подкреплением: Почему жадные действия с оптимальной функцией значения приводят к оптимальной стратегии?
00
Вопрос или проблема Курс Дэвида Сильвера по обучению с подкреплением объясняет, как получить оптимальную стратегию из оптимальной функции ценности. Это кажется очень простым, нужно всего лишь действовать жадно, максимально увеличивая функцию ценности на каждом шаге.
Data Science
Подходящий статистический тест
00
Вопрос или проблема Я работаю над проектом, в котором у меня есть профили пользователей Twitter и их твиты. Пользователи разделены на две группы в зависимости от количества подписчиков (g1 и g2). Затем для каждого пользователя из g1 был сопоставлен один
Data Science
Ожидаемая производительность обучения модели tf.keras.Sequential с использованием model.fit, model.fit_generator и model.train_on_batch
00
Вопрос или проблема Я использую Keras с бекендом Tensorflow для обучения простейшей 1D КСН для обнаружения определённых событий на основе данных с датчиков. Хотя данные с десятками миллионов выборок легко помещаются в оперативную память в виде одномерного
Data Science
Реально ли использовать алгоритмы деревьев решений для обнаружения ошибок сенсоров?
00
Вопрос или проблема Суть в том, что я хочу отделить системные ошибки от ошибок сенсоров, используя некоторый набор данных из беспроводной сенсорной сети с помощью алгоритма машинного обучения. Например, если у меня есть несколько температурных сенсоров
Data Science
Не удается устранить ошибку типа с использованием Tokenizer.tokenize из NLTK
00
Вопрос или проблема Я хочу токенизировать текстовые данные, но не могу продолжить из-за ошибки типа и не знаю, как исправить ошибку. Чтобы дать немного контекста — все столбцы — ‘Код решения’, ‘Заметка о решении’