Data Science

Предложение по поводу лучшего способа организации данных для генерации частых наборов предметов?

00

Вопрос или проблема У меня есть данные о мешке слов в документе. Данные содержат 3 столбца: {номер документа, номер слова, количество слова в номере}. Я должен сгенерировать частые наборы элементов заданного размера. Я подумал, что сделаю список всех

Data Science

Архитектура распознавания лиц

00

Вопрос или проблема Распознавание изображений использует глубокое обучение, а именно сверточные нейронные сети (CNN), для обучения и распознавания лиц. Обычно это подразумевает обучение на большом объеме данных. Однако в последнее время мы видим, как

Data Science

Запрос на помощь в получении разнообразного набора данных по крикам для исследовательского проекта

00

Вопрос или проблема Я работаю над исследовательским проектом, направленным на классификацию детских哭ов в зависимости от их потребностей. Однако я столкнулся с трудностями в получении подходящего набора данных о哭ах. Единственный набор данных, к которому

Data Science

FP-Growth – найти ВСЕ паттерны, содержащие только определенный элемент(ы)

00

Вопрос или проблема Алгоритм FP-Growth находит частые наборы предметов, т.е. он не ищет шаблоны по предметам. Если я хочу найти ВСЕ частые наборы предметов для данного элемента, я могу использовать свойство nodelink, чтобы пройти по всем путям в fp-дереве

Data Science

Почему мои предсказания неверны при выполнении сегментации изображений с помощью TensorFlow?

00

Вопрос или проблема Я пытаюсь выполнить семантическую сегментацию изображений с помощью TensorFlow. Чтобы просто заставить что-то работать, я беру одно учебное изображение, тренирую сеть на этом изображении некоторое время, а затем “

Data Science

Как дополнить пакет документов?

00

Вопрос или проблема Здравствуйте, эксперты PyTorch: Предложения и документы могут иметь переменную длину. Допустим, у нас есть следующие 2 документа: doc1=[torch.tensor([1,2,3,4]),torch.tensor([4,5,6]),torch.tensor([7,5])] doc2=[torch.

Data Science

Обнаружение аномалий с использованием кластеризации высококоррелированных категориальных данных.

00

Вопрос или проблема У меня есть данные с двумя колонками, и обе они сильно коррелируют, например, если в колонке1 значение ABC, то колонка2 должно быть XYZ, т.е. ABC–>XYZ. Если в колонке2 будет что-то другое, это аномалия.

Data Science

Многомерное шкалирование, дающее различные результаты для разных начальных условий.

00

Вопрос или проблема Я взял данные с здесь и хотел поиграть с многомерным шкалированием на этих данных. Данные выглядят следующим образом: В частности, я хочу отложить города в 2D-пространстве и посмотреть, насколько это соответствует их реальному расположению

Data Science

Что мне делать с значениями NaN в этих данных о котировках акций?

00

Вопрос или проблема Я соединял 3 дата-фрейма котировок акций, все с индексами по дате и времени. Однако они отличаются по датам начала, поэтому в результате получившийся дата-фрейм содержит значения NaN для котировок акций с более поздними датами начала.

Data Science

Как мне получить векторные представления слов для слов вне словаря, используя трансформерную модель?

00

Вопрос или проблема Когда я попытался получить векторные представления слов для предложения с использованием bio_clinical bert, для предложения из 8 слов я получил 11 идентификаторов токенов (+начальный и конечный токены), потому что “

Data Science

Какой метрикой оценивается направленная производительность в регрессионных моделях?

00

Вопрос или проблема Не уверен, озадачивает ли заголовок или нет. Вот пример: Предположим, мы строим регрессионную модель для предсказания цен на жилье. Однако, вместо того чтобы заботиться о точности предсказания, где MAE, MSE и некоторые другие метрики

Data Science

Улучшение точности предсказаний с помощью XGBoost

00

Вопрос или проблема У меня есть матрица 32×20, для которой я пытаюсь использовать XGBoost (регрессия). Я прохожу по строкам, чтобы произвести прогноз вне выборки. Я удивлен, что XGBoost возвращает ошибку вне выборки (MAPE) всего 3-4%.

Data Science

Как лучше всего визуализировать эти данные напряжения для научного проекта?

00

Вопрос или проблема Я помогаю своему сыну с его проектом по науке для 7 класса. Мы повеселились, проводя эксперименты с солнечными панелями и зарядкой 12-вольтных ИБП! Но я не уверен, как интерпретировать данные! Наша исходная гипотеза заключалась в том

Data Science

Переобучение на валидационном наборе данных

00

Вопрос или проблема Я работаю над проектом в области машинного обучения, в котором у меня есть два набора данных: X (признаки индивидуумов) и y (двоичные прогнозы: -1 или 1). Моя цель – предсказать y на основе признаков в X.

Data Science

Можно ли использовать рекомендательную систему в качестве бинарного классификатора?

00

Вопрос или проблема У меня есть проект по созданию компьютерной музыки, и я хотел бы классифицировать короткие фрагменты музыки как “хорошие” или “плохие” с помощью машинного обучения. У меня не будет большого набора для обучения.

Data Science

Ошибка распределенного обучения с использованием Accelerate

00

Вопрос или проблема import datasets from accelerate import Accelerator,notebook_launcher from datasets import load_from_disk from transformers import AutoModelForSeq2SeqLM, DataCollatorForSeq2Seq, PreTrainedTokenizerFast, Seq2SeqTrainingArguments, Seq2SeqTrainer

Data Science

Обучение с подкреплением в игре против самого себя?

00

Вопрос или проблема Предположим, у нас есть дизайн игры в крестики-нолики, использующий RL против случайного игрока. Мы можем описать систему, усиливая и вознаграждая хорошие действия. Но что, если модель RL играет сама с собой?

Data Science

Избыточная функция после кодирования с одним горячим (one hot encoding)

00

Вопрос или проблема У меня есть числовая переменная, называемая $x$, и категориальная переменная, называемая $y$. $y$ является порядковой переменной (A,B,C,D,E,F). Я использую кодирование меток для своей переменной $y$, и когда я смотрю на корреляцию

Data Science

Как удовлетворить концепцию масштабируемости с помощью алгоритмов DBSCAN и LOF

00

Вопрос или проблема Я предлагаю модель, которая сочетает в себе алгоритмы DBSCAN и LOF для обнаружения выбросов. Я хочу узнать, как удовлетворить концепции масштабируемости при выполнении этого метода с использованием наборов данных различного размера

Data Science

Как Q-Learning справляется с смешанными стратегиями?

12

Вопрос или проблема Я пытаюсь понять, как Q-обучение справляется с играми, где оптимальная стратегия является смешанной стратегией. Уравнение Беллмана говорит о том, что вы должны выбирать $max_a(Q(s,a))$, но это подразумевает единое уникальное действие для каждого $s$.