Data Science
Предложение по поводу лучшего способа организации данных для генерации частых наборов предметов?
00
Вопрос или проблема У меня есть данные о мешке слов в документе. Данные содержат 3 столбца: {номер документа, номер слова, количество слова в номере}. Я должен сгенерировать частые наборы элементов заданного размера. Я подумал, что сделаю список всех
Data Science
Архитектура распознавания лиц
00
Вопрос или проблема Распознавание изображений использует глубокое обучение, а именно сверточные нейронные сети (CNN), для обучения и распознавания лиц. Обычно это подразумевает обучение на большом объеме данных. Однако в последнее время мы видим, как
Data Science
Запрос на помощь в получении разнообразного набора данных по крикам для исследовательского проекта
00
Вопрос или проблема Я работаю над исследовательским проектом, направленным на классификацию детских哭ов в зависимости от их потребностей. Однако я столкнулся с трудностями в получении подходящего набора данных о哭ах. Единственный набор данных, к которому
Data Science
FP-Growth – найти ВСЕ паттерны, содержащие только определенный элемент(ы)
00
Вопрос или проблема Алгоритм FP-Growth находит частые наборы предметов, т.е. он не ищет шаблоны по предметам. Если я хочу найти ВСЕ частые наборы предметов для данного элемента, я могу использовать свойство nodelink, чтобы пройти по всем путям в fp-дереве
Data Science
Почему мои предсказания неверны при выполнении сегментации изображений с помощью TensorFlow?
00
Вопрос или проблема Я пытаюсь выполнить семантическую сегментацию изображений с помощью TensorFlow. Чтобы просто заставить что-то работать, я беру одно учебное изображение, тренирую сеть на этом изображении некоторое время, а затем “
Data Science
Как дополнить пакет документов?
00
Вопрос или проблема Здравствуйте, эксперты PyTorch: Предложения и документы могут иметь переменную длину. Допустим, у нас есть следующие 2 документа: doc1=[torch.tensor([1,2,3,4]),torch.tensor([4,5,6]),torch.tensor([7,5])] doc2=[torch.
Data Science
Обнаружение аномалий с использованием кластеризации высококоррелированных категориальных данных.
00
Вопрос или проблема У меня есть данные с двумя колонками, и обе они сильно коррелируют, например, если в колонке1 значение ABC, то колонка2 должно быть XYZ, т.е. ABC–>XYZ. Если в колонке2 будет что-то другое, это аномалия.
Data Science
Многомерное шкалирование, дающее различные результаты для разных начальных условий.
00
Вопрос или проблема Я взял данные с здесь и хотел поиграть с многомерным шкалированием на этих данных. Данные выглядят следующим образом: В частности, я хочу отложить города в 2D-пространстве и посмотреть, насколько это соответствует их реальному расположению
Data Science
Что мне делать с значениями NaN в этих данных о котировках акций?
00
Вопрос или проблема Я соединял 3 дата-фрейма котировок акций, все с индексами по дате и времени. Однако они отличаются по датам начала, поэтому в результате получившийся дата-фрейм содержит значения NaN для котировок акций с более поздними датами начала.
Data Science
Как мне получить векторные представления слов для слов вне словаря, используя трансформерную модель?
00
Вопрос или проблема Когда я попытался получить векторные представления слов для предложения с использованием bio_clinical bert, для предложения из 8 слов я получил 11 идентификаторов токенов (+начальный и конечный токены), потому что “
Data Science
Какой метрикой оценивается направленная производительность в регрессионных моделях?
00
Вопрос или проблема Не уверен, озадачивает ли заголовок или нет. Вот пример: Предположим, мы строим регрессионную модель для предсказания цен на жилье. Однако, вместо того чтобы заботиться о точности предсказания, где MAE, MSE и некоторые другие метрики
Data Science
Улучшение точности предсказаний с помощью XGBoost
00
Вопрос или проблема У меня есть матрица 32×20, для которой я пытаюсь использовать XGBoost (регрессия). Я прохожу по строкам, чтобы произвести прогноз вне выборки. Я удивлен, что XGBoost возвращает ошибку вне выборки (MAPE) всего 3-4%.
Data Science
Как лучше всего визуализировать эти данные напряжения для научного проекта?
00
Вопрос или проблема Я помогаю своему сыну с его проектом по науке для 7 класса. Мы повеселились, проводя эксперименты с солнечными панелями и зарядкой 12-вольтных ИБП! Но я не уверен, как интерпретировать данные! Наша исходная гипотеза заключалась в том
Data Science
Переобучение на валидационном наборе данных
00
Вопрос или проблема Я работаю над проектом в области машинного обучения, в котором у меня есть два набора данных: X (признаки индивидуумов) и y (двоичные прогнозы: -1 или 1). Моя цель – предсказать y на основе признаков в X.
Data Science
Можно ли использовать рекомендательную систему в качестве бинарного классификатора?
00
Вопрос или проблема У меня есть проект по созданию компьютерной музыки, и я хотел бы классифицировать короткие фрагменты музыки как “хорошие” или “плохие” с помощью машинного обучения. У меня не будет большого набора для обучения.
Data Science
Ошибка распределенного обучения с использованием Accelerate
00
Вопрос или проблема import datasets from accelerate import Accelerator,notebook_launcher from datasets import load_from_disk from transformers import AutoModelForSeq2SeqLM, DataCollatorForSeq2Seq, PreTrainedTokenizerFast, Seq2SeqTrainingArguments, Seq2SeqTrainer
Data Science
Обучение с подкреплением в игре против самого себя?
00
Вопрос или проблема Предположим, у нас есть дизайн игры в крестики-нолики, использующий RL против случайного игрока. Мы можем описать систему, усиливая и вознаграждая хорошие действия. Но что, если модель RL играет сама с собой?
Data Science
Избыточная функция после кодирования с одним горячим (one hot encoding)
00
Вопрос или проблема У меня есть числовая переменная, называемая $x$, и категориальная переменная, называемая $y$. $y$ является порядковой переменной (A,B,C,D,E,F). Я использую кодирование меток для своей переменной $y$, и когда я смотрю на корреляцию
Data Science
Как удовлетворить концепцию масштабируемости с помощью алгоритмов DBSCAN и LOF
00
Вопрос или проблема Я предлагаю модель, которая сочетает в себе алгоритмы DBSCAN и LOF для обнаружения выбросов. Я хочу узнать, как удовлетворить концепции масштабируемости при выполнении этого метода с использованием наборов данных различного размера
Data Science
Как Q-Learning справляется с смешанными стратегиями?
12
Вопрос или проблема Я пытаюсь понять, как Q-обучение справляется с играми, где оптимальная стратегия является смешанной стратегией. Уравнение Беллмана говорит о том, что вы должны выбирать $max_a(Q(s,a))$, но это подразумевает единое уникальное действие для каждого $s$.