Data Science
Data Science
Вопрос или проблема У меня уже есть 2 набора данных. Один для обучения и один для тестирования. Оба набора данных несбалансированы (с похожими процентами), с около 90% метки 1. Будет ли полезно сбалансировать данные, если тестовый набор в любом случае очень несбалансирован?
Data Science
Вопрос или проблема Я работаю над созданием нескольких моделей Top2Vec на потоках Reddit. В основном я изменяю размеры кластеров HDBScan, чтобы получить разные кластеры встраиваний Doc2Vec, представляющие разное количество тем.
Data Science
Вопрос или проблема Предположим, я участвую в соревновании по распознаванию изображений на Kaggle. Во-первых, я создаю разделение на обучающую и валидационную выборки и нахожу хорошие гиперпараметры для своей модели. Здесь критерием остановки является
Data Science
Вопрос или проблема У меня есть задача регрессии, где я получил среднюю абсолютную ошибку, близкую к желаемому значению, но предсказания плохо коррелируют с ожидаемыми значениями. Я пробовал несколько алгоритмов, сопоставил их с GridSearchCV.
Data Science
Вопрос или проблема Я использую Orange 3.3.11 и не могу найти виджет “Geo Map” на OS X. Но документация утверждает, что такой виджет существует. Как мне найти этот виджет? Проверьте, есть ли у вас виджет “Map”
Data Science
Вопрос или проблема В Orange у меня есть таблица с дублированными строками. Как я могу просто удалить дублированные строки, оставив только одну копию каждой? Мне кажется, что Orange великолепен, но не может выполнять простые задачи.
Data Science
Вопрос или проблема Я пытаюсь создать модель для определения времени прибытия отправленного продукта в пункт назначения. Существуют несколько этапов, через которые проходит доставка, поэтому это не просто время в пути от точки А до точки Б.
Data Science
Вопрос или проблема Какой самый эффективный метод для определения того, касается ли статья в основном конкретной темы, но без большого объема данных для обучения? Моя задача заключается в том, чтобы определить, насколько документ касается, например, погоды
Data Science
Вопрос или проблема 🎗 Название Проекта Space Vet: Ветеринарные услуги и уход за виртуальными питомцами с использованием ИИ 🔗 Область Интересов (AOI), Домен, Фокус Исследования (RF), Кейсовое Исследование (CS) AOI: Аналитика Данных/Текстов (Искусственный
Data Science
Вопрос или проблема Я работаю в компании, которая продает различные продукты клиентам. Моя задача – найти клиентов, которые, вероятно, купят продукт X, основываясь на профилях клиентов, уже купивших продукт X. Моя первая идея заключалась в следующем
Data Science
Вопрос или проблема Я использую Data Studio для проекта и подключаюсь к своей таблице BigQuery. Моя таблица содержит следующие столбцы: Дата Название_магазина Посещаемость Я хотел бы сравнить посещаемость двух магазинов, используя Data Studio, но, похоже, я не могу этого сделать!
Data Science
Вопрос или проблема Я использую Medical Transformer (https://github.com/jeya-maria-jose/Medical-Transformer) для сегментации ран, но хотел бы адаптировать его для сегментации трех различных классов: раны, дополнительный маркер и фон.
Data Science
Вопрос или проблема Orange имеет гиперспектральный набор данных под названием “цирроз печени”, и вы можете визуализировать гиперспектральное изображение, используя виджет гиперспектрального изображения. Однако я хотел бы применить различные
Data Science
Вопрос или проблема Добрый день! У меня есть набор данных с тысячами названий магазинов на английском языке. Несколько названий магазинов могут принадлежать одной бизнес-единице, например, магазины с названиями “KFC 001”
Data Science
Вопрос или проблема Я новичок в tensorflow, и сейчас я пытаюсь найти лучший способ сбалансировать классы в наборе данных, который я загружаю с помощью image_dataset_from_directory. Но я не нашёл способ это сделать. Я видел из разных источников, что SMOTE
Data Science
Вопрос или проблема У меня есть несколько сотен категорий, каждая из которых имеет конкретный набор атрибутов с различными значениями (историческими). Проблема, которую мне нужно решить, заключается в том, чтобы выбрать лучший набор категорий из меньшей
Data Science
Вопрос или проблема У меня есть список людей, атрибуты этих людей (рост, вес, кровяное давление и т. д.) и двоичная целевая переменная, называемая has_heart_issues. Эти данные представляют собой полную популяцию данных, и я пытаюсь определить, похожи
Data Science
Вопрос или проблема У меня есть данные по почтовым зонам, которые включают: Код почтовой зоны Среднее значение аренды за квадратный фут Привязанность к бренду 1 Привязанность к бренду 2 Привязанность к бренду 3 Привязанность к бренду 4 … и так далее Данные
Data Science
Вопрос или проблема Я использовал 3 функции из scipy: TFIDF векторизатор, Мультивыходной классификатор и Линейный SVC. Код выглядит так. pipe_lr1 = Pipeline(steps=[('cv',TfidfVectorizer()), ('lr_multi',MultiOutputClassifier(LinearSVC()))]) Как я могу
Data Science
Вопрос или проблема Когда мы используем то одно, то другое? Мой случай применения: Я хочу оценить линейное пространство, чтобы увидеть, насколько хороши результаты извлечения. У меня есть набор данных X (m x n) и некоторые веса W (m x 1).