Data Science

несбалансированные данные в обучающей и тестовой выборках

00

Вопрос или проблема У меня уже есть 2 набора данных. Один для обучения и один для тестирования. Оба набора данных несбалансированы (с похожими процентами), с около 90% метки 1. Будет ли полезно сбалансировать данные, если тестовый набор в любом случае очень несбалансирован?

Data Science

Измерение показателя согласованности для моделей Top2Vec

00

Вопрос или проблема Я работаю над созданием нескольких моделей Top2Vec на потоках Reddit. В основном я изменяю размеры кластеров HDBScan, чтобы получить разные кластеры встраиваний Doc2Vec, представляющие разное количество тем.

Data Science

Когда остановить обучение финальной модели?

00

Вопрос или проблема Предположим, я участвую в соревновании по распознаванию изображений на Kaggle. Во-первых, я создаю разделение на обучающую и валидационную выборки и нахожу хорошие гиперпараметры для своей модели. Здесь критерием остановки является

Data Science

Что делать, когда тестовые значения не коррелируют с прогнозами?

00

Вопрос или проблема У меня есть задача регрессии, где я получил среднюю абсолютную ошибку, близкую к желаемому значению, но предсказания плохо коррелируют с ожидаемыми значениями. Я пробовал несколько алгоритмов, сопоставил их с GridSearchCV.

Data Science

Оранжевый не показывает инструмент Geo Map на OS X.

00

Вопрос или проблема Я использую Orange 3.3.11 и не могу найти виджет “Geo Map” на OS X. Но документация утверждает, что такой виджет существует. Как мне найти этот виджет? Проверьте, есть ли у вас виджет “Map”

Data Science

Удаление дублирующихся строк в Orange

00

Вопрос или проблема В Orange у меня есть таблица с дублированными строками. Как я могу просто удалить дублированные строки, оставив только одну копию каждой? Мне кажется, что Orange великолепен, но не может выполнять простые задачи.

Data Science

Непрерывное оценивающее время прибытия

00

Вопрос или проблема Я пытаюсь создать модель для определения времени прибытия отправленного продукта в пункт назначения. Существуют несколько этапов, через которые проходит доставка, поэтому это не просто время в пути от точки А до точки Б.

Data Science

Выравнивание тем / моделирование тем

00

Вопрос или проблема Какой самый эффективный метод для определения того, касается ли статья в основном конкретной темы, но без большого объема данных для обучения? Моя задача заключается в том, чтобы определить, насколько документ касается, например, погоды

Data Science

Пожалуйста, прокомментируйте моё предложение для выпускной работы (нужны предложения!!!)

00

Вопрос или проблема 🎗 Название Проекта Space Vet: Ветеринарные услуги и уход за виртуальными питомцами с использованием ИИ 🔗 Область Интересов (AOI), Домен, Фокус Исследования (RF), Кейсовое Исследование (CS) AOI: Аналитика Данных/Текстов (Искусственный

Data Science

Сопоставление сходства между двумя различными наборами данных (маркетинговое исследование)

00

Вопрос или проблема Я работаю в компании, которая продает различные продукты клиентам. Моя задача – найти клиентов, которые, вероятно, купят продукт X, основываясь на профилях клиентов, уже купивших продукт X. Моя первая идея заключалась в следующем

Data Science

Сравнение строк в Data Studio

00

Вопрос или проблема Я использую Data Studio для проекта и подключаюсь к своей таблице BigQuery. Моя таблица содержит следующие столбцы: Дата Название_магазина Посещаемость Я хотел бы сравнить посещаемость двух магазинов, используя Data Studio, но, похоже, я не могу этого сделать!

Data Science

Адаптация медицинского трансформера для сегментации ран с несколькими классами

00

Вопрос или проблема Я использую Medical Transformer (https://github.com/jeya-maria-jose/Medical-Transformer) для сегментации ран, но хотел бы адаптировать его для сегментации трех различных классов: раны, дополнительный маркер и фон.

Data Science

Кластеризация гиперспектральных изображений в оранжевом цвете

00

Вопрос или проблема Orange имеет гиперспектральный набор данных под названием “цирроз печени”, и вы можете визуализировать гиперспектральное изображение, используя виджет гиперспектрального изображения. Однако я хотел бы применить различные

Data Science

Какую предобученную модель выбрать для генерации векторов из названий магазинов, написанных на английском языке?

00

Вопрос или проблема Добрый день! У меня есть набор данных с тысячами названий магазинов на английском языке. Несколько названий магазинов могут принадлежать одной бизнес-единице, например, магазины с названиями “KFC 001”

Data Science

Как сбалансировать набор данных, извлеченный с помощью image_dataset_from_directory

00

Вопрос или проблема Я новичок в tensorflow, и сейчас я пытаюсь найти лучший способ сбалансировать классы в наборе данных, который я загружаю с помощью image_dataset_from_directory. Но я не нашёл способ это сделать. Я видел из разных источников, что SMOTE

Data Science

Как создать модель для выбора набора категорий с набором атрибутов?

00

Вопрос или проблема У меня есть несколько сотен категорий, каждая из которых имеет конкретный набор атрибутов с различными значениями (историческими). Проблема, которую мне нужно решить, заключается в том, чтобы выбрать лучший набор категорий из меньшей

Data Science

Как применить модель к обучающим данным для выявления неправильно размеченных наблюдений?

00

Вопрос или проблема У меня есть список людей, атрибуты этих людей (рост, вес, кровяное давление и т. д.) и двоичная целевая переменная, называемая has_heart_issues. Эти данные представляют собой полную популяцию данных, и я пытаюсь определить, похожи

Data Science

Ищу пару идей, пожалуйста.

00

Вопрос или проблема У меня есть данные по почтовым зонам, которые включают: Код почтовой зоны Среднее значение аренды за квадратный фут Привязанность к бренду 1 Привязанность к бренду 2 Привязанность к бренду 3 Привязанность к бренду 4 … и так далее Данные

Data Science

Как я могу распечатать данные после подгонки данных в конвейере?

00

Вопрос или проблема Я использовал 3 функции из scipy: TFIDF векторизатор, Мультивыходной классификатор и Линейный SVC. Код выглядит так. pipe_lr1 = Pipeline(steps=[('cv',TfidfVectorizer()), ('lr_multi',MultiOutputClassifier(LinearSVC()))]) Как я могу

Data Science

В чем разница между nDCG и методами ранговой корреляции?

00

Вопрос или проблема Когда мы используем то одно, то другое? Мой случай применения: Я хочу оценить линейное пространство, чтобы увидеть, насколько хороши результаты извлечения. У меня есть набор данных X (m x n) и некоторые веса W (m x 1).