Data Science
несбалансированные данные в обучающей и тестовой выборках
00
Вопрос или проблема У меня уже есть 2 набора данных. Один для обучения и один для тестирования. Оба набора данных несбалансированы (с похожими процентами), с около 90% метки 1. Будет ли полезно сбалансировать данные, если тестовый набор в любом случае очень несбалансирован?
Data Science
Измерение показателя согласованности для моделей Top2Vec
00
Вопрос или проблема Я работаю над созданием нескольких моделей Top2Vec на потоках Reddit. В основном я изменяю размеры кластеров HDBScan, чтобы получить разные кластеры встраиваний Doc2Vec, представляющие разное количество тем.
Data Science
Когда остановить обучение финальной модели?
00
Вопрос или проблема Предположим, я участвую в соревновании по распознаванию изображений на Kaggle. Во-первых, я создаю разделение на обучающую и валидационную выборки и нахожу хорошие гиперпараметры для своей модели. Здесь критерием остановки является
Data Science
Что делать, когда тестовые значения не коррелируют с прогнозами?
00
Вопрос или проблема У меня есть задача регрессии, где я получил среднюю абсолютную ошибку, близкую к желаемому значению, но предсказания плохо коррелируют с ожидаемыми значениями. Я пробовал несколько алгоритмов, сопоставил их с GridSearchCV.
Data Science
Оранжевый не показывает инструмент Geo Map на OS X.
00
Вопрос или проблема Я использую Orange 3.3.11 и не могу найти виджет “Geo Map” на OS X. Но документация утверждает, что такой виджет существует. Как мне найти этот виджет? Проверьте, есть ли у вас виджет “Map”
Data Science
Удаление дублирующихся строк в Orange
00
Вопрос или проблема В Orange у меня есть таблица с дублированными строками. Как я могу просто удалить дублированные строки, оставив только одну копию каждой? Мне кажется, что Orange великолепен, но не может выполнять простые задачи.
Data Science
Непрерывное оценивающее время прибытия
00
Вопрос или проблема Я пытаюсь создать модель для определения времени прибытия отправленного продукта в пункт назначения. Существуют несколько этапов, через которые проходит доставка, поэтому это не просто время в пути от точки А до точки Б.
Data Science
Выравнивание тем / моделирование тем
00
Вопрос или проблема Какой самый эффективный метод для определения того, касается ли статья в основном конкретной темы, но без большого объема данных для обучения? Моя задача заключается в том, чтобы определить, насколько документ касается, например, погоды
Data Science
Пожалуйста, прокомментируйте моё предложение для выпускной работы (нужны предложения!!!)
00
Вопрос или проблема 🎗 Название Проекта Space Vet: Ветеринарные услуги и уход за виртуальными питомцами с использованием ИИ 🔗 Область Интересов (AOI), Домен, Фокус Исследования (RF), Кейсовое Исследование (CS) AOI: Аналитика Данных/Текстов (Искусственный
Data Science
Сопоставление сходства между двумя различными наборами данных (маркетинговое исследование)
00
Вопрос или проблема Я работаю в компании, которая продает различные продукты клиентам. Моя задача – найти клиентов, которые, вероятно, купят продукт X, основываясь на профилях клиентов, уже купивших продукт X. Моя первая идея заключалась в следующем
Data Science
Сравнение строк в Data Studio
00
Вопрос или проблема Я использую Data Studio для проекта и подключаюсь к своей таблице BigQuery. Моя таблица содержит следующие столбцы: Дата Название_магазина Посещаемость Я хотел бы сравнить посещаемость двух магазинов, используя Data Studio, но, похоже, я не могу этого сделать!
Data Science
Адаптация медицинского трансформера для сегментации ран с несколькими классами
00
Вопрос или проблема Я использую Medical Transformer (https://github.com/jeya-maria-jose/Medical-Transformer) для сегментации ран, но хотел бы адаптировать его для сегментации трех различных классов: раны, дополнительный маркер и фон.
Data Science
Кластеризация гиперспектральных изображений в оранжевом цвете
00
Вопрос или проблема Orange имеет гиперспектральный набор данных под названием “цирроз печени”, и вы можете визуализировать гиперспектральное изображение, используя виджет гиперспектрального изображения. Однако я хотел бы применить различные
Data Science
Какую предобученную модель выбрать для генерации векторов из названий магазинов, написанных на английском языке?
00
Вопрос или проблема Добрый день! У меня есть набор данных с тысячами названий магазинов на английском языке. Несколько названий магазинов могут принадлежать одной бизнес-единице, например, магазины с названиями “KFC 001”
Data Science
Как сбалансировать набор данных, извлеченный с помощью image_dataset_from_directory
00
Вопрос или проблема Я новичок в tensorflow, и сейчас я пытаюсь найти лучший способ сбалансировать классы в наборе данных, который я загружаю с помощью image_dataset_from_directory. Но я не нашёл способ это сделать. Я видел из разных источников, что SMOTE
Data Science
Как создать модель для выбора набора категорий с набором атрибутов?
00
Вопрос или проблема У меня есть несколько сотен категорий, каждая из которых имеет конкретный набор атрибутов с различными значениями (историческими). Проблема, которую мне нужно решить, заключается в том, чтобы выбрать лучший набор категорий из меньшей
Data Science
Как применить модель к обучающим данным для выявления неправильно размеченных наблюдений?
00
Вопрос или проблема У меня есть список людей, атрибуты этих людей (рост, вес, кровяное давление и т. д.) и двоичная целевая переменная, называемая has_heart_issues. Эти данные представляют собой полную популяцию данных, и я пытаюсь определить, похожи
Data Science
Ищу пару идей, пожалуйста.
00
Вопрос или проблема У меня есть данные по почтовым зонам, которые включают: Код почтовой зоны Среднее значение аренды за квадратный фут Привязанность к бренду 1 Привязанность к бренду 2 Привязанность к бренду 3 Привязанность к бренду 4 … и так далее Данные
Data Science
Как я могу распечатать данные после подгонки данных в конвейере?
00
Вопрос или проблема Я использовал 3 функции из scipy: TFIDF векторизатор, Мультивыходной классификатор и Линейный SVC. Код выглядит так. pipe_lr1 = Pipeline(steps=[('cv',TfidfVectorizer()), ('lr_multi',MultiOutputClassifier(LinearSVC()))]) Как я могу
Data Science
В чем разница между nDCG и методами ранговой корреляции?
00
Вопрос или проблема Когда мы используем то одно, то другое? Мой случай применения: Я хочу оценить линейное пространство, чтобы увидеть, насколько хороши результаты извлечения. У меня есть набор данных X (m x n) и некоторые веса W (m x 1).