Data Science
Где я могу практиковаться в обнаружении многомерных выбросов?
00
Вопрос или проблема Может кто-то предоставить мне набор данных, желательно на Kaggle, где я смогу практиковать свои навыки в анализе выбросов? Я изучаю эту тему уже довольно долго, но не могу найти исследование случая, чтобы применить свои знания?
Data Science
Подходящий алгоритм машинного обучения для моделирования кластеризованного временно изменяющегося бинарного результата
00
Вопрос или проблема Я сразу перейду к делу. У меня есть довольно большой набор данных (100K наблюдений) с непрерывными и категориальными предикторами, которые меняются со временем. Категориальные предикторы, на самом деле, обычно не меняются, однако непрерывные меняются каждый день.
Data Science
Нужно ли масштабировать категориальные признаки с однозначным кодированием при использовании их вместе с текстовыми признаками для определения семантического сходства?
00
Вопрос или проблема Моя цель – определить текстовое сходство с использованием нескольких признаков. Некоторые из признаков являются текстовыми, для чего я использую (Tfhub 2.0) универсальный энкодер предложений. Есть и другие категориальные признаки
Data Science
Виджет API Twitter
00
Вопрос или проблема Я использую API Twitter. Виджет Orange для Twitter работает хорошо, если мы ищем по содержимому. Однако он выдает ошибку, если выполнять поиск по автору. Ошибка: Api error (ответ Twitter с кодом состояния = 401) Похоже, это проблема Неавторизован.
Data Science
Почему мы не сталкиваемся с проклятием размерности в машинном обучении?
00
Вопрос или проблема Это вопрос, который долго меня озадачивал. Я обученный статистик, и я знаю, что некоторые вещи невозможно сделать в высоких размерностях (или, по крайней мере, вы не получите то, что хотите, хотя можете получить что-то другое).
Data Science
Можно ли использовать одну и ту же архитектуру CNN для разных наборов данных?
00
Вопрос или проблема У меня есть архитектура CNN, которая хорошо работает с изображениями 32x32x3. Могу ли я использовать ту же архитектуру для набора данных, состоящего из изображений 28x28x1? (Оба набора данных имеют 10 классов).
Data Science
Сравните два PDF-файла визуально
00
Вопрос или проблема У меня есть два pdf-файла, и я хочу получить различия через визуальное представление, где различия будут выделены каким-либо цветом или обведены в рамку. Какие способы существуют для выполнения этой задачи и какую технологию следует использовать.
Data Science
Почему predict_generator возвращает пустой массив?
00
Вопрос или проблема Я пытаюсь вывести предсказанные метки для моих тестовых данных, но функция predict_generator() возвращает пустой массив. Моя модель: from keras.preprocessing.image import ImageDataGenerator from keras.models import Sequential from keras.
Data Science
Лучше ли обучать модель CNN на плохих изображениях или на хороших, если тестовые данные будут низкого качества?
00
Вопрос или проблема Это очень общий вопрос, поэтому давайте возьмем очень общий пример: представьте модель CNN, которая различает изображения лиц собак и кошек. У нас есть два типа обучающего набора данных: один с полными признаками и один с дефектными.
Data Science
Как добавить декодер и слой внимания к двунаправленному кодировщику с помощью tensorflow 2.0
00
Вопрос или проблема Я начинающий в машинном обучении и пытаюсь создать модель для коррекции орфографии, которая проверяет правописание для небольшого количества словарных фраз (примерно 1000 фраз). В настоящее время я обращаюсь к урокам tensorflow 2.
Data Science
Метрики точности, полноты и правильности существенно различаются между обучающими/валидационными данными и фактическими предсказаниями.
00
Вопрос или проблема У меня есть две последовательные модели, построенные с использованием Keras, которые обучаются на данных из CSV-файла. Вот как они построены # Первая модель model = Sequential() model.add(Input(shape=X_1.shape)) model.
Data Science
Эвристики для иерархической кластеризации с пользовательской функцией связи
00
Вопрос или проблема Я создал свою собственную функцию связывания для SciPy и хочу добавить эвристику. Я кластеризую последовательности json, и, например, если один кластер достаточно велик (скажем, 20 json), а другой меньше (скажем, 2 json), я бы предпочел
Data Science
Кластеризация с множествами в качестве значений
00
Вопрос или проблема Я собрал большое количество качественных данных и теперь хочу их сгруппировать, чтобы понять их. Для этого я использую Orange от Biolab. В моих данных конкретные значения могут одновременно встречаться в данной характеристике или не встречаться.
Data Science
Правильный способ найти лоренцево расстояние между двумя точками.
00
Вопрос или проблема В соответствии с этой статьей и этой статьей я пытаюсь реализовать формулу для лоренцевого расстояния между 2 точками (также известного как расстояние между 2 точками в лоренцевом пространстве). Я использую это в качестве метрики расстояния для классификатора KNN.
Data Science
Почему порядок колонок в CCA изменяет некоторые результаты?
00
Вопрос или проблема При запуске CCA из scikit learn, если изменить порядок в столбцах (изменение порядка строк обоих наборов данных вместе не дает разных результатов, которые я видел — не показано здесь), from sklearn.cross_decomposition import
Data Science
Уровни доверия и уровни ошибок в моделях бинарной классификации
00
Вопрос или проблема Я начинающий самоучка в области машинного обучения, и в настоящее время я занимаюсь задачей бинарной классификации. Я создал бинарный классификатор на базе простой нейронной сети и провел несколько экспериментов с уровнем ошибок и
Data Science
Рекомендательный механизм – основанный на содержании и коллаборативный рекомендаций?
00
Вопрос или проблема Я создаю систему рекомендаций для гостиничного размещения. Я собрал данные с онлайн-портала бронирования, и теперь мои данные содержат название отеля, отзывы, описание и местоположение. Я разработал простую систему рекомендаций на основе контента.
Data Science
Алгоритм для кластеризации векторных представлений лиц по людям для неизвестного числа людей
00
Вопрос или проблема Я создаю открытый фреймворк для обработки изображений. Одна из моих демонстрационных программ берет каталог фотографий, извлекает лица, группирует векторы лиц и создает HTML-галерею, показывающую каждого человека в куче.
Data Science
Использование конформных предсказателей для оценки неопределенности?
00
Вопрос или проблема Я прочитал эту интересную книгу о конформных предсказателях: https://arxiv.org/abs/2107.07511. Конформные предсказатели — это способ выбрать набор, который гарантированно включает истинные метки с некоторой заранее выбранной степенью надежности.
Data Science
Шаблоны в весах обученной модели?
00
Вопрос или проблема Извините за наивный вопрос. Допустим, я обучаю простую полносвязную нейронную сеть с использованием стохастического градиентного спуска с фиксированной архитектурой, фиксированной скоростью обучения, числом эпох обучения и размером батча.