Вопросы и ответы
Цифры LCD 7-сегментов не распознаются правильно (CNN / MNIST)
00
Вопрос или проблема Я новичок в области компьютерного зрения и выбрал считывание с 7-сегментного дисплея LCD своей системы отопления в качестве первой задачи для изучения CNN. Я могу правильно считывать большинство чисел, но цифра 6 чаще всего распознается как 5.
Data Science
Адаптация медицинского трансформера для сегментации ран с несколькими классами
00
Вопрос или проблема Я использую Medical Transformer (https://github.com/jeya-maria-jose/Medical-Transformer) для сегментации ран, но хотел бы адаптировать его для сегментации трех различных классов: раны, дополнительный маркер и фон.
Вопросы и ответы
Обучение модели для распознавания конкретных карт MTG
00
Вопрос или проблема Я нуждаюсь в помощи. У меня есть набор данных из 450 тысяч карт MTG, отсортированных по набору, языку и названию. Какой будет лучший подход и какие инструменты мне следует использовать для обучения модели, которая может распознавать
Data Science
Transpose свертка как увеличение размерности в DCGAN
00
Вопрос или проблема Я прочитал несколько статей и публикаций, в которых говорится, что транспонированная свертка с 2 шагами лучше, чем апсемплинг с последующей сверткой. Однако реализация такой модели с транспонированной сверткой привела к сильному эффекту
Вопросы и ответы
Необходимо сегментировать каждое число на изображении отдельно.
00
Вопрос или проблема Я создал модель CNN, используя набор данных MNIST. Я хочу делать предсказания для последовательности чисел, присутствующих на изображениях. Техника включает в себя сегментацию каждого изображения и подачу его в модель, но я сталкиваюсь
Data Science
Применение разниц кадров во времени в компьютерном зрении
00
Вопрос или проблема Учитывая входное изображение в градациях серого с течением времени, где интенсивность пикселей нормализована от 0 до 1, пусть $c$ — текущий кадр, а $p$ — предыдущие кадры. Пусть $diff$ определяется следующим образом: $ diff_0 = |c-p|=|p-c|
Data Science
Почему совместное встраивание слов и изображений работает?
00
Вопрос или проблема Я часто вижу некоторые работы, где авторы выполняют поэлементное умножение векторного представления слов и изображений (например, изображение ниже). Почему эта реализация работает? Я не понимаю. Модель более сложная, чем поэлементное
Data Science
Алгоритмы оценки глубины без эталонного изображения в компьютерном зрении для видео данных, захваченных веб-камерой, о человеке.
00
Вопрос или проблема В настоящее время я работаю над проектом в области компьютерного зрения, который включает в себя анализ видео данных человека, захваченных с помощью веб-камеры. В этом проекте мне нужно вычислить карту глубины или расстояние определенного
Вопросы и ответы
Размещение маркеров aruco и их влияние на оценку позы камеры
01
Вопрос или проблема В настоящее время я работаю над проектом оценки позы камеры. Я использую метод solvepnp для вычисления векторов вращения и преобразования. Я использую PTZ-камеру, где могу видеть фактические значения панорамы, наклона и зума камеры.
Data Science
Как удалить фоновый (водяной знак) логотип с изображения
00
Вопрос или проблема Я уже какое-то время ломаю голову. У меня есть отсканированный PDF-документ с текстом и логотипом на заднем фоне, как на изображении ниже. Я хочу сделать оптическое распознавание текста (OCR), но это становится очень сложным из-за логотипа.
Data Science
Должен ли я чередовать синус и косинус в синусоидальном позиционном кодировании?
00
Вопрос или проблема Я пытаюсь реализовать синусоидальное позиционное кодирование. Я нашел два решения, которые дают разные кодировки. Мне интересно, является ли одно из них неправильным или оба правильные. Я демонстрирую визуальные изображения полученных
Вопросы и ответы
Существует ли способ маркировать, идентифицировать и подсчитывать экземпляры объекта конкретного типа с его подметками, используя машинное обучение?
00
Вопрос или проблема Я только начинаю знакомиться с машинным обучением. Я пытаюсь создать систему, которая может определять тип объектов, видимых в кадре. Предположим, в кадре есть пара кошек и несколько собак, каждая из определенной породы.
Data Science
Кросс-валидация для свёрточной нейронной сети
00
Вопрос или проблема Я использую Keras для создания модели CNN, и хочу использовать K-fold кросс-валидацию для обучения набора данных. Набор данных содержит изображения, и я использую функцию flow_from_directory. У вас есть идеи, как использовать K-fold
Data Science
Обучение модели Inception V3 с использованием Keras с бэкендом Tensorflow
00
Вопрос или проблема В настоящее время я обучаю несколько пользовательских моделей, которые требуют примерно 12 ГБ видеопамяти в лучшем случае. В моей системе около 96 ГБ видеопамяти, и Python/Jupyter все равно умудряется забивать всю видеопамять до такой
Data Science
Сколько ограничивающих рамок в общей сложности предсказывает модель YOLOv6 до пороговой обработки?
00
Вопрос или проблема Я понимаю, что модель YOLOv5 прогнозирует 25200 ограничивающих рамок между всеми 3 уровнями вывода. Сколько предсказывает модель YOLOv6, если разрешение входного изображения составляет 640×640? Я не знаю возможностей Yolo V6 в
Data Science
CNN не может предсказать изображения за пределами набора данных.
00
Вопрос или проблема Я использую набор данных CelebA для обучения своей модели CNN для обнаружения ключевых точек на лицах. Вот моя модель class LandmarkModel: def __init__(self, inp_shape): self.model = models.Sequential() self.
Data Science
Существует ли список всех неправильно размеченных изображений MNIST с их правильными метками?
00
Вопрос или проблема Кажется, всем известно, что набор данных MNIST с рукописными цифрами содержит довольно много примеров, где метки явно неверные и соответствуют неправильной цифре; ниже приведены некоторые примеры людей, которые исследовали этот вопрос: https://arxiv.
Вопросы и ответы
Как выполнить вывод пользовательской предобученной модели с использованием mmdet?
00
Вопрос или проблема Я пытаюсь запустить masa с некоторой кастомной моделью (настроенная yolov5xu, если это имеет значение), обученной на внешнем наборе данных. Мне сложно понять, как запустить это с помощью фреймворка mmdet. Документация кажется немного
Data Science
Повторное использование модели, обученной на 19 классах, для всего лишь одного из этих классов
00
Вопрос или проблема У меня есть предобученная нейросеть для семантической сегментации, которая была обучена на датасете Cityscapes и его 19 классах (Человек, автомобиль, дорожный знак и т.д.). Один из этих классов — “Человек”
Data Science
Измерение угла кабеля (вращение)
00
Вопрос или проблема Мне нужно определить вращение кабеля (градус) вокруг оси X с высокой точностью [0.2 (или более) градуса]. Подробное описание: У меня есть кабель, который установлен в своем исходном состоянии. Система повернула кабель вокруг оси X.