Data Science

00

Вопрос или проблема В настоящее время я работаю над проектом, который основывается на кластеризации документов в неопределенное количество кластеров на основе порога схожести (в идеале с использованием косинусного расстояния между векторами tf-idf).

Data Science

Существует ли способ обучить Doc2Vec на корпусе документов и иметь возможность взять новый документ и увидеть, насколько он похож на обученный корпус?

00

Вопрос или проблема У меня есть идея проекта, в котором я обучаю множество документов с помощью Doc2Vec, а затем беру роман, входящий в документ, и в идеале могу узнать, насколько он похож на документы, предоставленные для обучения в целом, или насколько хорошо он “

Data Science

Регрессия LSTM RNN: ошибка валидирования нестабильна во время обучения

00

Вопрос или проблема Во время обучения моей нейронной сети я наблюдаю следующее поведение: крайне нестабильные значения потерь на валидации, в то время как потери на обучении steadily уменьшаются. потери на обучении уменьшаются очень медленно (не характерная

Data Science

Как извлечь текст из PDF для дальнейшей работы с моделью вопрос-ответ на основе того же документа?

00

Вопрос или проблема Чтобы проиллюстрировать вышеуказанный заголовок. Предположим, у вас есть pdf-документ, который в основном отсканирован с бумажной копии, теперь есть набор фиксированных вопросов, на которые нужно ответить из самого документа.

Data Science

Берт и классификация SVM

00

Вопрос или проблема Я пытаюсь понять концепции в заголовке и как они соотносятся с задачей бинарной классификации. Согласно моему текущему пониманию, вы можете кодировать текст, используя различные методы извлечения признаков, такие как “

Data Science

Как мне загрузить базу данных с несколькими неконсистентными заголовками?

00

Вопрос или проблема У меня есть база данных с несколькими заголовками, как так: site_no,datetime,00060_00003 11481500,2019-10-05,7.54 [...] site_no,datetime,00010_00001,00010_00002,00010_00003,00060_00003 11523000,2019-10-05,15.

Data Science

Как найти коэффициент корреляции одного элемента данных в наборе?

00

Вопрос или проблема У меня есть набор из двух данных с коэффициентом 0.85. Как я могу вычислить коэффициент для каждого отдельного набора данных? Например, один набор — 0-200 (x), а другой — 0-$500,000 (y). Как я могу получить коэффициент для одной точки данных?

Data Science

Метод ближайшего соседа для задачи идентификации класса

00

Вопрос или проблема У меня есть обучающие данные, которые состоят из дат и времени, когда разные люди входили в здание. Тестовые данные состоят из дат и времени, а также их псевдонимов вместо настоящих имен. Мне нужно правильно сопоставить этих людей с их псевдонимами 1-1.

Data Science

Простой вопрос о классах предсказаний объекта в вопросе и не объекта в вопросе.

00

Вопрос или проблема Предположим, я хочу использовать обучение с переносом, чтобы обучить модель для обнаружения объекта A против всего остального. В этом случае мне нужно предоставить 2 типа входных данных: изображения объекта A и изображения всего остального

Data Science

Каковы некоторые общие советы по улучшению моего классификатора MNIST?

00

Вопрос или проблема Я создал CNN с нуля на Python с использованием Numpy, чтобы решить задачу распознавания рукописных цифр MNIST. Он состоит из свертки (3 фильтра 3×3), слоя максимального объединения (пуллинг 2×2) и выходного слоя с 10 метками.

Data Science

Проблемы с подгонкой распределения в анализе пользовательских заказов – нужна помощь!

00

Вопрос или проблема Недавно я участвовал в процессе собеседования по Data Science, но, к сожалению, не прошел его. Задача была увлекательной, и я решил поделиться своей анонимизированной решением с сообществом, чтобы получить обратную связь и учиться.

Data Science

Почему этот бинарный формат состояния так гораздо эффективнее, чем небинарный?

00

Вопрос или проблема Я сам обучаюсь глубокому Q-обучению (и машинному обучению в целом), используя Python и TensorFlow, чтобы играть в Змейку. Мое первоначальное обучение в значительной степени было основано на этой статье. Я переписал это в своем собственном

Data Science

точность теста классификации текста слишком низкая

00

Вопрос или проблема У меня есть набор данных о фильмах и их субтитрах. Моя задача – классифицировать их на основе их рейтингов – [R, NR, PG, PG-13, G]. У меня есть 13 примеров для каждого класса. Я предварительно обработал субтитры следующим

Data Science

Как подготовить данные для классификации изображений из .txt файла?

01

Вопрос или проблема В общем, моя проблема в том, что я строю модель классификации изображений, используя AlexNet. У меня есть заранее разбитый набор данных, который уже разделен на обучение, тест и валидацию. Однако проблема в том, что эти разбивки находятся в .

Data Science

Как определить квадратичную взвешенную каппу в качестве метрики оценки в классификаторе CatBoost

00

Вопрос или проблема Я использую catboost для задачи многоклассовой классификации. Я хочу использовать квадратный взвешенный каппа в качестве метрики оценки. Catboost уже имеет WKappa в качестве eval_metric, но это линейная взвешенная версия, а не квадратичная.

Data Science

Эффективный способ очистить 8752 изображения от очень похожих.

00

Вопрос или проблема У меня есть 8752 картинки, которые были получены из, более или менее, часового видеозаписи с CCTV с помощью скрипта на Python, снимающего скриншоты. Мой руководитель сказал мне очистить данные от примерно схожих.

Data Science

Сортировка столбца в фрейме данных в каждой группе в R

00

Вопрос или проблема У меня есть временной ряд с переменными цен и я хочу их отсортировать. Время структурировано по квартальным часам. Каждая группа отмечена 4 строками. Я хочу отсортировать первые два столбца в каждой группе.

Data Science

Моделирование тем на длинных документах: сначала кластеризация внутри документа

00

Вопрос или проблема У меня есть коллекция (около 1000) очень шумных, похожих документов, каждый из которых очень длинный (>10 страниц – 600 параграфов) с множеством подразделов – я хочу провести тематическое моделирование по документам, чтобы выявить ключевые темы.

Data Science

CNN с много каналами ввода или CNN с много экземплярным обучением?

00

Вопрос или проблема У меня есть 500 Dicom изображений медицинских сканирований пациентов. Это трёхмерные сканы, форма = [300 x 300 x 3]. Из них я извлёк фронтальный и боковой виды. Таким образом, для каждого пациента у меня есть 2 изображения формы [300 x 300].

Data Science

Как обрабатывать предсказания с двумя категории переменными высокой кардинальности?

00

Вопрос или проблема Заголовок: Как справиться с прогнозами с двумя категориальными переменными высокой кардинальности? Текст: Здравствуйте, всем, Я работаю над проектом в области машинного обучения и был бы признателен за советы по выбору лучших методов обработки моих данных.