Data Science
Data Science
Вопрос или проблема В настоящее время я работаю над проектом, который основывается на кластеризации документов в неопределенное количество кластеров на основе порога схожести (в идеале с использованием косинусного расстояния между векторами tf-idf).
Data Science
Вопрос или проблема У меня есть идея проекта, в котором я обучаю множество документов с помощью Doc2Vec, а затем беру роман, входящий в документ, и в идеале могу узнать, насколько он похож на документы, предоставленные для обучения в целом, или насколько хорошо он “
Data Science
Вопрос или проблема Во время обучения моей нейронной сети я наблюдаю следующее поведение: крайне нестабильные значения потерь на валидации, в то время как потери на обучении steadily уменьшаются. потери на обучении уменьшаются очень медленно (не характерная
Data Science
Вопрос или проблема Чтобы проиллюстрировать вышеуказанный заголовок. Предположим, у вас есть pdf-документ, который в основном отсканирован с бумажной копии, теперь есть набор фиксированных вопросов, на которые нужно ответить из самого документа.
Data Science
Вопрос или проблема Я пытаюсь понять концепции в заголовке и как они соотносятся с задачей бинарной классификации. Согласно моему текущему пониманию, вы можете кодировать текст, используя различные методы извлечения признаков, такие как “
Data Science
Вопрос или проблема У меня есть база данных с несколькими заголовками, как так: site_no,datetime,00060_00003 11481500,2019-10-05,7.54 [...] site_no,datetime,00010_00001,00010_00002,00010_00003,00060_00003 11523000,2019-10-05,15.
Data Science
Вопрос или проблема У меня есть набор из двух данных с коэффициентом 0.85. Как я могу вычислить коэффициент для каждого отдельного набора данных? Например, один набор — 0-200 (x), а другой — 0-$500,000 (y). Как я могу получить коэффициент для одной точки данных?
Data Science
Вопрос или проблема У меня есть обучающие данные, которые состоят из дат и времени, когда разные люди входили в здание. Тестовые данные состоят из дат и времени, а также их псевдонимов вместо настоящих имен. Мне нужно правильно сопоставить этих людей с их псевдонимами 1-1.
Data Science
Вопрос или проблема Предположим, я хочу использовать обучение с переносом, чтобы обучить модель для обнаружения объекта A против всего остального. В этом случае мне нужно предоставить 2 типа входных данных: изображения объекта A и изображения всего остального
Data Science
Вопрос или проблема Я создал CNN с нуля на Python с использованием Numpy, чтобы решить задачу распознавания рукописных цифр MNIST. Он состоит из свертки (3 фильтра 3×3), слоя максимального объединения (пуллинг 2×2) и выходного слоя с 10 метками.
Data Science
Вопрос или проблема Недавно я участвовал в процессе собеседования по Data Science, но, к сожалению, не прошел его. Задача была увлекательной, и я решил поделиться своей анонимизированной решением с сообществом, чтобы получить обратную связь и учиться.
Data Science
Вопрос или проблема Я сам обучаюсь глубокому Q-обучению (и машинному обучению в целом), используя Python и TensorFlow, чтобы играть в Змейку. Мое первоначальное обучение в значительной степени было основано на этой статье. Я переписал это в своем собственном
Data Science
Вопрос или проблема У меня есть набор данных о фильмах и их субтитрах. Моя задача – классифицировать их на основе их рейтингов – [R, NR, PG, PG-13, G]. У меня есть 13 примеров для каждого класса. Я предварительно обработал субтитры следующим
Data Science
Вопрос или проблема В общем, моя проблема в том, что я строю модель классификации изображений, используя AlexNet. У меня есть заранее разбитый набор данных, который уже разделен на обучение, тест и валидацию. Однако проблема в том, что эти разбивки находятся в .
Data Science
Вопрос или проблема Я использую catboost для задачи многоклассовой классификации. Я хочу использовать квадратный взвешенный каппа в качестве метрики оценки. Catboost уже имеет WKappa в качестве eval_metric, но это линейная взвешенная версия, а не квадратичная.
Data Science
Вопрос или проблема У меня есть 8752 картинки, которые были получены из, более или менее, часового видеозаписи с CCTV с помощью скрипта на Python, снимающего скриншоты. Мой руководитель сказал мне очистить данные от примерно схожих.
Data Science
Вопрос или проблема У меня есть временной ряд с переменными цен и я хочу их отсортировать. Время структурировано по квартальным часам. Каждая группа отмечена 4 строками. Я хочу отсортировать первые два столбца в каждой группе.
Data Science
Вопрос или проблема У меня есть коллекция (около 1000) очень шумных, похожих документов, каждый из которых очень длинный (>10 страниц – 600 параграфов) с множеством подразделов – я хочу провести тематическое моделирование по документам, чтобы выявить ключевые темы.
Data Science
Вопрос или проблема У меня есть 500 Dicom изображений медицинских сканирований пациентов. Это трёхмерные сканы, форма = [300 x 300 x 3]. Из них я извлёк фронтальный и боковой виды. Таким образом, для каждого пациента у меня есть 2 изображения формы [300 x 300].
Data Science
Вопрос или проблема Заголовок: Как справиться с прогнозами с двумя категориальными переменными высокой кардинальности? Текст: Здравствуйте, всем, Я работаю над проектом в области машинного обучения и был бы признателен за советы по выбору лучших методов обработки моих данных.