similar-documents
Data Science
Вопрос или проблема У меня есть корпус из 23000 документов, которые нужно классифицировать на 5 различных категорий. У меня нет доступных помеченных данных, только текстовые документы свободной формы и ярлыки (да, ярлыки из одного слова, не темы).
Data Science
Вопрос или проблема У меня есть задача предоставить возможности семантического поиска. Например, если у меня есть набор данных резюме и если я ищу “машинное обучение”, то он должен вернуть мне все резюме, которые имеют навыки, связанные с
Data Science
Вопрос или проблема Я новичок в машинном обучении и попробовал doc2vec на наборе данных с дубликатами вопросов Quora. new_dfx имеет столбцы ‘question1’ и ‘question2’, которые содержат предварительно обработанные вопросы в каждой строке.
Data Science
Вопрос или проблема Я читал Главу 14 Ответы на вопросы, Поиск информации и RAG книги Юрафски, конкретно раздел о оценке документов, где упоминался Okapi BM25. Я понял предыдущее вычисление и объяснение tf-idf, но не понимаю эту фразу, выделенную магентовым цветом. …
Data Science
Вопрос или проблема Мы пытаемся решить проблему, связанную с семантическим поиском в нашем наборе данных, т.е. у нас есть данные, специфичные для конкретной области (например: предложения, касающиеся автомобилей) Наши данные представляют собой просто
Data Science
Вопрос или проблема Как выполнить шаблонное matching без OpenCV? У меня есть счет-фактура документов, принадлежащих Amazon, eBay, Flipkart, SnapDeal, и я хочу извлечь меньше информации из счета-фактуры. Поскольку такие поля, как номер заказа, имя клиента
Data Science
Вопрос или проблема Я умею классифицировать изображения с помощью CNN, но у меня есть проблема: у меня есть несколько типов отсканированных документов в PDF-файле на разных страницах. Некоторые типы отсканированных документов присутствуют на нескольких страницах внутри PDF.