5.1 🧩 Open Source модели на замену ChatGPT.

👀 ЗАСТАВИМ МОДЕЛЬ СЧИТАТЬ ОБЪЕКТЫ НА КАРТИНКАХ* 👁

У нас есть датасет с картинками, на которых изображены различные объекты. С помощью мультимодальной модели попробуйте определить точное количество определённых объектов на картинках.

Пример изображения:

Что делать? Ответьте на вопросы по картинкам с помощью ЛЛМки. Запишите ответы в столбец answer (только ответ, во всех задачах это целые числа).

Что на входе? Вам предоставляется датасет со столбцами question, answer, image_name.

Столбец image_name указывает на название картинки по которой мы хотим получить ответ на вопрос.

Подгрузить датасет можно следующим образом:

import pandas as pd
df = pd.read_csv("https://stepik.org/media/attachments/lesson/1028705/mulimodal_questions.csv")

Картинки можно получить командой:

!wget https://stepik.org/media/attachments/lesson/1028705/images.zip

Что на выходе? csv файл, содержащий два столбца - questionanswer.
Замечание: Ваше решение будет зачтено, если в нём будет минимум 8 правильных ответов.

Начать решать можно в ноутбуке по ссылке.


Нет обсуждений. Начните первое.