⚔️ Spam
🆚 Crypto
Представьте, что вас внезапно охватила страсть к миру криптовалют и вы решили погрузиться в эту увлекательную тему. Ваш первый шаг - присоединиться к тематическому чату в телеграме, где обсуждаются криптовалюты и всё, что с ними связано. Однако, как только вы открываете этот чат, вас буквально заваливает потоком сообщений - от советов и аналитики до сомнительных предложений и рекламы курсов. Вы стоите перед задачей отделить полезные сообщения от мусора и спама.
И вот здесь на помощь приходят LLM
и могучий ChatGPT
. Ваша
задача - создать такой запрос, благодаря которому модель сможет определять, что
является реальными и полезными сообщениями от пользователей, а что бесполезным спамом.
Что на входе? Вам предоставляется датасет с двумя столбцами:
text_id
(уникальный идентификатор сообщения) и text
(содержание сообщения).
import pandas as pd
df = pd.read_csv('https://stepik.org/media/attachments/lesson/1110806/100_crypto_messages.csv')
Что сделать? Для каждого сообщения необходимо определить, является
ли оно спамом (1) или не спамом (0) и записать эту информацию в столбец
is_spam
.
Что на выходе? csv
файл, содержащий два столбца -
text_id
и is_spam
.
Что использовать? В этой задаче не подразумевается использование
сторонних ML библиотек, кроме API ChatGPT
и библиотеки
pandas
для обработки данных.
Замечание: Точность вашего решения (доля верных ответов) должна быть
не ниже 75%.
template = '''Если текст представленный в разделе Context является спамом ответь 1, иначе ответь 0
Context: {context}
Answer: '''