19:55:34	 From OTUS Онлайн-образование : https://otus.ru/polls/3777/ ссылка на опрос после занятия
19:56:15	 From Константин : +
19:56:25	 From Константин : нет
19:57:09	 From Константин : +
19:57:10	 From Anton Pekarskii : +
19:57:11	 From RomanV : +
19:59:24	 From Anton Pekarskii : +
19:59:25	 From Алексей Прохоренков : +
20:04:52	 From Алексей Прохоренков : +
20:04:52	 From Oleg Mironov : +
20:04:53	 From Anton Pekarskii : +
20:04:53	 From Alexander Nozdrin : +
20:05:01	 From OTUS Онлайн-образование : ———
20:08:20	 From denis : нет
20:08:34	 From Anton Pekarskii : очень большой learning rate?
20:08:36	 From Константин : потому что шаг обучения большой
20:10:55	 From Anton Pekarskii : +
20:11:01	 From Alexander Nozdrin : +
20:11:11	 From Oleg Mironov : получается, если скорость обучения нормальная, то шаг оказывается с каждым разом все меньше?
20:15:42	 From Константин : почему w0 в чейн рул маленькое?, а внузу красным большое?
20:16:28	 From Константин : будьте любезны
20:16:32	 From Константин : ссылку
20:16:40	 From Константин : после
20:16:44	 From Anton Pekarskii : лучше в слак
20:16:45	 From Константин : спс
20:17:21	 From denis : 0-1
20:17:21	 From Alexander Nozdrin : [0, 1]
20:18:57	 From Oleg Mironov : стоит на месте
20:19:01	 From Anton Pekarskii : перестает обучаться
20:19:05	 From Алексей Прохоренков : градиент не доходит до глубоких слоёв
20:20:58	 From Oleg Mironov : +
20:20:59	 From Алексей Прохоренков : +
20:20:59	 From Константин : +
20:21:01	 From Anton Pekarskii : +
20:23:17	 From Константин : гиперболический?
20:27:37	 From Alexander Nozdrin : +
20:27:40	 From Anton Pekarskii : +
20:27:42	 From Константин : +
20:27:49	 From Алексей Прохоренков : этот метод уже устарел или ещё используется?
20:28:37	 From Алексей Прохоренков : +
20:30:09	 From Константин : -
20:30:31	 From Anton Pekarskii : _/
20:30:45	 From Anton Pekarskii : примерно так)
20:30:56	 From vas.che : :)
20:31:56	 From Алексей Прохоренков : 0/1
20:31:59	 From vas.che : 0/1
20:33:54	 From Константин : но если это произведение, то хоть один ноль приводит к тому что мы получаем на выходк ноль?
20:36:47	 From Алексей Прохоренков : это псевдодропаут
20:36:51	 From Алексей Прохоренков : =)
20:37:03	 From denis : +
20:37:03	 From Roman Novokshanov : +
20:37:03	 From Oleg Mironov : +
20:37:04	 From Anton Pekarskii : +
20:37:04	 From Alexander Nozdrin : +
20:37:04	 From vas.che : +
20:37:31	 From Алексей Прохоренков : всё понятно
20:37:33	 From OTUS Онлайн-образование : _____
20:37:36	 From Константин : в 0 она ноль или х?
20:37:42	 From vas.che : 0
20:37:53	 From Roman Novokshanov : Единственное производная рел разрывная в нуле
20:38:06	 From Константин : производные будут разные
20:38:34	 From Константин : логично спасибо
20:38:48	 From Roman Novokshanov : ок
20:42:57	 From Алексей Прохоренков : в 0?
20:42:57	 From vas.che : среднее?
20:43:02	 From denis : +
20:44:53	 From denis : +
20:44:53	 From OTUS Онлайн-образование : ___
20:44:58	 From Василий Володин : -
20:45:04	 From Константин : +
20:45:10	 From Alexander Nozdrin : -
20:45:10	 From Василий Володин : непонятно
20:47:55	 From Oleg Mironov : нейросеть не учится
20:47:55	 From Roman Novokshanov : не стартует?
20:47:58	 From Алексей Прохоренков : тяжело потом сдвигать веса из нуля?
20:47:58	 From Константин : переобучится?
20:47:59	 From vas.che : градиент 0
20:48:01	 From denis : не учится
20:51:50	 From Oleg Mironov : пока не понятно
20:51:54	 From Константин : как считается дисперсия?
20:51:56	 From Anton Pekarskii : не очень
20:51:56	 From OTUS Онлайн-образование : _______
20:52:03	 From vas.che : как дистперсия влияет на градиент по формуле?
20:52:31	 From vas.che : мне подумалось что градиент будет постоянно меняться, если дисперсия маленькая.
20:52:59	 From Константин : +
20:53:00	 From denis : +
20:53:01	 From Anton Pekarskii : +
20:53:03	 From vas.che : +
20:55:15	 From vas.che : постоянно менеят классы предссказаний? и loss прыгает и градиент как следствие?
20:56:55	 From vas.che : на графике после 100 эпох дисперсия увеличилась для 4го слоя.
20:57:03	 From vas.che : почему?
20:58:19	 From vas.che : +
20:59:18	 From Alexander Nozdrin : Что значит "обнуляем выходы последнего слоя"?
21:01:24	 From Alexander Nozdrin : понятно
21:01:44	 From Anton Pekarskii : +
21:01:47	 From denis : +
21:01:48	 From Алексей Прохоренков : +
21:02:54	 From denis : +
21:02:56	 From Alexander Nozdrin : +
21:06:34	 From OTUS Онлайн-образование : _____
21:06:37	 From Oleg Mironov : признаться, пока понятно слабовато
21:06:57	 From Oleg Mironov : мы вообще к чему стремимся? обнулить функции активации?
21:07:19	 From vas.che : 7
21:07:24	 From denis : 6
21:07:30	 From Константин : 7
21:07:37	 From Alexander Nozdrin : 5
21:08:47	 From Oleg Mironov : так понятнее)
21:09:00	 From vas.che : если 4му слою с сигмойдой и затухающей дисперсией добавить softmax? он же сразу приблизит вывод к 1?  Это не решит проблему?
21:09:20	 From vas.che : вместо tg
21:10:10	 From vas.che : ладно. я плохо сформулировал. потом, покопаюсь если что задам вопрос.
21:10:14	 From Алексей Прохоренков : а можно ещё раз - почему у нас функция активации так сильно стремится к нулю?)
21:10:49	 From Oleg Mironov : кстати, слой 3 растет, а слой 4 резко падает. Почему так? Не должны ли все слои были падать?
21:12:05	 From Oleg Mironov : ах да, обратное распространение же...
21:13:15	 From Алексей Прохоренков : Я про те 4 графика - почему 4 слой так резко падает?
21:14:50	 From Anton Pekarskii : постепенно становится понятней
21:14:54	 From Алексей Прохоренков : Стало понятней)
21:15:18	 From vas.che : походе tg решает проблему не только 0, но и 1. Или ф-я активации может принять значение больше 1?
21:16:45	 From Oleg Mironov : ок. Тагенс лучше. А почему не использовать всегда вместо сигмоиды функцию (tanh + 1) / 2 ?
21:17:08	 From vas.che : да, в чем минусы?:)
21:24:00	 From Алексей Прохоренков : среднему по выборке?
21:24:07	 From Oleg Mironov : 0?
21:24:09	 From vas.che : я вопрос не услышал)
21:27:07	 From vas.che : так веса же не менялись, последний слой с градиентом почти 0, а дальше еще меньше по идее. полное затхание.
21:27:14	 From vas.che : я про график с постоянной дисперсией
21:31:08	 From Василий Володин : -
21:31:39	 From Алексей Прохоренков : идея понятна, но вот про дисперсию я бы ещё дополнительно поспрашивал после занятия :)
21:31:47	 From Василий Володин : почему дисперсия =1
21:31:50	 From vas.che : плчему именно такие значения.
21:32:07	 From vas.che : не пойму откуда 1/3
21:32:37	 From Василий Володин : да давайте полный вывод
21:32:50	 From vas.che : концепт поятен.
21:36:16	 From vas.che : -
21:36:23	 From vas.che : в смысле вопросов нет)
21:36:29	 From denis : пока нет
21:41:54	 From denis : -
21:41:59	 From Константин : выложите плз чат после занятия :)
21:42:20	 From vas.che : нет вопросов.
21:43:17	 From Anton Pekarskii : видно
21:43:19	 From Oleg Mironov : +
21:47:58	 From denis : -
21:47:59	 From Anton Pekarskii : -
21:48:01	 From vas.che : -
21:52:21	 From denis : пока нет
21:52:25	 From vas.che : самостоятельно поиграемся)
21:53:09	 From Oleg Mironov : по факту такие инициализации имеет смысл использовать всегда?
21:53:13	 From denis : давайте онлайн
21:55:35	 From vas.che : +
21:55:36	 From Oleg Mironov : +
21:55:37	 From denis : +
21:55:38	 From Anton Pekarskii : +
21:57:00	 From Oleg Mironov : init с тремя подчеркиваниями
22:01:36	 From vas.che : -
22:01:39	 From Oleg Mironov : -
22:01:44	 From denis : +
22:01:54	 From denis : нет
22:07:23	 From denis : как tensorboard в colab открыть?
22:07:37	 From denis : ок
22:13:09	 From denis : +
22:13:09	 From Anton Pekarskii : +
22:13:12	 From vas.che : все ок
22:15:45	 From Anton Pekarskii : clear_session?
22:24:56	 From Oleg Mironov : -
22:26:22	 From denis : спасибо
22:26:24	 From Anton Pekarskii : Спасибо!
22:26:29	 From Oleg Mironov : Спасибо
22:26:32	 From vas.che : спасибо1