19:55:34 From OTUS Онлайн-образование : https://otus.ru/polls/3777/ ссылка на опрос после занятия 19:56:15 From Константин : + 19:56:25 From Константин : нет 19:57:09 From Константин : + 19:57:10 From Anton Pekarskii : + 19:57:11 From RomanV : + 19:59:24 From Anton Pekarskii : + 19:59:25 From Алексей Прохоренков : + 20:04:52 From Алексей Прохоренков : + 20:04:52 From Oleg Mironov : + 20:04:53 From Anton Pekarskii : + 20:04:53 From Alexander Nozdrin : + 20:05:01 From OTUS Онлайн-образование : ——— 20:08:20 From denis : нет 20:08:34 From Anton Pekarskii : очень большой learning rate? 20:08:36 From Константин : потому что шаг обучения большой 20:10:55 From Anton Pekarskii : + 20:11:01 From Alexander Nozdrin : + 20:11:11 From Oleg Mironov : получается, если скорость обучения нормальная, то шаг оказывается с каждым разом все меньше? 20:15:42 From Константин : почему w0 в чейн рул маленькое?, а внузу красным большое? 20:16:28 From Константин : будьте любезны 20:16:32 From Константин : ссылку 20:16:40 From Константин : после 20:16:44 From Anton Pekarskii : лучше в слак 20:16:45 From Константин : спс 20:17:21 From denis : 0-1 20:17:21 From Alexander Nozdrin : [0, 1] 20:18:57 From Oleg Mironov : стоит на месте 20:19:01 From Anton Pekarskii : перестает обучаться 20:19:05 From Алексей Прохоренков : градиент не доходит до глубоких слоёв 20:20:58 From Oleg Mironov : + 20:20:59 From Алексей Прохоренков : + 20:20:59 From Константин : + 20:21:01 From Anton Pekarskii : + 20:23:17 From Константин : гиперболический? 20:27:37 From Alexander Nozdrin : + 20:27:40 From Anton Pekarskii : + 20:27:42 From Константин : + 20:27:49 From Алексей Прохоренков : этот метод уже устарел или ещё используется? 20:28:37 From Алексей Прохоренков : + 20:30:09 From Константин : - 20:30:31 From Anton Pekarskii : _/ 20:30:45 From Anton Pekarskii : примерно так) 20:30:56 From vas.che : :) 20:31:56 From Алексей Прохоренков : 0/1 20:31:59 From vas.che : 0/1 20:33:54 From Константин : но если это произведение, то хоть один ноль приводит к тому что мы получаем на выходк ноль? 20:36:47 From Алексей Прохоренков : это псевдодропаут 20:36:51 From Алексей Прохоренков : =) 20:37:03 From denis : + 20:37:03 From Roman Novokshanov : + 20:37:03 From Oleg Mironov : + 20:37:04 From Anton Pekarskii : + 20:37:04 From Alexander Nozdrin : + 20:37:04 From vas.che : + 20:37:31 From Алексей Прохоренков : всё понятно 20:37:33 From OTUS Онлайн-образование : _____ 20:37:36 From Константин : в 0 она ноль или х? 20:37:42 From vas.che : 0 20:37:53 From Roman Novokshanov : Единственное производная рел разрывная в нуле 20:38:06 From Константин : производные будут разные 20:38:34 From Константин : логично спасибо 20:38:48 From Roman Novokshanov : ок 20:42:57 From Алексей Прохоренков : в 0? 20:42:57 From vas.che : среднее? 20:43:02 From denis : + 20:44:53 From denis : + 20:44:53 From OTUS Онлайн-образование : ___ 20:44:58 From Василий Володин : - 20:45:04 From Константин : + 20:45:10 From Alexander Nozdrin : - 20:45:10 From Василий Володин : непонятно 20:47:55 From Oleg Mironov : нейросеть не учится 20:47:55 From Roman Novokshanov : не стартует? 20:47:58 From Алексей Прохоренков : тяжело потом сдвигать веса из нуля? 20:47:58 From Константин : переобучится? 20:47:59 From vas.che : градиент 0 20:48:01 From denis : не учится 20:51:50 From Oleg Mironov : пока не понятно 20:51:54 From Константин : как считается дисперсия? 20:51:56 From Anton Pekarskii : не очень 20:51:56 From OTUS Онлайн-образование : _______ 20:52:03 From vas.che : как дистперсия влияет на градиент по формуле? 20:52:31 From vas.che : мне подумалось что градиент будет постоянно меняться, если дисперсия маленькая. 20:52:59 From Константин : + 20:53:00 From denis : + 20:53:01 From Anton Pekarskii : + 20:53:03 From vas.che : + 20:55:15 From vas.che : постоянно менеят классы предссказаний? и loss прыгает и градиент как следствие? 20:56:55 From vas.che : на графике после 100 эпох дисперсия увеличилась для 4го слоя. 20:57:03 From vas.che : почему? 20:58:19 From vas.che : + 20:59:18 From Alexander Nozdrin : Что значит "обнуляем выходы последнего слоя"? 21:01:24 From Alexander Nozdrin : понятно 21:01:44 From Anton Pekarskii : + 21:01:47 From denis : + 21:01:48 From Алексей Прохоренков : + 21:02:54 From denis : + 21:02:56 From Alexander Nozdrin : + 21:06:34 From OTUS Онлайн-образование : _____ 21:06:37 From Oleg Mironov : признаться, пока понятно слабовато 21:06:57 From Oleg Mironov : мы вообще к чему стремимся? обнулить функции активации? 21:07:19 From vas.che : 7 21:07:24 From denis : 6 21:07:30 From Константин : 7 21:07:37 From Alexander Nozdrin : 5 21:08:47 From Oleg Mironov : так понятнее) 21:09:00 From vas.che : если 4му слою с сигмойдой и затухающей дисперсией добавить softmax? он же сразу приблизит вывод к 1? Это не решит проблему? 21:09:20 From vas.che : вместо tg 21:10:10 From vas.che : ладно. я плохо сформулировал. потом, покопаюсь если что задам вопрос. 21:10:14 From Алексей Прохоренков : а можно ещё раз - почему у нас функция активации так сильно стремится к нулю?) 21:10:49 From Oleg Mironov : кстати, слой 3 растет, а слой 4 резко падает. Почему так? Не должны ли все слои были падать? 21:12:05 From Oleg Mironov : ах да, обратное распространение же... 21:13:15 From Алексей Прохоренков : Я про те 4 графика - почему 4 слой так резко падает? 21:14:50 From Anton Pekarskii : постепенно становится понятней 21:14:54 From Алексей Прохоренков : Стало понятней) 21:15:18 From vas.che : походе tg решает проблему не только 0, но и 1. Или ф-я активации может принять значение больше 1? 21:16:45 From Oleg Mironov : ок. Тагенс лучше. А почему не использовать всегда вместо сигмоиды функцию (tanh + 1) / 2 ? 21:17:08 From vas.che : да, в чем минусы?:) 21:24:00 From Алексей Прохоренков : среднему по выборке? 21:24:07 From Oleg Mironov : 0? 21:24:09 From vas.che : я вопрос не услышал) 21:27:07 From vas.che : так веса же не менялись, последний слой с градиентом почти 0, а дальше еще меньше по идее. полное затхание. 21:27:14 From vas.che : я про график с постоянной дисперсией 21:31:08 From Василий Володин : - 21:31:39 From Алексей Прохоренков : идея понятна, но вот про дисперсию я бы ещё дополнительно поспрашивал после занятия :) 21:31:47 From Василий Володин : почему дисперсия =1 21:31:50 From vas.che : плчему именно такие значения. 21:32:07 From vas.che : не пойму откуда 1/3 21:32:37 From Василий Володин : да давайте полный вывод 21:32:50 From vas.che : концепт поятен. 21:36:16 From vas.che : - 21:36:23 From vas.che : в смысле вопросов нет) 21:36:29 From denis : пока нет 21:41:54 From denis : - 21:41:59 From Константин : выложите плз чат после занятия :) 21:42:20 From vas.che : нет вопросов. 21:43:17 From Anton Pekarskii : видно 21:43:19 From Oleg Mironov : + 21:47:58 From denis : - 21:47:59 From Anton Pekarskii : - 21:48:01 From vas.che : - 21:52:21 From denis : пока нет 21:52:25 From vas.che : самостоятельно поиграемся) 21:53:09 From Oleg Mironov : по факту такие инициализации имеет смысл использовать всегда? 21:53:13 From denis : давайте онлайн 21:55:35 From vas.che : + 21:55:36 From Oleg Mironov : + 21:55:37 From denis : + 21:55:38 From Anton Pekarskii : + 21:57:00 From Oleg Mironov : init с тремя подчеркиваниями 22:01:36 From vas.che : - 22:01:39 From Oleg Mironov : - 22:01:44 From denis : + 22:01:54 From denis : нет 22:07:23 From denis : как tensorboard в colab открыть? 22:07:37 From denis : ок 22:13:09 From denis : + 22:13:09 From Anton Pekarskii : + 22:13:12 From vas.che : все ок 22:15:45 From Anton Pekarskii : clear_session? 22:24:56 From Oleg Mironov : - 22:26:22 From denis : спасибо 22:26:24 From Anton Pekarskii : Спасибо! 22:26:29 From Oleg Mironov : Спасибо 22:26:32 From vas.che : спасибо1