С "неправильным" паспортом быть академиком значительно тяжелее. Например, на то, чтобы доехать до нипса, с момента принятия статьи даётся 76 дней. За это время почти ни в одной стране не записаться на американскую визу, это ещё не говоря про административную проверку, которая светит любому посетителю. Приходится стратегически посылать статьи в те места, до которых доехать можно проще, или мириться с тем, что презентовать свою статью придется доверить коллеге.
Просить то, чего ты хочешь.
Сегодня я должен был лететь с пересадкой из Нового Орлеана в Нью-Йорк. Самолёт задержали, и на пересадку я не успевал. American Airlines решили, что хорошо бы мне полететь на следующий день, убив лишний день на перелёт. Я бы и согласился – в таких случаях предоставляют отель поспать – но в этот раз я попробовал испытать удачу и поспрашивать, нет ли рейса в соседний Нью-Джерси. Оказалось, что есть, и лечу я в сумме всего на 2 часа дольше. Надо было только попросить – ведь авиакомпания не могла знать, что я не против прилететь в соседний аэропорт.
Сегодня я должен был лететь с пересадкой из Нового Орлеана в Нью-Йорк. Самолёт задержали, и на пересадку я не успевал. American Airlines решили, что хорошо бы мне полететь на следующий день, убив лишний день на перелёт. Я бы и согласился – в таких случаях предоставляют отель поспать – но в этот раз я попробовал испытать удачу и поспрашивать, нет ли рейса в соседний Нью-Джерси. Оказалось, что есть, и лечу я в сумме всего на 2 часа дольше. Надо было только попросить – ведь авиакомпания не могла знать, что я не против прилететь в соседний аэропорт.
NeurIPS'22, часть 1
Пару недель назад закончилось одна из самых масштабных конференций этого года – NeurIPS. Вместе в ICML и ICLR, NeurIPS в тройке лучших конференций по машинному обучению, на которые (в теории) попадают лучшие работы из разных областей ML от CV до NLP. В этом году, кстати, одной из самых популярных тем стали графы и графовые нейросетки.
В этом году я приехал на конференцию с туториалом, статьёй в основной секции и двумя – на воркшопах. "Раз начал ~заниматься рисёрчем~, то иди в своём увлечении до конца".
В последние несколько лет из огромной конференции NeurIPS превратился в просто гигантскую – в доковидном 2019 году в Ванкувере было 13000 посетителей, в этом – более 10000, и несколько тысяч онлайн-участников. С таким количеством посетителей и статей (больше двух тысяч!) конференция превращается в хаотичный водоворот, где блаженно болтать о науке со случайными встречными становится просто невозможно.
Во-первых, почти невозможно случайно с кем-то встретится случайно. Чтобы пообщаться с интересными людьми, их надо было специально искать и договариваться. К некоторой оторопи, некоторые люди хотели поболтать со мной, что тоже приходилось планировать.
Во-вторых, почти невозможно разобраться в новых работах на лету. На обычных конференциях постерные сессии следуют за презентациями, но на перегруженных ML конфах такое организовать просто невозможно, поэтому от презентаций отказались. Но и постеров оказывается катастрофически много – в этом году было 6 двухчасовых сессий с ±400 постерами на каждой. Разобраться в таком потоке информации просто нереально.
В-третьих, плотность распорядка. На обычных конференциях мне интересы пара приглашённых лекций, несколько статей, и один воркшоп. Тут, из-за размера и престижности интересно всё, и времени на фланирование не остаётся. Приходится жертвовать, например, туториалом по conformal prediction, который мне ещё предстоит посмотреть на праздниках.
Так как пост получился длинным, о науке на NeurIPS я напишу отдельно.
Пару недель назад закончилось одна из самых масштабных конференций этого года – NeurIPS. Вместе в ICML и ICLR, NeurIPS в тройке лучших конференций по машинному обучению, на которые (в теории) попадают лучшие работы из разных областей ML от CV до NLP. В этом году, кстати, одной из самых популярных тем стали графы и графовые нейросетки.
В этом году я приехал на конференцию с туториалом, статьёй в основной секции и двумя – на воркшопах. "Раз начал ~заниматься рисёрчем~, то иди в своём увлечении до конца".
В последние несколько лет из огромной конференции NeurIPS превратился в просто гигантскую – в доковидном 2019 году в Ванкувере было 13000 посетителей, в этом – более 10000, и несколько тысяч онлайн-участников. С таким количеством посетителей и статей (больше двух тысяч!) конференция превращается в хаотичный водоворот, где блаженно болтать о науке со случайными встречными становится просто невозможно.
Во-первых, почти невозможно случайно с кем-то встретится случайно. Чтобы пообщаться с интересными людьми, их надо было специально искать и договариваться. К некоторой оторопи, некоторые люди хотели поболтать со мной, что тоже приходилось планировать.
Во-вторых, почти невозможно разобраться в новых работах на лету. На обычных конференциях постерные сессии следуют за презентациями, но на перегруженных ML конфах такое организовать просто невозможно, поэтому от презентаций отказались. Но и постеров оказывается катастрофически много – в этом году было 6 двухчасовых сессий с ±400 постерами на каждой. Разобраться в таком потоке информации просто нереально.
В-третьих, плотность распорядка. На обычных конференциях мне интересы пара приглашённых лекций, несколько статей, и один воркшоп. Тут, из-за размера и престижности интересно всё, и времени на фланирование не остаётся. Приходится жертвовать, например, туториалом по conformal prediction, который мне ещё предстоит посмотреть на праздниках.
Так как пост получился длинным, о науке на NeurIPS я напишу отдельно.
NeurIPS'22, часть 2
Вторая часть про NeurIPS – теперь чуть-чуть о науке.
Вообще, на такой большой конференции столько областей, что не выйдет даже мельком оценить, куда они развиваются. Я заметил несколько вещей:
1. Много интересных работ про self-supervised learning (SSL) – наверное, было больше десятка постеров про имплементацию для разных модальностей данных, и несколько – про теорию. Например, "Contrastive and Non-Contrastive Self-Supervised Learning Recover Global and Local Spectral Embedding Methods" подробно разбирает, как линеаризовать популярные лоссы для SSL и что из этого получается (спойлер:классические методы снижения размерности ).
2. Сумасшедших результатов в анализе больших графов не было, а в графовых сетках для молекул разбираться у меня сил и времени нет. Из интересного, но не очень полезного "Exponentially Improving the Complexity of Simulating the Weisfeiler-Lehman Test with Graph Neural Networks" показывает, как сконструировать небольшие графовые сети, которые симулируют тест Вейсфейлера-Лемана. Это важно для теории экспрессивности графовых сетей, потому что предыдущие конструкции зависели от структуры графа.
3. Было несколько интересных статей по TCS. "Faster Linear Algebra for Distance Matrices" предлагает быстрые алгоритмы для матрично-векторных произведений матриц расстояний. "Approximate Euclidean lengths and distances beyond Johnson-Lindenstrauss" улучшает скорость оценки норм строк произвольной матрицы.
Вторая часть про NeurIPS – теперь чуть-чуть о науке.
Вообще, на такой большой конференции столько областей, что не выйдет даже мельком оценить, куда они развиваются. Я заметил несколько вещей:
1. Много интересных работ про self-supervised learning (SSL) – наверное, было больше десятка постеров про имплементацию для разных модальностей данных, и несколько – про теорию. Например, "Contrastive and Non-Contrastive Self-Supervised Learning Recover Global and Local Spectral Embedding Methods" подробно разбирает, как линеаризовать популярные лоссы для SSL и что из этого получается (спойлер:
2. Сумасшедших результатов в анализе больших графов не было, а в графовых сетках для молекул разбираться у меня сил и времени нет. Из интересного, но не очень полезного "Exponentially Improving the Complexity of Simulating the Weisfeiler-Lehman Test with Graph Neural Networks" показывает, как сконструировать небольшие графовые сети, которые симулируют тест Вейсфейлера-Лемана. Это важно для теории экспрессивности графовых сетей, потому что предыдущие конструкции зависели от структуры графа.
3. Было несколько интересных статей по TCS. "Faster Linear Algebra for Distance Matrices" предлагает быстрые алгоритмы для матрично-векторных произведений матриц расстояний. "Approximate Euclidean lengths and distances beyond Johnson-Lindenstrauss" улучшает скорость оценки норм строк произвольной матрицы.
Stop using the elbow method
В почти любом курсе introduction to ML разбирается k-means, и на вопрос, как же выбирать заветный параметр k, обычно даётся "пацанский" ответ – "метод локтя" (elbow method). Заключается он вот в чём – берётся график зависимости ошибки метода от количества кластеров k и на нём ищется "перегиб". Для более продвинутых поисков есть много разных алгоритмических методов (сами представьте, сколько разных способов найти перегиб в функции).
Ожидаемо, такой метод работает очень плохо. В статье сравниваются 8 разных методов поиска "локтя" – и ни один не даёт вменяемый результат на довольно простых моделях синтетических данных. Что лучше использовать? У авторов хорошо отработали variance-ratio criterion, Bayesian Information Criterion (BIC), и Gap statistic. Из них легко можно посчитать VRC и BIC. Пользуясь случаем, авторы напоминают, что k-means крайне чувствителен к препроцессингу данных, и приводят пару визуальных примеров того, где можно налажать.
2023 год набирает обороты, а проблема оптимального выбора k до сих пор не решена даже для простейших моделей данных.
Статья: https://arxiv.org/abs/2212.12189
В почти любом курсе introduction to ML разбирается k-means, и на вопрос, как же выбирать заветный параметр k, обычно даётся "пацанский" ответ – "метод локтя" (elbow method). Заключается он вот в чём – берётся график зависимости ошибки метода от количества кластеров k и на нём ищется "перегиб". Для более продвинутых поисков есть много разных алгоритмических методов (сами представьте, сколько разных способов найти перегиб в функции).
Ожидаемо, такой метод работает очень плохо. В статье сравниваются 8 разных методов поиска "локтя" – и ни один не даёт вменяемый результат на довольно простых моделях синтетических данных. Что лучше использовать? У авторов хорошо отработали variance-ratio criterion, Bayesian Information Criterion (BIC), и Gap statistic. Из них легко можно посчитать VRC и BIC. Пользуясь случаем, авторы напоминают, что k-means крайне чувствителен к препроцессингу данных, и приводят пару визуальных примеров того, где можно налажать.
2023 год набирает обороты, а проблема оптимального выбора k до сих пор не решена даже для простейших моделей данных.
Статья: https://arxiv.org/abs/2212.12189