Forwarded from Ivan Begtin (Ivan Begtin)
Как и где искать наборы данных? Помимо Dateno, поисковика над которым работает наша команда, в мире существует некоторое количество поисковых систем в которых можно попробовать найти нужные данные.
Google Dataset Search
Все ещё имеет исследовательский статус, но уже содержит десятки миллионов ссылок на датасеты. Для индексирования использует описание Dataset из Schema.org что даёт возможность индексировать всё что вебмастера отметили как датасеты, и индексировать немало спама тоже.
Плюс: широта охвата, много данных для бизнеса, много научных данных
Минус: мало данных не научных и не коммерческих, сильная загрязненность SEO, не индексируется всё что не по Schema.org
BASE (Bielefeld Academic Search Engine)
Как видно из название система поиска по академическим результатам, более 363 миллионов разного рода research outputs (научных результатов) включая наборы данных которых там 21 миллион. Охватывает только научные источники и научные данные. Индексирует с помощью OAI-PMH краулера со всеми его достоинствами и недостатками.
Плюсы: много научных данных, хорошие фильтры для сужения поиска
Минус: мало ненаучных данных, невозможно скачивать ресурсы с файлами прямо из поиска
Datacite Commons
Поисковик по научным работам от DataCite, сервиса выдачи DOI для данных. Умеет искать по всем тем датасетам которым присвоен DOI. Охватывает несколько десятков миллионов научных данных и научных предметов. Дело в том что DOI могут присваиваться не только датасету, но и,к примеру, виду животных или химической формуле.
Плюсы: широкий охват научных данных
Минусы: отсутствие любых ненаучных данных, много мусора поскольку часто исследователи присваивают DOI документам и изображениям а не датасетам.
FinData
Китайский поисковик по научным данным от Центра компьютерных сетей при Академии наук. Охватывает , преимущественно, китайские и связанные с Китаем датасеты, в первую очередь из SciDB.
Плюсы: очень много очень китайских научных данных
Минусы: совсем нет ничего другого, мало фильтров при поиске
—
Итого поисковики есть, из крупных - это Google. У Bing и Yandex нет поиска по наборам данных. Большая часть остальных научные. Кроме них ещё есть немало поисковиков как агрегаторов, о них я тоже позже расскажу.
#datasearch #opendata #data #search #datasets #dateno
Google Dataset Search
Все ещё имеет исследовательский статус, но уже содержит десятки миллионов ссылок на датасеты. Для индексирования использует описание Dataset из Schema.org что даёт возможность индексировать всё что вебмастера отметили как датасеты, и индексировать немало спама тоже.
Плюс: широта охвата, много данных для бизнеса, много научных данных
Минус: мало данных не научных и не коммерческих, сильная загрязненность SEO, не индексируется всё что не по Schema.org
BASE (Bielefeld Academic Search Engine)
Как видно из название система поиска по академическим результатам, более 363 миллионов разного рода research outputs (научных результатов) включая наборы данных которых там 21 миллион. Охватывает только научные источники и научные данные. Индексирует с помощью OAI-PMH краулера со всеми его достоинствами и недостатками.
Плюсы: много научных данных, хорошие фильтры для сужения поиска
Минус: мало ненаучных данных, невозможно скачивать ресурсы с файлами прямо из поиска
Datacite Commons
Поисковик по научным работам от DataCite, сервиса выдачи DOI для данных. Умеет искать по всем тем датасетам которым присвоен DOI. Охватывает несколько десятков миллионов научных данных и научных предметов. Дело в том что DOI могут присваиваться не только датасету, но и,к примеру, виду животных или химической формуле.
Плюсы: широкий охват научных данных
Минусы: отсутствие любых ненаучных данных, много мусора поскольку часто исследователи присваивают DOI документам и изображениям а не датасетам.
FinData
Китайский поисковик по научным данным от Центра компьютерных сетей при Академии наук. Охватывает , преимущественно, китайские и связанные с Китаем датасеты, в первую очередь из SciDB.
Плюсы: очень много очень китайских научных данных
Минусы: совсем нет ничего другого, мало фильтров при поиске
—
Итого поисковики есть, из крупных - это Google. У Bing и Yandex нет поиска по наборам данных. Большая часть остальных научные. Кроме них ещё есть немало поисковиков как агрегаторов, о них я тоже позже расскажу.
#datasearch #opendata #data #search #datasets #dateno
Dateno
Dateno - datasets search engine
A next-generation data search service provides fast, comprehensive access to open datasets worldwide, with powerful filters and an API-first architecture for seamless integration.
Forwarded from Центр STS
🏛 Университет без профессоров-2024
Рады сообщить о начале приема заявок на шестую летнюю школу факультета социологии «Университет без профессоров»!
На школе аспиранты, магистранты и младшие научные сотрудники исследовательских центров Европейского, поделятся опытом обучения, проведут курс молодого исследователя и постараются морально подготовить вас к поступлению на факультет социологии ЕУСПб.
Программа школы будет включать лекции, семинары и воркшопы. Кроме того, участников ждут guest lectures от профессоров Европейского.
Тем, кто еще не определился с исследовательскими интересами, школа даст шанс познакомиться с различными темами и определить для себя направления дальнейшего развития.
Для инногодних участников!
Организаторы оплачивают авторам 8 лучших заявок проезд и проживание в Санкт-Петербурге, а авторам 7 последующих достойных заявок — проживание на время проведения школы.
Дедлайн подачи заявок — 22 апреля!
Рады сообщить о начале приема заявок на шестую летнюю школу факультета социологии «Университет без профессоров»!
На школе аспиранты, магистранты и младшие научные сотрудники исследовательских центров Европейского, поделятся опытом обучения, проведут курс молодого исследователя и постараются морально подготовить вас к поступлению на факультет социологии ЕУСПб.
Программа школы будет включать лекции, семинары и воркшопы. Кроме того, участников ждут guest lectures от профессоров Европейского.
Тем, кто еще не определился с исследовательскими интересами, школа даст шанс познакомиться с различными темами и определить для себя направления дальнейшего развития.
Для инногодних участников!
Организаторы оплачивают авторам 8 лучших заявок проезд и проживание в Санкт-Петербурге, а авторам 7 последующих достойных заявок — проживание на время проведения школы.
Дедлайн подачи заявок — 22 апреля!
EUSP
Call for Papers. Шестая летняя школа «Университет без профессоров»
Факультет социологии Европейского университета открывает набор на Шестую летнюю школу «Университет без профессоров» для студентов старших курсов бакалавриата и всех, кто заинтересован в поступлении на соцфак. Сроки проведения школы — с 14 по 16 июня.
✨ Как и зачем визуализировать потоки научных статей. Работа в Dimensions и VosViewer // Екатерина Губа
00:00:11 Введение в наукометрию
• Видео обсуждает историю и развитие наукометрии, начиная с изобретения Юджина Гарфилда в 1960-х годах.
• Упоминается, что наукометрия была создана для помощи ученым в поиске научной литературы, но с течением времени ситуация ухудшилась из-за увеличения количества публикаций и требований к эффективности университетов.
00:01:57 Использование наукометрических данных
• В видео обсуждаются различные цифровые инструменты, такие как цитатные базы данных, библиографические менеджеры, инструменты для визуализации связей между статьями и использование искусственного интеллекта.
• Упоминается, что все эти инструменты основаны на мета-данных научных статей, которые содержат информацию о публикации, авторе, времени и месте публикации, ссылках и ключевых словах.
00:06:26 Возможности наукометрических данных
• В видео обсуждаются возможности использования наукометрических данных для научной работы, академических исследований, оценки исследовательских достижений и выбора исследовательских вопросов.
• Упоминается, что цитатные базы данных могут помочь в поиске статей для обзора, проследить цитатную судьбу статьи и найти новые исследовательские вопросы.
00:14:25 Поиск и скачивание данных в цитатных базах
• Поиск в цитатных базах позволяет искать в нескольких разделах, включая документы, авторов и организации.
• Ограничение поиска по годам, отраслям знания и языкам.
• Сортировка результатов по цитированию и аннотациям.
00:17:52 Анализ результатов поиска
• Просмотр аннотаций и ключевых слов статей.
• Изучение цитирования статей и их авторов.
• Поиск журналов для публикации статей.
00:24:32 Поиск и извлечение статей
• Поиск статей в системе Скопус и извлечение их для загрузки в программу визуализации.
• Возможность ограничения поиска по годам публикаций и категориям журналов.
00:29:38 Поиск хищных журналов
• Поиск и извлечение статей о хищных журналах для построения научных сетей.
• Ограничение поиска по годам публикаций и исследовательским категориям.
00:36:30 Загрузка данных в программу
• Экспорт данных из системы Скопус в формат библиометрик мейпинг для загрузки в программу Васю или Сайт Спейс.
• Распаковка архива с данными и загрузка в программу для визуализации научных статей.
00:38:10 Визуализация научных статей
• Программы для визуализации научных статей: VAS, Site-Space, и другие.
• Связи между объектами: соавторство, прямое цитирование, библиографическая связь, социтирование.
00:42:08 Создание карт на основе данных
• Загрузка данных из системы Times.
• Выбор типа анализа и единицы анализа.
• Создание карт на основе библиографических данных и текстового анализа.
00:45:57 Примеры карт
• Карта на основе библиографических данных: журналы, прямое цитирование.
• Карта на основе биографических данных: журналы, социтирование, кластеры.
• Интерпретация карт и их использование для анализа исследований хищных журналов.
00:53:51 Создание карты на основе текстовых данных
• В программе можно построить сети на основе текстовых данных, для этого нужно создать карту и выбрать формат, где упоминаются dimensions.
• Затем нужно выбрать ключевые слова, которые будут извлекаться из данных, и определить тип подсчетов (например, слова, которые встречаются в аннотациях).
00:55:57 Настройка параметров и получение карты
• После выбора параметров, система выдаст список слов, которые можно извлечь из названий и аннотаций статей.
• Можно отсортировать слова по встречаемости и снять галочки с тех, которые кажутся не специфическими.
00:57:46 Анализ карты слов
• На карте узлами являются слова, а связи между ними означают, что эти слова встречались в одной аннотации или названии статьи.
• Карта может быть разделена на три кластера: наукометрический, медицинский и библиотечный.
• Зеленый кластер может быть менее исследовательским и более рефлексирующим, предполагающим программу действий для улучшения ситуации с хищными журнал
00:00:11 Введение в наукометрию
• Видео обсуждает историю и развитие наукометрии, начиная с изобретения Юджина Гарфилда в 1960-х годах.
• Упоминается, что наукометрия была создана для помощи ученым в поиске научной литературы, но с течением времени ситуация ухудшилась из-за увеличения количества публикаций и требований к эффективности университетов.
00:01:57 Использование наукометрических данных
• В видео обсуждаются различные цифровые инструменты, такие как цитатные базы данных, библиографические менеджеры, инструменты для визуализации связей между статьями и использование искусственного интеллекта.
• Упоминается, что все эти инструменты основаны на мета-данных научных статей, которые содержат информацию о публикации, авторе, времени и месте публикации, ссылках и ключевых словах.
00:06:26 Возможности наукометрических данных
• В видео обсуждаются возможности использования наукометрических данных для научной работы, академических исследований, оценки исследовательских достижений и выбора исследовательских вопросов.
• Упоминается, что цитатные базы данных могут помочь в поиске статей для обзора, проследить цитатную судьбу статьи и найти новые исследовательские вопросы.
00:14:25 Поиск и скачивание данных в цитатных базах
• Поиск в цитатных базах позволяет искать в нескольких разделах, включая документы, авторов и организации.
• Ограничение поиска по годам, отраслям знания и языкам.
• Сортировка результатов по цитированию и аннотациям.
00:17:52 Анализ результатов поиска
• Просмотр аннотаций и ключевых слов статей.
• Изучение цитирования статей и их авторов.
• Поиск журналов для публикации статей.
00:24:32 Поиск и извлечение статей
• Поиск статей в системе Скопус и извлечение их для загрузки в программу визуализации.
• Возможность ограничения поиска по годам публикаций и категориям журналов.
00:29:38 Поиск хищных журналов
• Поиск и извлечение статей о хищных журналах для построения научных сетей.
• Ограничение поиска по годам публикаций и исследовательским категориям.
00:36:30 Загрузка данных в программу
• Экспорт данных из системы Скопус в формат библиометрик мейпинг для загрузки в программу Васю или Сайт Спейс.
• Распаковка архива с данными и загрузка в программу для визуализации научных статей.
00:38:10 Визуализация научных статей
• Программы для визуализации научных статей: VAS, Site-Space, и другие.
• Связи между объектами: соавторство, прямое цитирование, библиографическая связь, социтирование.
00:42:08 Создание карт на основе данных
• Загрузка данных из системы Times.
• Выбор типа анализа и единицы анализа.
• Создание карт на основе библиографических данных и текстового анализа.
00:45:57 Примеры карт
• Карта на основе библиографических данных: журналы, прямое цитирование.
• Карта на основе биографических данных: журналы, социтирование, кластеры.
• Интерпретация карт и их использование для анализа исследований хищных журналов.
00:53:51 Создание карты на основе текстовых данных
• В программе можно построить сети на основе текстовых данных, для этого нужно создать карту и выбрать формат, где упоминаются dimensions.
• Затем нужно выбрать ключевые слова, которые будут извлекаться из данных, и определить тип подсчетов (например, слова, которые встречаются в аннотациях).
00:55:57 Настройка параметров и получение карты
• После выбора параметров, система выдаст список слов, которые можно извлечь из названий и аннотаций статей.
• Можно отсортировать слова по встречаемости и снять галочки с тех, которые кажутся не специфическими.
00:57:46 Анализ карты слов
• На карте узлами являются слова, а связи между ними означают, что эти слова встречались в одной аннотации или названии статьи.
• Карта может быть разделена на три кластера: наукометрический, медицинский и библиотечный.
• Зеленый кластер может быть менее исследовательским и более рефлексирующим, предполагающим программу действий для улучшения ситуации с хищными журнал
YouTube
Как и зачем визуализировать потоки научных статей. Работа в Dimensions и VosViewer // Екатерина Губа
Forwarded from DH Center ITMO University
Программа конференции 📎
15–17 апреля мы проводим конференцию «Гуманитарные проблемы актуальных наук: цифровая дисциплина и проект»
До нашей встречи в Петербурге и в онлайне — чуть больше недели, и мы рады поделиться с вами программой этих трёх дней.
На конференции будут не только классические форматы в духе докладов, дискуссий и круглых столов, но и серия специальных мероприятий, которые мы подготовили с нашими коллегами: секция о сохранении цифрового наследия вместе с ПАНДАНом, встречи о чтении гипертекстов и тексте в интерфейсе вместе с Пушкиным <цифровым>, лекции и воркшопы от приглашённых спикеров и, конечно, вечеринки открытия и закрытия.
⚡️ Полная программа — на сайте. Актуальное расписание и параллельные секции — в этом документе.
Там же вы найдёте ссылки для регистрации в качестве слушателей. Важно — если вы планируете прийти на конференцию на все три дня — зарегистрироваться нужно на каждый из них.
До встречи в середине апреля!
15–17 апреля мы проводим конференцию «Гуманитарные проблемы актуальных наук: цифровая дисциплина и проект»
До нашей встречи в Петербурге и в онлайне — чуть больше недели, и мы рады поделиться с вами программой этих трёх дней.
На конференции будут не только классические форматы в духе докладов, дискуссий и круглых столов, но и серия специальных мероприятий, которые мы подготовили с нашими коллегами: секция о сохранении цифрового наследия вместе с ПАНДАНом, встречи о чтении гипертекстов и тексте в интерфейсе вместе с Пушкиным <цифровым>, лекции и воркшопы от приглашённых спикеров и, конечно, вечеринки открытия и закрытия.
Там же вы найдёте ссылки для регистрации в качестве слушателей. Важно — если вы планируете прийти на конференцию на все три дня — зарегистрироваться нужно на каждый из них.
До встречи в середине апреля!
Please open Telegram to view this post
VIEW IN TELEGRAM
Сразу по следам выступления на Векторах
Снова убедилась, что вскрытие и обсуждение практических вопросов — востребовано. Мне всегда неловко говорить про насущные и даже бытовые исследовательские проблемы, когда вокруг только и разговоров, что про акторно-сетевую теорию.
Но мы каждый день работаем с цифровыми серсивами, приходится осваивать новое. И то, как сервисы участвуют в наших исследованиях — это болит, зудит и чешется. Хочется обсудить, поделиться и найти лучшее решение. Да — хочется! Не мне одной.
Остаюсь при своем — надо трогать интерфейсы, применять их в работе и обязательно обсуждать процесс и результаты с коллегами.
Снова убедилась, что вскрытие и обсуждение практических вопросов — востребовано. Мне всегда неловко говорить про насущные и даже бытовые исследовательские проблемы, когда вокруг только и разговоров, что про акторно-сетевую теорию.
Но мы каждый день работаем с цифровыми серсивами, приходится осваивать новое. И то, как сервисы участвуют в наших исследованиях — это болит, зудит и чешется. Хочется обсудить, поделиться и найти лучшее решение. Да — хочется! Не мне одной.
Остаюсь при своем — надо трогать интерфейсы, применять их в работе и обязательно обсуждать процесс и результаты с коллегами.
Всем привет!
Вы заметили, что в последние месяцы канал мало активен. Как и я. На это есть причины.
- у меня депрессия, и возвращение себе контроля над собой идет медленно и сложно
- я выпускаюсь из магистратуры и меня тревожит профессиональное распутье (и распутство)
- я сказала об академической библиографии, кажется, все, что могла и хотела. А повторяться я не хочу.
И вот, что это значит для канала какой-то библиотеки и вас, мои подписчики.
Тематика канала меняется. Расширяется. Я — аналитик-исследователь и плотно связала свою жизнь с консалтингом. И канал будет об этом.
какая-то библиотека аналитика-исследователя — это канал про
- методы исследований в консалтинге и (реже) в академии
- анализ данных в широком смысле
- поиск статистики, например, о том, сколько банок для пива произвели в России
- поиск информации где угодно и о чем угодно (а не только для академических целей)
- визуализации и отчеты
- личные переживания и внутренние споры вокруг профессии аналитика-исследователя.
Может ли это быть интересно и студентам? Да. Но не всем.
Спасибо, что были рядом и вместе. 💜
Вы заметили, что в последние месяцы канал мало активен. Как и я. На это есть причины.
- у меня депрессия, и возвращение себе контроля над собой идет медленно и сложно
- я выпускаюсь из магистратуры и меня тревожит профессиональное распутье (и распутство)
- я сказала об академической библиографии, кажется, все, что могла и хотела. А повторяться я не хочу.
И вот, что это значит для канала какой-то библиотеки и вас, мои подписчики.
Тематика канала меняется. Расширяется. Я — аналитик-исследователь и плотно связала свою жизнь с консалтингом. И канал будет об этом.
какая-то библиотека аналитика-исследователя — это канал про
- методы исследований в консалтинге и (реже) в академии
- анализ данных в широком смысле
- поиск статистики, например, о том, сколько банок для пива произвели в России
- поиск информации где угодно и о чем угодно (а не только для академических целей)
- визуализации и отчеты
- личные переживания и внутренние споры вокруг профессии аналитика-исследователя.
Может ли это быть интересно и студентам? Да. Но не всем.
Спасибо, что были рядом и вместе. 💜
👾Ко мне обратилась одна из подписчиц с просьбой помочь ей в поиске респондентов для дипломного интервью. Ее тема - использование ChatGPT в творческой деятельности.
Она ищет респондентов:
▫️ Литератора, писателя или иного творческого человека, который использует нейросети, такие как ChatGPT, для создания художественных текстов. Желательно провести с ним интервью продолжительностью 20-30 минут.
▫️Человека, который просто общается с ChatGPT ради общения, для получения дополнительной перспективы.
Сферы исследования не ограничиваются искусством, но также включают науку, образование, религию, технику, предпринимательство и даже мошенничество 👀.
Если среди наших подписчиков есть те, кто подходит под описанные критерии и готов дать интервью, напишите Татьяне https://www.tgoop.com/chis_tat
Она ищет респондентов:
▫️ Литератора, писателя или иного творческого человека, который использует нейросети, такие как ChatGPT, для создания художественных текстов. Желательно провести с ним интервью продолжительностью 20-30 минут.
▫️Человека, который просто общается с ChatGPT ради общения, для получения дополнительной перспективы.
Сферы исследования не ограничиваются искусством, но также включают науку, образование, религию, технику, предпринимательство и даже мошенничество 👀.
Если среди наших подписчиков есть те, кто подходит под описанные критерии и готов дать интервью, напишите Татьяне https://www.tgoop.com/chis_tat
Учусь программировать с помощью ChatGPT: реплика про промты
Программирование на Python - задача, к которой я возвращалась неоднократно, стремясь повысить эффективность анализа данных и визуализацию. Однако каждый раз мое увлечение затухало. Но последний поворот в моей жизни — встреча с ChatGPT. Наткнувшись на интенсив о программировании с его помощью, я осознала, что это может быть ключ к преодолению моих трудностей. Возможность обучаться, опираясь на искусственный интеллект, открыла новые перспективы.
Теперь, благодаря использованию ChatGPT, я могу решать аналитические задачи быстрее, эффективнее и точнее. Но возникает новый вопрос: как я могу четко объяснить ChatGPT, какой именно код мне нужен?
Мои попытки отправить запросы на получение кода часто приводили к неразберихе. Поэтому я пришла к выводу, что наиболее эффективный подход — это пошаговое объяснение отдельных задач и последовательная разработка кода. Для примера, я оставлю ссылку на статью декомпозиции задач, чтобы продемонстрировать, как это выглядит в теории.
На практике же я обнаружила, что если мне сложно начать декомпозицию для написания точного промпта, я могу переложить эту ответственность на ChatGPT. Например, я могу попросить ChatGPT создать код для кластеризации текста и предложить несколько вариантов структуры такого кода.
Такой подход дал мне возможность не только улучшить процесс обучения Python, но и эффективнее использовать ChatGPT в своей работе. В конечном итоге, это оказалось отличной стратегией для достижения моих целей.
#промты_для_исследований
Программирование на Python - задача, к которой я возвращалась неоднократно, стремясь повысить эффективность анализа данных и визуализацию. Однако каждый раз мое увлечение затухало. Но последний поворот в моей жизни — встреча с ChatGPT. Наткнувшись на интенсив о программировании с его помощью, я осознала, что это может быть ключ к преодолению моих трудностей. Возможность обучаться, опираясь на искусственный интеллект, открыла новые перспективы.
Теперь, благодаря использованию ChatGPT, я могу решать аналитические задачи быстрее, эффективнее и точнее. Но возникает новый вопрос: как я могу четко объяснить ChatGPT, какой именно код мне нужен?
Мои попытки отправить запросы на получение кода часто приводили к неразберихе. Поэтому я пришла к выводу, что наиболее эффективный подход — это пошаговое объяснение отдельных задач и последовательная разработка кода. Для примера, я оставлю ссылку на статью декомпозиции задач, чтобы продемонстрировать, как это выглядит в теории.
На практике же я обнаружила, что если мне сложно начать декомпозицию для написания точного промпта, я могу переложить эту ответственность на ChatGPT. Например, я могу попросить ChatGPT создать код для кластеризации текста и предложить несколько вариантов структуры такого кода.
Такой подход дал мне возможность не только улучшить процесс обучения Python, но и эффективнее использовать ChatGPT в своей работе. В конечном итоге, это оказалось отличной стратегией для достижения моих целей.
#промты_для_исследований
Журнал «Код» программирование без снобизма
Декомпозиция задач: что это и зачем нужно — Журнал «Код»
Чем крупнее задача, тем сложнее обойтись без декомпозиции. Рассказываем, как и зачем декомпозировать задачи.