DATA_MATH Telegram 577
Forwarded from Machinelearning
🌟 The Well: Масштабная коллекция физических симуляций для машинного обучения.

The Well – коллекция датасетов для машинного обучения, содержащая 15 ТБ данных численного моделирования различных физических систем. Коллекция состоит из 16 наборов данных из областей: биологии, гидродинамики, акустики, магнитогидродинамики, внегалактических субстанций и взрывы сверхновых.

Данные представлены в унифицированном формате HDF5, организованном в соответствии с общей спецификацией. Они сгенерированы на равномерных сетках и дискретизированы с постоянным временным шагом.

Файлы HDF5 содержат все доступные переменные состояния и пространственно-изменяющиеся коэффициенты в виде массивов NumPy в формате одинарной точности fp32. Доступны скалярные, векторные и тензорные поля, учитывая их различные свойства преобразования.

Каждый файл данных случайным образом разделен на обучающую, тестовую и валидационную выборки в соотношении 8:1:1. Детальное описание каждого набора данных представлено в таблицах, где указаны координатная система, разрешение снимков, количество временных шагов в траектории, общее количество траекторий в наборе данных, размер набора данных, время выполнения симуляций и используемое оборудование.

The Well предоставляет класс the_well для Python, который позволяет загружать и использовать данные в процессе обучения моделей. Для удобства большинство наборов размещены на Hugging Face, что позволяет получать данные напрямую через интернет.

▶️ Установка и пример использования c HF:

# Create new venv
python -m venv path/to/env
source path/to/env/activate/bin

# Instal from repo
git clone https://github.com/PolymathicAI/the_well
cd the_well
pip install .

# Streaming from Hugging Face
from the_well.data import WellDataset
from torch.utils.data import DataLoader

trainset = WellDataset(
well_base_path="hf://datasets/polymathic-ai/",
well_dataset_name="active_matter",
well_split_name="train",
)
train_loader = DataLoader(trainset)

for batch in train_loader:
...


📌Лицензирование кода : BSD-3-Clause License.

📌Лицензирование датасетов : CC-BY-4.0 License.


🟡Страница проекта
🟡Коллекция на HF
🟡Demo
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Dataset #TheWell
Please open Telegram to view this post
VIEW IN TELEGRAM



tgoop.com/data_math/577
Create:
Last Update:

🌟 The Well: Масштабная коллекция физических симуляций для машинного обучения.

The Well – коллекция датасетов для машинного обучения, содержащая 15 ТБ данных численного моделирования различных физических систем. Коллекция состоит из 16 наборов данных из областей: биологии, гидродинамики, акустики, магнитогидродинамики, внегалактических субстанций и взрывы сверхновых.

Данные представлены в унифицированном формате HDF5, организованном в соответствии с общей спецификацией. Они сгенерированы на равномерных сетках и дискретизированы с постоянным временным шагом.

Файлы HDF5 содержат все доступные переменные состояния и пространственно-изменяющиеся коэффициенты в виде массивов NumPy в формате одинарной точности fp32. Доступны скалярные, векторные и тензорные поля, учитывая их различные свойства преобразования.

Каждый файл данных случайным образом разделен на обучающую, тестовую и валидационную выборки в соотношении 8:1:1. Детальное описание каждого набора данных представлено в таблицах, где указаны координатная система, разрешение снимков, количество временных шагов в траектории, общее количество траекторий в наборе данных, размер набора данных, время выполнения симуляций и используемое оборудование.

The Well предоставляет класс the_well для Python, который позволяет загружать и использовать данные в процессе обучения моделей. Для удобства большинство наборов размещены на Hugging Face, что позволяет получать данные напрямую через интернет.

▶️ Установка и пример использования c HF:

# Create new venv
python -m venv path/to/env
source path/to/env/activate/bin

# Instal from repo
git clone https://github.com/PolymathicAI/the_well
cd the_well
pip install .

# Streaming from Hugging Face
from the_well.data import WellDataset
from torch.utils.data import DataLoader

trainset = WellDataset(
well_base_path="hf://datasets/polymathic-ai/",
well_dataset_name="active_matter",
well_split_name="train",
)
train_loader = DataLoader(trainset)

for batch in train_loader:
...


📌Лицензирование кода : BSD-3-Clause License.

📌Лицензирование датасетов : CC-BY-4.0 License.


🟡Страница проекта
🟡Коллекция на HF
🟡Demo
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Dataset #TheWell

BY Математика Дата саентиста







Share with your friend now:
tgoop.com/data_math/577

View MORE
Open in Telegram


Telegram News

Date: |

The group also hosted discussions on committing arson, Judge Hui said, including setting roadblocks on fire, hurling petrol bombs at police stations and teaching people to make such weapons. The conversation linked to arson went on for two to three months, Hui said. According to media reports, the privacy watchdog was considering “blacklisting” some online platforms that have repeatedly posted doxxing information, with sources saying most messages were shared on Telegram. Concise Channel login must contain 5-32 characters Step-by-step tutorial on desktop:
from us


Telegram Математика Дата саентиста
FROM American