MACHINELEARNING_RU Telegram 2436
Forwarded from Machinelearning
🌟 Common Corpus: обновление большого набора данных.

Common Corpus - обширный открытый текстовый набор данных на 2 трлн. токенов. Набор разработан PleIAs в сотрудничестве с рядом партнёров и отличается от других датасетов высоким уровнем открытости и возможностью отслеживания происхождения данных.

В обновленную версию были включены материалы, не защищенные авторским правом или распространяемые на основе открытых лицензий.

Common Corpus содержит информацию объемом 10 млрд. токенов для каждого из 8 основных языков (английский, немецкий, французский, испанский, итальянский, польский, греческий и латынь) и 1 млрд. токенов для каждого из 33 дополнительных языка.

В состав Common Corpus входят научные публикации, правительственные и юридические документы, программный код и материалы культурного наследия - книги и газеты.

Все исходные данные для датасетов Common Corpus прошли тщательную модерацию, строгий отбор, коррекцию орфографических ошибок и удаление нежелательного или недостоверного контента.

Common Corpus соответствует положениям AI Act и предоставляет возможность обучения моделей, совместимых с принципами открытого ИИ и может быть использован в коммерческих и некоммерческих целях.

📌Набор данных структурирован в виде 6 коллекций:

🟢OpenCulture - материалы, находящиеся в общественном достоянии, архивные газетные публикации и ресурсы проектов Wikisource и Gutenberg (886 млрд. токенов);

🟢OpenGovernment - финансовая и юридическая документациия из SEC, WTO, Europarl и Caselaw Access Project (406 млрд. токенов);

🟢OpenSource - программный код из репозиториев GitHub, прошедший отбор с использованием системы ArmoRM (283 млрд. токенов);

🟢OpenScience - академические материалы из баз данных Open Alex и других открытых научных хранилищ (281 млрд токенов);

🟢OpenWeb - данные из Wikipedia, YouTube Commons и платформы Stack Exchange (73 млрд. токенов);

🟢Open Semantic - семантические данные из Wikidata, обработанные при участии Wikidata и Wikimedia Germany (67 млрд. токенов).

📌Каждый документ в Common Corpus сопровождается метаданными:

identifier - уникальный идентификатор текстового документа;
collection - название коллекции, к которой относится документ;
license - информация о лицензии;
date - дата создания документа;
title - заголовок документа;
creator - автор или источник публикации;
language - язык документа;
word_count, token_count - количественные показатели: число слов и токенов;
text - текстовое содержание документа.


@ai_machinelearning_big_data

#AI #ML #Dataset #PlelAs #CommonCorpus
Please open Telegram to view this post
VIEW IN TELEGRAM
5🔥3👍1



tgoop.com/machinelearning_ru/2436
Create:
Last Update:

🌟 Common Corpus: обновление большого набора данных.

Common Corpus - обширный открытый текстовый набор данных на 2 трлн. токенов. Набор разработан PleIAs в сотрудничестве с рядом партнёров и отличается от других датасетов высоким уровнем открытости и возможностью отслеживания происхождения данных.

В обновленную версию были включены материалы, не защищенные авторским правом или распространяемые на основе открытых лицензий.

Common Corpus содержит информацию объемом 10 млрд. токенов для каждого из 8 основных языков (английский, немецкий, французский, испанский, итальянский, польский, греческий и латынь) и 1 млрд. токенов для каждого из 33 дополнительных языка.

В состав Common Corpus входят научные публикации, правительственные и юридические документы, программный код и материалы культурного наследия - книги и газеты.

Все исходные данные для датасетов Common Corpus прошли тщательную модерацию, строгий отбор, коррекцию орфографических ошибок и удаление нежелательного или недостоверного контента.

Common Corpus соответствует положениям AI Act и предоставляет возможность обучения моделей, совместимых с принципами открытого ИИ и может быть использован в коммерческих и некоммерческих целях.

📌Набор данных структурирован в виде 6 коллекций:

🟢OpenCulture - материалы, находящиеся в общественном достоянии, архивные газетные публикации и ресурсы проектов Wikisource и Gutenberg (886 млрд. токенов);

🟢OpenGovernment - финансовая и юридическая документациия из SEC, WTO, Europarl и Caselaw Access Project (406 млрд. токенов);

🟢OpenSource - программный код из репозиториев GitHub, прошедший отбор с использованием системы ArmoRM (283 млрд. токенов);

🟢OpenScience - академические материалы из баз данных Open Alex и других открытых научных хранилищ (281 млрд токенов);

🟢OpenWeb - данные из Wikipedia, YouTube Commons и платформы Stack Exchange (73 млрд. токенов);

🟢Open Semantic - семантические данные из Wikidata, обработанные при участии Wikidata и Wikimedia Germany (67 млрд. токенов).

📌Каждый документ в Common Corpus сопровождается метаданными:

identifier - уникальный идентификатор текстового документа;
collection - название коллекции, к которой относится документ;
license - информация о лицензии;
date - дата создания документа;
title - заголовок документа;
creator - автор или источник публикации;
language - язык документа;
word_count, token_count - количественные показатели: число слов и токенов;
text - текстовое содержание документа.


@ai_machinelearning_big_data

#AI #ML #Dataset #PlelAs #CommonCorpus

BY Машинное обучение RU





Share with your friend now:
tgoop.com/machinelearning_ru/2436

View MORE
Open in Telegram


Telegram News

Date: |

Telegram channels enable users to broadcast messages to multiple users simultaneously. Like on social media, users need to subscribe to your channel to get access to your content published by one or more administrators. It’s yet another bloodbath on Satoshi Street. As of press time, Bitcoin (BTC) and the broader cryptocurrency market have corrected another 10 percent amid a massive sell-off. Ethereum (EHT) is down a staggering 15 percent moving close to $1,000, down more than 42 percent on the weekly chart. “[The defendant] could not shift his criminal liability,” Hui said. Other crimes that the SUCK Channel incited under Ng’s watch included using corrosive chemicals to make explosives and causing grievous bodily harm with intent. The court also found Ng responsible for calling on people to assist protesters who clashed violently with police at several universities in November 2019. Activate up to 20 bots
from us


Telegram Машинное обучение RU
FROM American