tgoop.com/pro_python_code/1731
Last Update:
ΠΡΡΠ»Π΅Π΄ΠΎΠ²Π°ΡΠ΅Π»ΡΡΠΊΠ°Ρ Π³ΡΡΠΏΠΏΠ° ΠΏΠΎΠ΄ ΠΏΠ°ΡΡΠΎΠ½Π°ΠΆΠ΅ΠΌ Centrale SupΓ©lec (Π£Π½ΠΈΠ²Π΅ΡΡΠΈΡΠ΅Ρ ΠΠ°ΡΠΈΠΆ-Π‘Π°ΠΊΠ»Π΅) Π²ΡΠΏΡΡΡΠΈΠ»Π° Π² ΠΎΡΠΊΡΡΡΡΠΉ Π΄ΠΎΡΡΡΠΏ EuroBERT β ΡΠ΅ΠΌΠ΅ΠΉΡΡΠ²ΠΎ ΠΌΡΠ»ΡΡΠΈΡΠ·ΡΡΠ½ΡΡ
ΡΠ½ΠΊΠΎΠ΄Π΅ΡΠΎΠ², ΠΎΠ±ΡΡΠ΅Π½Π½ΡΡ
Π½Π° 5 ΡΡΠ»Π½. ΡΠΎΠΊΠ΅Π½ΠΎΠ² ΠΈΠ· 15 ΡΠ·ΡΠΊΠΎΠ², Π²ΠΊΠ»ΡΡΠ°Ρ ΡΡΡΡΠΊΠΈΠΉ.
EuroBERT ΡΠΎΡΠ΅ΡΠ°Π΅Ρ ΠΈΠ½Π½ΠΎΠ²Π°ΡΠΈΠΎΠ½Π½ΡΡ Π°ΡΡ
ΠΈΡΠ΅ΠΊΡΡΡΡ Ρ ΠΏΠΎΠ΄Π΄Π΅ΡΠΆΠΊΠΎΠΉ ΠΊΠΎΠ½ΡΠ΅ΠΊΡΡΠ° Π΄ΠΎ 8192 ΡΠΎΠΊΠ΅Π½ΠΎΠ², ΡΡΠΎ Π΄Π΅Π»Π°Π΅Ρ ΡΡΠΎ ΡΠ΅ΠΌΠ΅ΠΉΡΡΠ²ΠΎ ΠΈΠ΄Π΅Π°Π»ΡΠ½ΡΠΌ Π΄Π»Ρ Π°Π½Π°Π»ΠΈΠ·Π° Π΄ΠΎΠΊΡΠΌΠ΅Π½ΡΠΎΠ², ΠΏΠΎΠΈΡΠΊΠ° ΠΈΠ½ΡΠΎΡΠΌΠ°ΡΠΈΠΈ, ΠΊΠ»Π°ΡΡΠΈΡΠΈΠΊΠ°ΡΠΈΠΈ, ΡΠ΅Π³ΡΠ΅ΡΡΠΈΠΈ ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°ΡΠ΅Π»ΡΠ½ΠΎΡΡΠΈ, ΠΎΡΠ΅Π½ΠΊΠΈ ΠΊΠ°ΡΠ΅ΡΡΠ²Π°, ΠΎΡΠ΅Π½ΠΊΠΈ ΡΠ΅Π·ΡΠΌΠ΅ ΠΈ Π·Π°Π΄Π°Ρ, ΡΠ²ΡΠ·Π°Π½Π½ΡΡ
Ρ ΠΏΡΠΎΠ³ΡΠ°ΠΌΠΌΠΈΡΠΎΠ²Π°Π½ΠΈΠ΅ΠΌ, ΡΠ΅ΡΠ΅Π½ΠΈΠ΅ΠΌ ΠΌΠ°ΡΠ΅ΠΌΠ°ΡΠΈΡΠ΅ΡΠΊΠΈΡ
Π·Π°Π΄Π°ΡΠΈ.
Π ΠΎΡΠ»ΠΈΡΠΈΠ΅ ΠΎΡ ΠΏΡΠ΅Π΄ΡΠ΅ΡΡΠ²Π΅Π½Π½ΠΈΠΊΠΎΠ² (XLM-RoBERTa ΠΈ mGTE), EuroBERT ΠΎΠ±ΡΠ΅Π΄ΠΈΠ½ΠΈΠ» GQA, RoPE ΠΈ ΡΡΠ΅Π΄Π½Π΅ΠΊΠ²Π°Π΄ΡΠ°ΡΠΈΡΠ½ΡΡ Π½ΠΎΡΠΌΠ°Π»ΠΈΠ·Π°ΡΠΈΡ, ΡΡΠΎΠ±Ρ Π΄ΠΎΡΡΠΈΡΡ Π±Π΅ΡΠΏΡΠ΅ΡΠ΅Π΄Π΅Π½ΡΠ½ΠΎΠΉ ΡΡΡΠ΅ΠΊΡΠΈΠ²Π½ΠΎΡΡΠΈ ΠΏΡΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡΠ΅Π»ΡΠ½ΠΎΡΡΠΈ Π΄Π°ΠΆΠ΅ Π² ΡΠ»ΠΎΠΆΠ½ΡΡ
Π·Π°Π΄Π°ΡΠ°Ρ
. ΠΡΠΎΡΠΎΠ΅ Π½Π΅ΠΌΠ°Π»ΠΎΠ²Π°ΠΆΠ½ΠΎΠ΅ ΠΏΡΠ΅ΠΈΠΌΡΡΠ΅ΡΡΠ²ΠΎ EuroBERT - Π² ΠΎΠ±ΡΡΠ΅Π½ΠΈΠ΅ ΠΏΠΎΠΌΠΈΠΌΠΎ ΡΠ΅ΠΊΡΡΠΎΠ²ΡΡ
Π΄Π°Π½Π½ΡΡ
Π±ΡΠ»ΠΈ Π²ΠΊΠ»ΡΡΠ΅Π½Ρ ΠΏΡΠΈΠΌΠ΅ΡΡ ΠΊΠΎΠ΄Π° ΠΈ ΡΠ΅ΡΠ΅Π½ΠΈΡ ΠΌΠ°ΡΠ΅ΠΌΠ°ΡΠΈΡΠ΅ΡΠΊΠΈΡ
Π·Π°Π΄Π°Ρ.
Π‘Π°ΠΌΠ°Ρ ΠΌΠ»Π°Π΄ΡΠ°Ρ ΠΌΠΎΠ΄Π΅Π»Ρ EuroBERT Ρ 210 ΠΌΠ»Π½. ΠΏΠ°ΡΠ°ΠΌΠ΅ΡΡΠΎΠ² ΠΏΠΎΠΊΠ°Π·Π°Π»Π° ΡΠ΅ΠΊΠΎΡΠ΄Π½ΡΠ΅ ΡΠ΅Π·ΡΠ»ΡΡΠ°ΡΡ: Π² ΡΠ΅ΡΡΠ΅ MIRACL ΠΏΠΎ ΠΌΠ½ΠΎΠ³ΠΎΡΠ·ΡΡΠ½ΠΎΠΌΡ ΠΏΠΎΠΈΡΠΊΡ Π΅Ρ ΡΠΎΡΠ½ΠΎΡΡΡ Π΄ΠΎΡΡΠΈΠ³Π»Π° 95%, Π° Π² ΠΊΠ»Π°ΡΡΠΈΡΠΈΠΊΠ°ΡΠΈΠΈ ΠΎΡΠ·ΡΠ²ΠΎΠ² (AmazonReviews) β 64,5%. ΠΡΠΎΠ±Π΅Π½Π½ΠΎ Π²ΡΠ΄Π΅Π»ΡΠ΅ΡΡΡ ΡΠΌΠ΅Π½ΠΈΠ΅ ΡΠ°Π±ΠΎΡΠ°ΡΡ Ρ ΠΊΠΎΠ΄ΠΎΠΌ ΠΈ ΠΌΠ°ΡΠ΅ΠΌΠ°ΡΠΈΠΊΠΎΠΉ β Π² Π±Π΅Π½ΡΠΌΠ°ΡΠΊΠ°Ρ
CodeSearchNet ΠΈ MathShepherd EuroBERT ΠΎΠΏΠ΅ΡΠ΅ΠΆΠ°Π΅Ρ Π°Π½Π°Π»ΠΎΠ³ΠΈ Π½Π° 10β15%.
β οΈ EuroBERT ΠΌΠΎΠΆΠ½ΠΎ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°ΡΡ Π½Π΅ΠΏΠΎΡΡΠ΅Π΄ΡΡΠ²Π΅Π½Π½ΠΎ Ρ transformers
, Π½Π°ΡΠΈΠ½Π°Ρ Ρ Π²Π΅ΡΡΠΈΠΈ 4.48.0
β οΈ ΠΠ»Ρ Π΄ΠΎΡΡΠΈΠΆΠ΅Π½ΠΈΡ ΠΌΠ°ΠΊΡΠΈΠΌΠ°Π»ΡΠ½ΠΎΠΉ ΡΡΡΠ΅ΠΊΡΠΈΠ²Π½ΠΎΡΡΠΈ, ΡΠ°Π·ΡΠ°Π±ΠΎΡΡΠΈΠΊΠΈ ΡΠ΅ΠΊΠΎΠΌΠ΅Π½Π΄ΡΡΡ Π·Π°ΠΏΡΡΠΊΠ°ΡΡ EuroBERT Ρ Flash Attention 2
from transformers import AutoTokenizer, AutoModelForMaskedLM
model_id = "EuroBERT/EuroBERT-210m"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForMaskedLM.from_pretrained(model_id, trust_remote_code=True)
text = "The capital of France is <|mask|>."
inputs = tokenizer(text, return_tensors="pt")
outputs = model(**inputs)
# To get predictions for the mask:
masked_index = inputs["input_ids"][0].tolist().index(tokenizer.mask_token_id)
predicted_token_id = outputs.logits[0, masked_index].argmax(axis=-1)
predicted_token = tokenizer.decode(predicted_token_id)
print("Predicted token:", predicted_token)
# Predicted token: Paris
@ai_machinelearning_big_data
#AI #ML #Encoder #EuroBERT