Nous utilisons le parallélisme de pipeline pour diviser le modèle complet de 671 Go entre deux appareils.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
10 J'aime
Récompense
10
5
Reposter
Partager
Commentaire
0/400
SquidTeacher
· Il y a 21h
671g est en train de créer une arme nucléaire ?
Voir l'originalRépondre0
LiquidityWizard
· 09-19 02:22
la parallélisation théoriquement sous-optimale tbh... perte d'efficacité ~31,4 % selon mes calculs
Voir l'originalRépondre0
HashBard
· 09-19 02:20
wen mac studio beats nvidia fr...
Répondre0
BlockchainRetirementHome
· 09-19 02:14
Deux M2 osent entraîner un grand modèle.
Voir l'originalRépondre0
MiningDisasterSurvivor
· 09-19 02:13
Pas de souci à faire des essais avec le modèle, j'ai déjà vécu des désastres du minage, donc je n'ai plus peur de rien.
Affinez DeepSeek 🐳 avec deux Mac Studios + MLX 🚀
Nous utilisons le parallélisme de pipeline pour diviser le modèle complet de 671 Go entre deux appareils.