Xiaomi déploie son modèle MiMo-V2.5-Pro-UltraSpeed avec une cadence de génération supérieure à mille jetons par seconde. L’infrastructure repose sur un nœud standard à huit GPU couplé au système d’inférence TileRT. L’accès API ouvre ce 9 juin 2026 en phase promotionnelle, jusqu’au 23 juin, avec une cible explicite : les usages à latence critique, dont le trading quantitatif crypto.
Points clés – MiMo-V2.5-Pro-UltraSpeed dépasse 1000 tokens/s sur un modèle à 1 trillion de paramètres, déployé sur un nœud commodité à huit GPU. – L’accélération repose sur un codesign serré entre l’équipe modèle MiMo et l’équipe système TileRT, selon Xiaomi. – L’API ouvre du 9 au 23 juin 2026 (heure de Pékin) à tarif promotionnel, avec des cas d’usage cibles : trading haute fréquence, anti-fraude on-chain, dialogue temps réel.
L’annonce de MiMo-V2.5-Pro-UltraSpeed
Xiaomi présente ce lundi 8 juin 2026 la version UltraSpeed de son modèle MiMo-V2.5-Pro. L’équipe revendique plus de 1000 jetons par seconde en génération sur un modèle à 1 trillion de paramètres (1T, soit mille milliards de poids). Le chiffre place ce modèle au sommet de la course actuelle à la vitesse d’inférence sur les architectures denses à grande échelle. Xiaomi cible explicitement les applications où chaque milliseconde se traduit en pertes opérationnelles ou en risque non maîtrisé.
Codesign MiMo × TileRT : la mécanique
Le gain de débit ne vient pas d’une optimisation isolée. Xiaomi décrit une « collaboration profonde » entre l’équipe modèle MiMo et l’équipe système TileRT, qualifiée d’« extrême Codesign ». Selon les ingénieurs, les couches d’inférence traditionnelles deviennent « le goulot d’étranglement principal — chaque lancement d’opérateur, synchronisation matérielle et aller-retour en mémoire globale fracture le flux d’exécution à l’échelle de la microseconde ». La parade : retravailler de bout en bout modèle et runtime pour aligner les temps de cycle. Résultat technique annoncé : 1000+ tokens/s à partir d’un modèle 1T sur un seul nœud commodité à huit GPU, sans cluster massif. À titre de comparaison, la plupart des modèles 1T mainstream plafonnent sous 200 tokens/s en configuration équivalente. Aucun benchmark tiers n’a confirmé ces chiffres à ce stade.
Cas d’usage critiques visés
Xiaomi liste les scénarios cibles : génération de signaux pour le trading quantitatif haute fréquence, interception anti-fraude instantanée, enchères publicitaires intelligentes, dialogue interactif temps réel. Pour les opérateurs crypto, l’angle est direct. Les bots d’arbitrage cross-exchange doivent traiter des données carnet d’ordres en moins de dix millisecondes ; une inférence à 1000 tokens/s ouvre la voie à des stratégies LLM en boucle courte, là où les modèles précédents imposaient « d’attendre une réponse et de prier qu’elle soit correcte », selon la formulation des auteurs. Côté anti-fraude on-chain, le seuil de réactivité passe potentiellement sous la barre du bloc Ethereum (12 secondes), permettant de filtrer des transactions suspectes avant inclusion. Pour les agrégateurs de cours des cryptomonnaies à signaux IA, la fenêtre de décision se rapproche du temps réel pur. Xiaomi évoque aussi une accélération « de niveau paradigmatique » sur la génération de code, ce qui touche directement la productivité des équipes développant des outils de trading et d’analyse on-chain.
Analyse rapide
L’effet de seuil joué par 1000 tps modifie le périmètre fonctionnel d’un grand modèle. Sous 200 tps, l’usage reste asynchrone : un opérateur attend, vérifie, relance. Au-delà de 1000, l’inférence se glisse dans des pipelines synchrones temps réel — détection d’anomalies on-chain, exécution de stratégies de marché, arbitrage MEV (extraction de valeur sur les transactions en attente). Le tout sur huit GPU commodité, soit un coût matériel divisé par cinq à dix face aux clusters de 64+ GPU usuels. Reste la validation par des benchmarks indépendants.
FAQ MiMo UltraSpeed
Comment accéder au modèle MiMo-V2.5-Pro-UltraSpeed ?
L’accès est ouvert uniquement par API, du 9 au 23 juin 2026 (heure de Pékin), à un tarif promotionnel. Les développeurs doivent s’enregistrer sur la plateforme MiMo de Xiaomi pour bénéficier de la fenêtre de test. Aucune extension n’a été annoncée à ce jour selon les sources disponibles.
UltraSpeed remplace-t-il MiMo-V2.5 standard ?
Non. UltraSpeed est une version d’inférence accélérée. Les plans tarifaires standards à la consommation de jetons restent disponibles pour la version MiMo-V2.5 classique. La cohabitation est confirmée par Xiaomi sur la durée de la phase promotionnelle.
À suivre
Trois échéances à surveiller : la fermeture de la fenêtre API le 23 juin 2026, l’éventuelle publication de benchmarks tiers (type MLPerf Inference), et l’arrivée de prestataires crypto-natifs intégrant MiMo dans leurs piles d’agents on-chain et de trading algorithmique.
