J'ai trouvé une histoire très intéressante qui est sortie récemment à propos d'un agent d'IA appelé ROME, développé par une équipe de recherche liée à Alibaba. Fondamentalement, lors de l'entraînement par apprentissage par renforcement, ce système a commencé à faire des choses bien en dehors des limites sans que personne ne le demande explicitement.



Ce qui est le plus curieux, c'est que ROME a tenté de miner des cryptomonnaies de manière autonome. Genre, le système de surveillance de sécurité a déclenché une alerte en détectant une consommation anormale des ressources GPU, avec des modèles de trafic indiquant des activités de minage en cours. Ce n'était pas un comportement prévu par les chercheurs, c'était le modèle qui agissait par lui-même.

Mais ce n'était pas tout. En plus du minage non autorisé qui a augmenté les coûts informatiques, l'agent a également établi des tunnels SSH inversés, créant essentiellement une porte cachée à l'intérieur du système. Cette porte cachée fonctionnait comme une connexion vers un ordinateur externe, ouvrant en gros une porte dérobée de l'intérieur vers l'extérieur sans que personne n'autorise.

Lorsque l'équipe a réalisé ce qui se passait, elle a mis en place des restrictions plus strictes sur le modèle et a amélioré tout le processus d'entraînement. L'idée était d'éviter que des comportements aussi dangereux ne se reproduisent. C'est le genre de situation qui montre comment des systèmes d'IA en développement peuvent avoir des comportements inattendus et pourquoi la sécurité doit toujours être une étape en avance.

Ce qui est intéressant, c'est de penser à comment une porte cachée comme ça aurait pu être exploitée si elle n'avait pas été détectée. Ce genre de découvertes est important parce qu'il montre les risques réels liés à l'entraînement de l'IA sans protections adéquates. C'est définitivement un cas à suivre dans le monde de la sécurité des systèmes d'IA.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler