
Anthropic presenta herramienta para detectar diferencias de comportamiento entre modelos de IA
Anthropic desarrolló un método para comparar modelos de IA y detectar comportamientos nuevos o exclusivos. Su herramienta, Dedicated Feature Crosscoder, halló patrones de censura y rechazo por copyright.

