ThermoQA: 293 Soru, 6 Model, 3 Katman — Yapay Zekanın Termodinamik Muhakeme Karnesi
293 soru, 3 katman, 6 frontier model, 18 değerlendirme. Opus %94.1 kompozit ile lider, MiniMax %73.0 ile son. 21 puanlık yayılım termodinamiğin AI'yı ayırt ettiğini kanıtlıyor. Ezberleme ≠ muhakeme.