ThermoQA: 293 Soru, 6 Model, 3 Katman — Yapay Zekanın Termodinamik Muhakeme Karnesi
293 soru, 3 katman, 6 frontier model, 18 değerlendirme. Opus %94.1 kompozit ile lider, MiniMax %73.0 ile son. 21 puanlık yayılım termodinamiğin AI'yı ayırt ettiğini kanıtlıyor. Ezberleme ≠ muhakeme.
Olivenet Ekibi
IoT ve Otomasyon Uzmanları
ThermoQA serisinin üç katmanını tamamladık: Tier 1 (özellik aramaları), Tier 2 (bileşen analizi) ve Tier 3 (çevrim analizi). Şimdi büyük resim: 293 soru, 6 frontier model, 3 bağımsız çalışma — yapay zekanın termodinamik muhakeme karnesi.
Benchmark Özeti
ThermoQA Benchmark Istatistikleri
Uc katmanli benchmark sisteminin tam sayisal ozeti
ThermoQA, CoolProp 7.2.0 (IAPWS-IF97 + Helmholtz EOS) referansı ile ±%2 toleransta, ağırlıklı adım seviyesi puanlama kullanıyor. Her model 3 bağımsız çalışma ile değerlendirildi — toplam 18 değerlendirme.
Genel Sıralama: Kompozit Skorlar
Genel Siralama: Kompozit Skorlar
293 soru · 3 katman · 6 model · 3 bagimsiz calisma · soru sayisina gore agirlikli
Claude Opus 4.6
Anthropic
GPT-5.4
OpenAI
Gemini 3.1 Pro
DeepSeek-R1
DeepSeek
Grok 4
xAI
MiniMax M2.5
MiniMax
Kompozit skor, her katmanın soru sayısına göre ağırlıklandırılmış ortalamasıdır (T1: 110, T2: 101, T3: 82). Claude Opus 4.6 %94.1 ile lider — tüm katmanlarda istikrarlı performans gösteren tek model. GPT-5.4 (%93.1) ve Gemini 3.1 Pro (%92.5) yakın takipte. MiniMax M2.5 %73.0 ile 21 puanlık farkla son sırada.
İlk üç model arasında sadece 1.6 puanlık fark var — ancak hikayeyi anlatan rakam T1→T3 düşüşü: Opus -2.8 pp, GPT -8.1 pp, Gemini -10.4 pp. Basit özellik aramalarından tam çevrim analizine geçişte modellerin gerçek muhakeme kapasitesi ortaya çıkıyor.
Katmanlar Arası Performans Yolculuğu
Katmanlar Arasi Performans Yolculugu
Her modelin T1→T2→T3 performans degisimi ve siralama hareketi
Claude Opus 4.6
GPT-5.4
Gemini 3.1 Pro
DeepSeek-R1
Grok 4
MiniMax M2.5
T2→T3 siralama korelasyonu ρ=1.0 (mukemmel), ancak T1→T3 sadece ρ=0.6. Tier 1 basarisi sonraki katmanlari ongormuyor — ezberleme ≠ muhakeme.
Opus yalnizca -2.8 pp dususle en istikrarli model. Gemini ise T1'de #1 iken T3'te #3'e gerileyerek -10.4 pp kaybediyor.
En kritik bulgu: T1 sıralaması T3'ü öngörmüyor. Gemini T1'de %97.9 ile #1 iken T3'te %87.5 ile #3'e geriliyor. T2→T3 korelasyonu ρ=1.0 (mükemmel) — bileşen analizindeki sıralama çevrim analizinde birebir korunuyor. Ancak T1→T3 korelasyonu sadece ρ=0.6. Bu, ezberleme (T1) ile muhakeme (T2/T3) arasındaki temel farkı gözler önüne seriyor.
Opus'un istikrarı dikkat çekici: #3→#1→#1 yolunu izleyerek katmanlar arası en az düşüşü yaşıyor. Bu, Opus'un sadece doğru bilgiyi hatırlamadığını, aynı zamanda karmaşık çok adımlı muhakeme zincirlerini sürdürebildiğini gösteriyor.
Her Katmanın Ayırt Edicisi
Her Katmanin Ayirt Edicisi
Modeller arasi en buyuk performans farkini yaratan kategoriler
Tier 1: Superkritik
Superkritik bolge tum modelleri zorluyor — en buyuk fark burada.
Tier 2: R-134a & Kompresor
R-134a tum modelleri cokertiyor, kompresor en zor bilesen.
Tier 3: Degisken cp & CCGT
Degisken cp ve kombine cevrim en zorlayici senaryolar.
Her katmanda modeller arasında en büyük performans yayılımını yaratan bir "ayırt edici" kategori var:
- Tier 1 — Süperkritik bölge: %45–89.5 yayılım. Süperkritik bölgede basınç-sıcaklık ilişkisi kritik nokta civarında keskin değişir ve modellerin ezbere güvenemediği nadir durumlar yaratır.
- Tier 2 — R-134a ve kompresör: R-134a'da tüm modeller çökertiyor (%44–63), kompresör en zor bileşen (%55.5–75.4). Su ve hava eğitim verisinin baskınlığı, soğutkan akışkanlarda sistematik başarısızlık yaratıyor.
- Tier 3 — Değişken cp ve CCGT: BRY-RV'de 63 puanlık yayılım (%35.8–98.9), CCGT'de 58 puanlık yayılım (%31.8–90.1). Değişken özgül ısı kapasitesi ve çoklu akışkan entegrasyonu modellerin muhakeme sınırını belirliyor.
Model Profilleri
Model Profilleri
Her modelin gucleri, zayifliklari ve 293 soruluk karnesi
Claude Opus 4.6
GPT-5.4
Gemini 3.1 Pro
DeepSeek-R1
Grok 4
MiniMax M2.5
8 Temel Bulgu
8 Temel Bulgu
293 soru, 3 katman ve 6 modelden elde edilen sentez
Ezberleme ≠ Muhakeme
T1 siralamalari yaniltici: Gemini T1'de #1 ama T3'te #3. T1→T3 korelasyonu sadece ρ=0.6. Ozellik aramasi basarisi muhakeme kapasitesini ongormuyor.
Opus En Istikrarli
Yalnizca -2.8 pp dususle (T1→T3) en istikrarli model. T2 ve T3'te #1, kompozit %94.1. Gercek muhendislik guvenirliligi icin tercih edilen model.
Degisken cp Nihai Ayirt Edici
BRY-RV'de %98.9 vs %35.8 yayilim — 63 puanlik fark. Sabit cp varsayimi modellerin termodinamik muhakeme derinligini oluyor. NASA 7-katsayili polinom kullanimi kritik.
R-134a Egitim Verisi Yanliligi
Tum modeller R-134a'da cokertiyor (T2'de %44-%63). Su ve hava ile egitilmis modeller sogutkan akiskaninda sistematik basarisizlik gosteriyor. Egitim verisi siniri.
Derin Analiz Muhakemeyi Guclendiriyor
Depth C (ekserji) > Depth A (enerji). Paradoks: daha karmasik analiz daha yuksek dogruluk saglıyor. Derin analiz iskelesi muhakeme kalitesini artiriyor.
Arac Kullanimi Her Seyi Degistiriyor
CoolProp erisimi ile %70 → %100 atlanabilir. Arac-destekli degerlendirme izlegi (tool-augmented track) gelecek ThermoQA versiyonlari icin planli.
Coklu Calisma Degerlendirmesi Sart
σ degerleri %0.1 ile %2.5 arasi. Tek calismaya dayanan degerlendirmeler yaniltici — 3 bagimsiz calisma minimum standart olmali.
21 Puanlik Yayilim AI'yi Ayirt Ediyor
Kompozit %73.0 (MiniMax) ile %94.1 (Opus) arasi 21 puanlik fark. Termodinamik, AI modelleri arasinda anlamli ayirim yaratiyor — bu benchmark ayirt edici.
Sonuç ve İleriye Bakış
ThermoQA, yapay zeka modellerinin termodinamik muhakeme kapasitesini ölçen ilk kapsamlı, çok katmanlı benchmark olarak 293 soruyu tamamladı. Sonuçlar net:
- Endüstriyel güvenilirlik için Opus tercih edilmeli — en istikrarlı model, en düşük düşüş, en yüksek kompozit.
- Tek katman değerlendirmesi yetersiz — T1 başarısı T3'ü öngörmüyor. Çok katmanlı değerlendirme şart.
- Eğitim verisi sınırları belirginleşiyor — R-134a ve değişken cp, modellerin eğitim verisindeki boşlukları acımasızca ortaya koyuyor.
- Araç kullanımı kritik — CoolProp erişimi ile mevcut performans kısıtları aşılabilir. Gelecek ThermoQA versiyonlarında tool-augmented track planlanıyor.
Yol Haritası
- Tool-Augmented Track: CoolProp API erişimi ile değerlendirme — modellerin araç kullanma kapasitesini ölçme
- Entropy Hunter Entegrasyonu: Domain-specific 8B modelin ThermoQA üzerindeki performansı
- Genişletilmiş Akışkan Seti: Amonyak, CO₂, propan gibi endüstriyel soğutkanlar
- Gerçek Dünya Senaryoları: Endüstriyel tesis verileri ile case study bazlı sorular
Metodoloji
- Referans kütüphanesi: CoolProp 7.2.0 (IAPWS-IF97 + Helmholtz EOS)
- Tolerans: ±%2 (endüstriyel mühendislik standardı)
- Toplam soru: 293 (T1: 110, T2: 101, T3: 82)
- Modeller: Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro, DeepSeek-R1, Grok 4, MiniMax M2.5
- Çalışma sayısı: 3 bağımsız çalışma/model
- Puanlama: Ağırlıklı adım seviyesi — her ara adım bağımsız olarak CoolProp referansına karşı doğrulanır
- Kompozit skor: Soru sayısına göre ağırlıklı ortalama (110×T1 + 101×T2 + 82×T3) / 293
- Değer çıkarma: Claude Sonnet 4.6 ile LLM tabanlı otomatik çıkarma
Kaynaklar
- Veri seti: HuggingFace — olivenet/thermoqa
- Kaynak kod: GitHub — olivenet-iot/ThermoQA
- CoolProp: coolprop.org
- Tier 1 yazısı: ThermoQA Tier 1 Sonuçları
- Tier 2 yazısı: ThermoQA Tier 2 Sonuçları
- Tier 3 yazısı: ThermoQA Tier 3 Sonuçları
- Entropy Hunter: HuggingFace — olivenet/entropy-hunter-v0.4
Yazar Hakkında
Olivenet Ekibi
IoT ve Otomasyon Uzmanları
KKTC ve Türkiye'de endüstriyel IoT, akıllı tarım ve enerji izleme çözümleri sunan teknoloji ekibi.