Tüm Yazılar
Yapay Zeka

ThermoQA: 293 Soru, 6 Model, 3 Katman — Yapay Zekanın Termodinamik Muhakeme Karnesi

293 soru, 3 katman, 6 frontier model, 18 değerlendirme. Opus %94.1 kompozit ile lider, MiniMax %73.0 ile son. 21 puanlık yayılım termodinamiğin AI'yı ayırt ettiğini kanıtlıyor. Ezberleme ≠ muhakeme.

Olivenet Ekibi

IoT ve Otomasyon Uzmanları

2026-03-174 min read

ThermoQA serisinin üç katmanını tamamladık: Tier 1 (özellik aramaları), Tier 2 (bileşen analizi) ve Tier 3 (çevrim analizi). Şimdi büyük resim: 293 soru, 6 frontier model, 3 bağımsız çalışma — yapay zekanın termodinamik muhakeme karnesi.

Benchmark Özeti

ThermoQA Benchmark Istatistikleri

Uc katmanli benchmark sisteminin tam sayisal ozeti

293
Toplam Soru
110 + 101 + 82
3
Katman
Ozellik → Bilesen → Cevrim
6
Frontier Model
Opus, GPT, Gemini, DeepSeek, Grok, MiniMax
18
Degerlendirme
6 model × 3 calisma
4
Akiskan
Su, Hava, R-134a, Hava+Su
10
Cevrim Tipi
3 Rankine, 4 Brayton, VCR, CCGT
7
Bilesen Tipi
Turbin, kompresor, pompa, HX, kazan, karistirma, nozul
3
Analiz Derinligi
Enerji → Entropi → Ekserji

ThermoQA, CoolProp 7.2.0 (IAPWS-IF97 + Helmholtz EOS) referansı ile ±%2 toleransta, ağırlıklı adım seviyesi puanlama kullanıyor. Her model 3 bağımsız çalışma ile değerlendirildi — toplam 18 değerlendirme.

Genel Sıralama: Kompozit Skorlar

Genel Siralama: Kompozit Skorlar

293 soru · 3 katman · 6 model · 3 bagimsiz calisma · soru sayisina gore agirlikli

🥇
Claude Opus 4.6

Anthropic

Kompozit
94.1%
Tier 196.4%
Tier 292.1%
Tier 393.6%
-2.8 pp
🥈
GPT-5.4

OpenAI

Kompozit
93.1%
Tier 197.8%
Tier 290.8%
Tier 389.7%
-8.1 pp
🥉
Gemini 3.1 Pro

Google

Kompozit
92.5%
Tier 197.9%
Tier 290.8%
Tier 387.5%
-10.4 pp
#4
DeepSeek-R1

DeepSeek

Kompozit
87.4%
Tier 190.5%
Tier 289.2%
Tier 381%
-9.5 pp
#5
Grok 4

xAI

Kompozit
87.3%
Tier 191.8%
Tier 287.9%
Tier 380.4%
-11.4 pp
#6
MiniMax M2.5

MiniMax

Kompozit
73%
Tier 185.2%
Tier 276.2%
Tier 352.7%
-32.5 pp

Kompozit skor, her katmanın soru sayısına göre ağırlıklandırılmış ortalamasıdır (T1: 110, T2: 101, T3: 82). Claude Opus 4.6 %94.1 ile lider — tüm katmanlarda istikrarlı performans gösteren tek model. GPT-5.4 (%93.1) ve Gemini 3.1 Pro (%92.5) yakın takipte. MiniMax M2.5 %73.0 ile 21 puanlık farkla son sırada.

İlk üç model arasında sadece 1.6 puanlık fark var — ancak hikayeyi anlatan rakam T1→T3 düşüşü: Opus -2.8 pp, GPT -8.1 pp, Gemini -10.4 pp. Basit özellik aramalarından tam çevrim analizine geçişte modellerin gerçek muhakeme kapasitesi ortaya çıkıyor.

Katmanlar Arası Performans Yolculuğu

Katmanlar Arasi Performans Yolculugu

Her modelin T1→T2→T3 performans degisimi ve siralama hareketi

Claude Opus 4.6
Tier 1
96.4%
Tier 2
92.1%
Tier 3
93.6%
-2.8 pp#3#1#1σ ±0.5%
GPT-5.4
Tier 1
97.8%
Tier 2
90.8%
Tier 3
89.7%
-8.1 pp#2#2#2σ ±0.5%
Gemini 3.1 Pro
Tier 1
97.9%
Tier 2
90.8%
Tier 3
87.5%
-10.4 pp#1#3#3σ ±1.1%
DeepSeek-R1
Tier 1
90.5%
Tier 2
89.2%
Tier 3
81%
-9.5 pp#5#4#4σ ±1.6%
Grok 4
Tier 1
91.8%
Tier 2
87.9%
Tier 3
80.4%
-11.4 pp#4#5#5σ ±0.9%
MiniMax M2.5
Tier 1
85.2%
Tier 2
76.2%
Tier 3
52.7%
-32.5 pp#6#6#6σ ±1.1%

T2→T3 siralama korelasyonu ρ=1.0 (mukemmel), ancak T1→T3 sadece ρ=0.6. Tier 1 basarisi sonraki katmanlari ongormuyor — ezberleme ≠ muhakeme.

Opus yalnizca -2.8 pp dususle en istikrarli model. Gemini ise T1'de #1 iken T3'te #3'e gerileyerek -10.4 pp kaybediyor.

En kritik bulgu: T1 sıralaması T3'ü öngörmüyor. Gemini T1'de %97.9 ile #1 iken T3'te %87.5 ile #3'e geriliyor. T2→T3 korelasyonu ρ=1.0 (mükemmel) — bileşen analizindeki sıralama çevrim analizinde birebir korunuyor. Ancak T1→T3 korelasyonu sadece ρ=0.6. Bu, ezberleme (T1) ile muhakeme (T2/T3) arasındaki temel farkı gözler önüne seriyor.

Opus'un istikrarı dikkat çekici: #3→#1→#1 yolunu izleyerek katmanlar arası en az düşüşü yaşıyor. Bu, Opus'un sadece doğru bilgiyi hatırlamadığını, aynı zamanda karmaşık çok adımlı muhakeme zincirlerini sürdürebildiğini gösteriyor.

Her Katmanın Ayırt Edicisi

Her Katmanin Ayirt Edicisi

Modeller arasi en buyuk performans farkini yaratan kategoriler

Tier 1
Tier 1: Superkritik

Superkritik bolge tum modelleri zorluyor — en buyuk fark burada.

Superkritik BolgeYayilim: 45%–89.5%
Opus
70.5%
GPT
89.5%
Gemini
77.8%
DeepSeek
48.9%
Grok
52.8%
MiniMax
45%
Tier 2
Tier 2: R-134a & Kompresor

R-134a tum modelleri cokertiyor, kompresor en zor bilesen.

R-134a AkiskaniYayilim: 44%–63.4%
Opus
54.1%
GPT
50.4%
Gemini
47.6%
DeepSeek
63.4%
Grok
44%
MiniMax
54.2%
KompresorYayilim: 55.5%–75.4%
Opus
75.4%
GPT
71.2%
Gemini
66.3%
DeepSeek
67.2%
Grok
64.8%
MiniMax
55.5%
Tier 3
Tier 3: Degisken cp & CCGT

Degisken cp ve kombine cevrim en zorlayici senaryolar.

Degisken cp BRY-RVYayilim: 35.8%–98.9%
Opus
98.9%
GPT
90.3%
Gemini
48.4%
DeepSeek
52.5%
Grok
63.8%
MiniMax
35.8%
CCGT Kombine CevrimYayilim: 31.8%–90.1%
Opus
90.1%
GPT
82%
Gemini
74%
DeepSeek
72.2%
Grok
58.6%
MiniMax
31.8%

Her katmanda modeller arasında en büyük performans yayılımını yaratan bir "ayırt edici" kategori var:

  • Tier 1 — Süperkritik bölge: %45–89.5 yayılım. Süperkritik bölgede basınç-sıcaklık ilişkisi kritik nokta civarında keskin değişir ve modellerin ezbere güvenemediği nadir durumlar yaratır.
  • Tier 2 — R-134a ve kompresör: R-134a'da tüm modeller çökertiyor (%44–63), kompresör en zor bileşen (%55.5–75.4). Su ve hava eğitim verisinin baskınlığı, soğutkan akışkanlarda sistematik başarısızlık yaratıyor.
  • Tier 3 — Değişken cp ve CCGT: BRY-RV'de 63 puanlık yayılım (%35.8–98.9), CCGT'de 58 puanlık yayılım (%31.8–90.1). Değişken özgül ısı kapasitesi ve çoklu akışkan entegrasyonu modellerin muhakeme sınırını belirliyor.

Model Profilleri

Model Profilleri

Her modelin gucleri, zayifliklari ve 293 soruluk karnesi

🥇
Claude Opus 4.6
94.1%
Kompozit
En Iyi Katman: T2 & T3 (%92.1, %93.6)
En Zayif Katman: T1 (%96.4 — hala 3.)
Guc: En istikrarli model, yalnizca -2.8 pp dusus
Zayiflik: Superkritik %70.5, kompresor %75.4
T1→T3: -2.8 ppσ: ±0.5%
🥈
GPT-5.4
93.1%
Kompozit
En Iyi Katman: T1 (%97.8)
En Zayif Katman: T3 (%89.7)
Guc: En tutarli sonuclar (σ=±0.5%), guclu T1
Zayiflik: Kompresor %71.2, VCR %76.6
T1→T3: -8.1 ppσ: ±0.5%
🥉
Gemini 3.1 Pro
92.5%
Kompozit
En Iyi Katman: T1 (%97.9 — en yuksek T1)
En Zayif Katman: T3 (%87.5)
Guc: T1'de en yuksek skor, VCR surpriz toparlanma
Zayiflik: Degisken cp cokusu (%97→%48), -10.4 pp dusus
T1→T3: -10.4 ppσ: ±1.1%
#4
DeepSeek-R1
87.4%
Kompozit
En Iyi Katman: T1 (%90.5)
En Zayif Katman: T3 (%81.0)
Guc: R-134a'da T2 lideri (%63.4), derin analiz avantaji
Zayiflik: Superkritik %48.9, VCR %66.8
T1→T3: -9.5 ppσ: ±1.6%
#5
Grok 4
87.3%
Kompozit
En Iyi Katman: T1 (%91.8)
En Zayif Katman: T3 (%80.4)
Guc: T2 derinlik analizinde guclu (%94.3 Depth C)
Zayiflik: Superkritik %52.8, CCGT %58.6, -11.4 pp dusus
T1→T3: -11.4 ppσ: ±0.9%
#6
MiniMax M2.5
73%
Kompozit
En Iyi Katman: T1 (%85.2)
En Zayif Katman: T3 (%52.7)
Guc: T2 hava akiskani surprizi (%96.3)
Zayiflik: Felaket cokusu: -32.5 pp, CCGT %31.8, VCR %32.5
T1→T3: -32.5 ppσ: ±1.1%

8 Temel Bulgu

8 Temel Bulgu

293 soru, 3 katman ve 6 modelden elde edilen sentez

#1
Ezberleme ≠ Muhakeme

T1 siralamalari yaniltici: Gemini T1'de #1 ama T3'te #3. T1→T3 korelasyonu sadece ρ=0.6. Ozellik aramasi basarisi muhakeme kapasitesini ongormuyor.

#2
Opus En Istikrarli

Yalnizca -2.8 pp dususle (T1→T3) en istikrarli model. T2 ve T3'te #1, kompozit %94.1. Gercek muhendislik guvenirliligi icin tercih edilen model.

#3
Degisken cp Nihai Ayirt Edici

BRY-RV'de %98.9 vs %35.8 yayilim — 63 puanlik fark. Sabit cp varsayimi modellerin termodinamik muhakeme derinligini oluyor. NASA 7-katsayili polinom kullanimi kritik.

#4
R-134a Egitim Verisi Yanliligi

Tum modeller R-134a'da cokertiyor (T2'de %44-%63). Su ve hava ile egitilmis modeller sogutkan akiskaninda sistematik basarisizlik gosteriyor. Egitim verisi siniri.

#5
Derin Analiz Muhakemeyi Guclendiriyor

Depth C (ekserji) > Depth A (enerji). Paradoks: daha karmasik analiz daha yuksek dogruluk saglıyor. Derin analiz iskelesi muhakeme kalitesini artiriyor.

#6
Arac Kullanimi Her Seyi Degistiriyor

CoolProp erisimi ile %70 → %100 atlanabilir. Arac-destekli degerlendirme izlegi (tool-augmented track) gelecek ThermoQA versiyonlari icin planli.

#7
Coklu Calisma Degerlendirmesi Sart

σ degerleri %0.1 ile %2.5 arasi. Tek calismaya dayanan degerlendirmeler yaniltici — 3 bagimsiz calisma minimum standart olmali.

#8
21 Puanlik Yayilim AI'yi Ayirt Ediyor

Kompozit %73.0 (MiniMax) ile %94.1 (Opus) arasi 21 puanlik fark. Termodinamik, AI modelleri arasinda anlamli ayirim yaratiyor — bu benchmark ayirt edici.

Sonuç ve İleriye Bakış

ThermoQA, yapay zeka modellerinin termodinamik muhakeme kapasitesini ölçen ilk kapsamlı, çok katmanlı benchmark olarak 293 soruyu tamamladı. Sonuçlar net:

  1. Endüstriyel güvenilirlik için Opus tercih edilmeli — en istikrarlı model, en düşük düşüş, en yüksek kompozit.
  2. Tek katman değerlendirmesi yetersiz — T1 başarısı T3'ü öngörmüyor. Çok katmanlı değerlendirme şart.
  3. Eğitim verisi sınırları belirginleşiyor — R-134a ve değişken cp, modellerin eğitim verisindeki boşlukları acımasızca ortaya koyuyor.
  4. Araç kullanımı kritik — CoolProp erişimi ile mevcut performans kısıtları aşılabilir. Gelecek ThermoQA versiyonlarında tool-augmented track planlanıyor.

Yol Haritası

  • Tool-Augmented Track: CoolProp API erişimi ile değerlendirme — modellerin araç kullanma kapasitesini ölçme
  • Entropy Hunter Entegrasyonu: Domain-specific 8B modelin ThermoQA üzerindeki performansı
  • Genişletilmiş Akışkan Seti: Amonyak, CO₂, propan gibi endüstriyel soğutkanlar
  • Gerçek Dünya Senaryoları: Endüstriyel tesis verileri ile case study bazlı sorular

Metodoloji

  • Referans kütüphanesi: CoolProp 7.2.0 (IAPWS-IF97 + Helmholtz EOS)
  • Tolerans: ±%2 (endüstriyel mühendislik standardı)
  • Toplam soru: 293 (T1: 110, T2: 101, T3: 82)
  • Modeller: Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro, DeepSeek-R1, Grok 4, MiniMax M2.5
  • Çalışma sayısı: 3 bağımsız çalışma/model
  • Puanlama: Ağırlıklı adım seviyesi — her ara adım bağımsız olarak CoolProp referansına karşı doğrulanır
  • Kompozit skor: Soru sayısına göre ağırlıklı ortalama (110×T1 + 101×T2 + 82×T3) / 293
  • Değer çıkarma: Claude Sonnet 4.6 ile LLM tabanlı otomatik çıkarma

Kaynaklar

Yazar Hakkında

Olivenet Ekibi

IoT ve Otomasyon Uzmanları

KKTC ve Türkiye'de endüstriyel IoT, akıllı tarım ve enerji izleme çözümleri sunan teknoloji ekibi.

LoRaWANThingsBoardAkıllı TarımEnerji İzleme
LinkedIn