Yapay Zeka

ThermoQA: 293 Soru, 6 Model, 3 Katman — Yapay Zekanın Termodinamik Muhakeme Karnesi

293 soru, 3 katman, 6 frontier model, 18 değerlendirme. Opus %94.1 kompozit ile lider, MiniMax %73.0 ile son. 21 puanlık yayılım termodinamiğin AI'yı ayırt ettiğini kanıtlıyor. Ezberleme ≠ muhakeme.

Olivenet Ekibi

IoT ve Otomasyon Uzmanları

2026-03-174 min read

ThermoQA serisinin üç katmanını tamamladık: Tier 1 (özellik aramaları), Tier 2 (bileşen analizi) ve Tier 3 (çevrim analizi). Şimdi büyük resim: 293 soru, 6 frontier model, 3 bağımsız çalışma — yapay zekanın termodinamik muhakeme karnesi.

Benchmark Özeti

ThermoQA Benchmark Istatistikleri

Uc katmanli benchmark sisteminin tam sayisal ozeti

293

Toplam Soru

110 + 101 + 82

Katman

Ozellik → Bilesen → Cevrim

Frontier Model

Opus, GPT, Gemini, DeepSeek, Grok, MiniMax

Degerlendirme

6 model × 3 calisma

Akiskan

Su, Hava, R-134a, Hava+Su

Cevrim Tipi

3 Rankine, 4 Brayton, VCR, CCGT

Bilesen Tipi

Turbin, kompresor, pompa, HX, kazan, karistirma, nozul

Analiz Derinligi

Enerji → Entropi → Ekserji

ThermoQA, CoolProp 7.2.0 (IAPWS-IF97 + Helmholtz EOS) referansı ile ±%2 toleransta, ağırlıklı adım seviyesi puanlama kullanıyor. Her model 3 bağımsız çalışma ile değerlendirildi — toplam 18 değerlendirme.

Genel Sıralama: Kompozit Skorlar

Genel Siralama: Kompozit Skorlar

293 soru · 3 katman · 6 model · 3 bagimsiz calisma · soru sayisina gore agirlikli

🥇

Claude Opus 4.6

Anthropic

Kompozit

94.1%

Tier 196.4%

Tier 292.1%

Tier 393.6%

-2.8 pp

🥈

GPT-5.4

OpenAI

Kompozit

93.1%

Tier 197.8%

Tier 290.8%

Tier 389.7%

-8.1 pp

🥉

Gemini 3.1 Pro

Google

Kompozit

92.5%

Tier 197.9%

Tier 290.8%

Tier 387.5%

-10.4 pp

DeepSeek-R1

DeepSeek

Kompozit

87.4%

Tier 190.5%

Tier 289.2%

Tier 381%

-9.5 pp

Grok 4

xAI

Kompozit

87.3%

Tier 191.8%

Tier 287.9%

Tier 380.4%

-11.4 pp

MiniMax M2.5

MiniMax

Kompozit

73%

Tier 185.2%

Tier 276.2%

Tier 352.7%

-32.5 pp

Kompozit skor, her katmanın soru sayısına göre ağırlıklandırılmış ortalamasıdır (T1: 110, T2: 101, T3: 82). Claude Opus 4.6 %94.1 ile lider — tüm katmanlarda istikrarlı performans gösteren tek model. GPT-5.4 (%93.1) ve Gemini 3.1 Pro (%92.5) yakın takipte. MiniMax M2.5 %73.0 ile 21 puanlık farkla son sırada.

İlk üç model arasında sadece 1.6 puanlık fark var — ancak hikayeyi anlatan rakam T1→T3 düşüşü: Opus -2.8 pp, GPT -8.1 pp, Gemini -10.4 pp. Basit özellik aramalarından tam çevrim analizine geçişte modellerin gerçek muhakeme kapasitesi ortaya çıkıyor.

Katmanlar Arası Performans Yolculuğu

Katmanlar Arasi Performans Yolculugu

Her modelin T1→T2→T3 performans degisimi ve siralama hareketi

Claude Opus 4.6

Tier 1

96.4%

Tier 2

92.1%

Tier 3

93.6%

-2.8 pp#3→#1→#1σ ±0.5%

GPT-5.4

Tier 1

97.8%

Tier 2

90.8%

Tier 3

89.7%

-8.1 pp#2→#2→#2σ ±0.5%

Gemini 3.1 Pro

Tier 1

97.9%

Tier 2

90.8%

Tier 3

87.5%

-10.4 pp#1→#3→#3σ ±1.1%

DeepSeek-R1

Tier 1

90.5%

Tier 2

89.2%

Tier 3

81%

-9.5 pp#5→#4→#4σ ±1.6%

Grok 4

Tier 1

91.8%

Tier 2

87.9%

Tier 3

80.4%

-11.4 pp#4→#5→#5σ ±0.9%

MiniMax M2.5

Tier 1

85.2%

Tier 2

76.2%

Tier 3

52.7%

-32.5 pp#6→#6→#6σ ±1.1%

T2→T3 siralama korelasyonu ρ=1.0 (mukemmel), ancak T1→T3 sadece ρ=0.6. Tier 1 basarisi sonraki katmanlari ongormuyor — ezberleme ≠ muhakeme.

Opus yalnizca -2.8 pp dususle en istikrarli model. Gemini ise T1'de #1 iken T3'te #3'e gerileyerek -10.4 pp kaybediyor.

En kritik bulgu: T1 sıralaması T3'ü öngörmüyor. Gemini T1'de %97.9 ile #1 iken T3'te %87.5 ile #3'e geriliyor. T2→T3 korelasyonu ρ=1.0 (mükemmel) — bileşen analizindeki sıralama çevrim analizinde birebir korunuyor. Ancak T1→T3 korelasyonu sadece ρ=0.6. Bu, ezberleme (T1) ile muhakeme (T2/T3) arasındaki temel farkı gözler önüne seriyor.

Opus'un istikrarı dikkat çekici: #3→#1→#1 yolunu izleyerek katmanlar arası en az düşüşü yaşıyor. Bu, Opus'un sadece doğru bilgiyi hatırlamadığını, aynı zamanda karmaşık çok adımlı muhakeme zincirlerini sürdürebildiğini gösteriyor.

Her Katmanın Ayırt Edicisi

Her Katmanin Ayirt Edicisi

Modeller arasi en buyuk performans farkini yaratan kategoriler

Tier 1

Tier 1: Superkritik

Superkritik bolge tum modelleri zorluyor — en buyuk fark burada.

Superkritik BolgeYayilim: 45%–89.5%

Opus

70.5%

GPT

89.5%

Gemini

77.8%

DeepSeek

48.9%

Grok

52.8%

MiniMax

45%

Tier 2

Tier 2: R-134a & Kompresor

R-134a tum modelleri cokertiyor, kompresor en zor bilesen.

R-134a AkiskaniYayilim: 44%–63.4%

Opus

54.1%

GPT

50.4%

Gemini

47.6%

DeepSeek

63.4%

Grok

44%

MiniMax

54.2%

KompresorYayilim: 55.5%–75.4%

Opus

75.4%

GPT

71.2%

Gemini

66.3%

DeepSeek

67.2%

Grok

64.8%

MiniMax

55.5%

Tier 3

Tier 3: Degisken cp & CCGT

Degisken cp ve kombine cevrim en zorlayici senaryolar.

Degisken cp BRY-RVYayilim: 35.8%–98.9%

Opus

98.9%

GPT

90.3%

Gemini

48.4%

DeepSeek

52.5%

Grok

63.8%

MiniMax

35.8%

CCGT Kombine CevrimYayilim: 31.8%–90.1%

Opus

90.1%

GPT

82%

Gemini

74%

DeepSeek

72.2%

Grok

58.6%

MiniMax

31.8%

Her katmanda modeller arasında en büyük performans yayılımını yaratan bir "ayırt edici" kategori var:

Tier 1 — Süperkritik bölge: %45–89.5 yayılım. Süperkritik bölgede basınç-sıcaklık ilişkisi kritik nokta civarında keskin değişir ve modellerin ezbere güvenemediği nadir durumlar yaratır.
Tier 2 — R-134a ve kompresör: R-134a'da tüm modeller çökertiyor (%44–63), kompresör en zor bileşen (%55.5–75.4). Su ve hava eğitim verisinin baskınlığı, soğutkan akışkanlarda sistematik başarısızlık yaratıyor.
Tier 3 — Değişken cp ve CCGT: BRY-RV'de 63 puanlık yayılım (%35.8–98.9), CCGT'de 58 puanlık yayılım (%31.8–90.1). Değişken özgül ısı kapasitesi ve çoklu akışkan entegrasyonu modellerin muhakeme sınırını belirliyor.

Model Profilleri

Her modelin gucleri, zayifliklari ve 293 soruluk karnesi

🥇

Claude Opus 4.6

94.1%

Kompozit

En Iyi Katman: T2 & T3 (%92.1, %93.6)

En Zayif Katman: T1 (%96.4 — hala 3.)

Guc: En istikrarli model, yalnizca -2.8 pp dusus

Zayiflik: Superkritik %70.5, kompresor %75.4

T1→T3: -2.8 ppσ: ±0.5%

🥈

GPT-5.4

93.1%

Kompozit

En Iyi Katman: T1 (%97.8)

En Zayif Katman: T3 (%89.7)

Guc: En tutarli sonuclar (σ=±0.5%), guclu T1

Zayiflik: Kompresor %71.2, VCR %76.6

T1→T3: -8.1 ppσ: ±0.5%

🥉

Gemini 3.1 Pro

92.5%

Kompozit

En Iyi Katman: T1 (%97.9 — en yuksek T1)

En Zayif Katman: T3 (%87.5)

Guc: T1'de en yuksek skor, VCR surpriz toparlanma

Zayiflik: Degisken cp cokusu (%97→%48), -10.4 pp dusus

T1→T3: -10.4 ppσ: ±1.1%

DeepSeek-R1

87.4%

Kompozit

En Iyi Katman: T1 (%90.5)

En Zayif Katman: T3 (%81.0)

Guc: R-134a'da T2 lideri (%63.4), derin analiz avantaji

Zayiflik: Superkritik %48.9, VCR %66.8

T1→T3: -9.5 ppσ: ±1.6%

Grok 4

87.3%

Kompozit

En Iyi Katman: T1 (%91.8)

En Zayif Katman: T3 (%80.4)

Guc: T2 derinlik analizinde guclu (%94.3 Depth C)

Zayiflik: Superkritik %52.8, CCGT %58.6, -11.4 pp dusus

T1→T3: -11.4 ppσ: ±0.9%

MiniMax M2.5

73%

Kompozit

En Iyi Katman: T1 (%85.2)

En Zayif Katman: T3 (%52.7)

Guc: T2 hava akiskani surprizi (%96.3)

Zayiflik: Felaket cokusu: -32.5 pp, CCGT %31.8, VCR %32.5

T1→T3: -32.5 ppσ: ±1.1%

8 Temel Bulgu

293 soru, 3 katman ve 6 modelden elde edilen sentez

Ezberleme ≠ Muhakeme

T1 siralamalari yaniltici: Gemini T1'de #1 ama T3'te #3. T1→T3 korelasyonu sadece ρ=0.6. Ozellik aramasi basarisi muhakeme kapasitesini ongormuyor.

Opus En Istikrarli

Yalnizca -2.8 pp dususle (T1→T3) en istikrarli model. T2 ve T3'te #1, kompozit %94.1. Gercek muhendislik guvenirliligi icin tercih edilen model.

Degisken cp Nihai Ayirt Edici

BRY-RV'de %98.9 vs %35.8 yayilim — 63 puanlik fark. Sabit cp varsayimi modellerin termodinamik muhakeme derinligini oluyor. NASA 7-katsayili polinom kullanimi kritik.

R-134a Egitim Verisi Yanliligi

Tum modeller R-134a'da cokertiyor (T2'de %44-%63). Su ve hava ile egitilmis modeller sogutkan akiskaninda sistematik basarisizlik gosteriyor. Egitim verisi siniri.

Derin Analiz Muhakemeyi Guclendiriyor

Depth C (ekserji) > Depth A (enerji). Paradoks: daha karmasik analiz daha yuksek dogruluk saglıyor. Derin analiz iskelesi muhakeme kalitesini artiriyor.

Arac Kullanimi Her Seyi Degistiriyor

CoolProp erisimi ile %70 → %100 atlanabilir. Arac-destekli degerlendirme izlegi (tool-augmented track) gelecek ThermoQA versiyonlari icin planli.

Coklu Calisma Degerlendirmesi Sart

σ degerleri %0.1 ile %2.5 arasi. Tek calismaya dayanan degerlendirmeler yaniltici — 3 bagimsiz calisma minimum standart olmali.

21 Puanlik Yayilim AI'yi Ayirt Ediyor

Kompozit %73.0 (MiniMax) ile %94.1 (Opus) arasi 21 puanlik fark. Termodinamik, AI modelleri arasinda anlamli ayirim yaratiyor — bu benchmark ayirt edici.

Sonuç ve İleriye Bakış

ThermoQA, yapay zeka modellerinin termodinamik muhakeme kapasitesini ölçen ilk kapsamlı, çok katmanlı benchmark olarak 293 soruyu tamamladı. Sonuçlar net:

Endüstriyel güvenilirlik için Opus tercih edilmeli — en istikrarlı model, en düşük düşüş, en yüksek kompozit.
Tek katman değerlendirmesi yetersiz — T1 başarısı T3'ü öngörmüyor. Çok katmanlı değerlendirme şart.
Eğitim verisi sınırları belirginleşiyor — R-134a ve değişken cp, modellerin eğitim verisindeki boşlukları acımasızca ortaya koyuyor.
Araç kullanımı kritik — CoolProp erişimi ile mevcut performans kısıtları aşılabilir. Gelecek ThermoQA versiyonlarında tool-augmented track planlanıyor.

Yol Haritası

Tool-Augmented Track: CoolProp API erişimi ile değerlendirme — modellerin araç kullanma kapasitesini ölçme
Entropy Hunter Entegrasyonu: Domain-specific 8B modelin ThermoQA üzerindeki performansı
Genişletilmiş Akışkan Seti: Amonyak, CO₂, propan gibi endüstriyel soğutkanlar
Gerçek Dünya Senaryoları: Endüstriyel tesis verileri ile case study bazlı sorular

Metodoloji

Referans kütüphanesi: CoolProp 7.2.0 (IAPWS-IF97 + Helmholtz EOS)
Tolerans: ±%2 (endüstriyel mühendislik standardı)
Toplam soru: 293 (T1: 110, T2: 101, T3: 82)
Modeller: Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro, DeepSeek-R1, Grok 4, MiniMax M2.5
Çalışma sayısı: 3 bağımsız çalışma/model
Puanlama: Ağırlıklı adım seviyesi — her ara adım bağımsız olarak CoolProp referansına karşı doğrulanır
Kompozit skor: Soru sayısına göre ağırlıklı ortalama (110×T1 + 101×T2 + 82×T3) / 293
Değer çıkarma: Claude Sonnet 4.6 ile LLM tabanlı otomatik çıkarma

Kaynaklar

Veri seti: HuggingFace — olivenet/thermoqa
Kaynak kod: GitHub — olivenet-iot/ThermoQA
CoolProp: coolprop.org
Tier 1 yazısı: ThermoQA Tier 1 Sonuçları
Tier 2 yazısı: ThermoQA Tier 2 Sonuçları
Tier 3 yazısı: ThermoQA Tier 3 Sonuçları
Entropy Hunter: HuggingFace — olivenet/entropy-hunter-v0.4

Yazar Hakkında

Olivenet Ekibi

IoT ve Otomasyon Uzmanları

KKTC ve Türkiye'de endüstriyel IoT, akıllı tarım ve enerji izleme çözümleri sunan teknoloji ekibi.

LoRaWANThingsBoardAkıllı TarımEnerji İzleme