Tüm Yazılar
Yapay Zeka

ThermoQA Tier 3: Yapay Zeka Modelleri Tam Termodinamik Çevrim Analizinde Ne Kadar Başarılı?

82 soru, 9 çevrim tipi, 4 akışkan. Opus %91.3 ile lider, MiniMax %40.2 ile çökerken değişken cp Gemini'yi kırıyor. CCGT en zor çevrim — en iyi skor sadece %77.3. T2→T3 sıralama korelasyonu mükemmel (ρ=1.0).

Olivenet Ekibi

IoT ve Otomasyon Uzmanları

2026-03-154 min read

Tier 1 yazımızda buhar tablosu aramalarını, Tier 2 yazımızda ise bileşen analizini test etmiştik. Şimdi sıra en zorlu katmanda: tam termodinamik çevrim analizi.

ThermoQA Tier 3: Çevrim Analizi, birden fazla bileşenin birbirine bağlı olduğu, çevrim veriminin hesaplandığı ve optimizasyon kararlarının verildiği senaryoları test ediyor. 82 soru, 9 çevrim tipi (3 Rankine, 4 Brayton, buhar sıkıştırmalı soğutma, kombine çevrim), 4 akışkan (su, hava, R-134a, hava+su). Artık tek bileşen yetmiyor — modellerin tam bir çevrimi baştan sona analiz etmesi gerekiyor.

Genel Sıralama

Tier 3 Genel Siralama

82 soru · 9 cevrim tipi · 4 akiskan · CoolProp 7.2.0 referans · ±%2 tolerans

82 Soru9 Cevrim4 Akiskan±%2 Tolerans
🥇
Claude Opus 4.6

Anthropic

Genel
91.3%
Su95.2%
Hava91.1%
R-134a88%
Hava+Su77.3%
32,450 tok/soru
🥈
GPT-5.4

OpenAI

Genel
88.3%
Su93.3%
Hava88.6%
R-134a84%
Hava+Su73%
9,540 tok/soru
🥉
Gemini 3.1 Pro

Google

Genel
84.1%
Su95.5%
Hava74%
R-134a88.6%
Hava+Su70%
1,480 tok/soru
#4
DeepSeek-R1

DeepSeek

Genel
81.2%
Su88.8%
Hava82.3%
R-134a76%
Hava+Su62%
15,280 tok/soru
#5
MiniMax M2.5

MiniMax

Genel
40.2%
Su48%
Hava40.5%
R-134a28%
Hava+Su18%
12,100 tok/soru

Claude Opus 4.6 %91.3 ile liderliğini sürdürüyor — Tier 2'den sadece 0.7 puanlık düşüşle en istikrarlı model. GPT-5.4 %88.3 ile ikinci, Gemini 3.1 Pro %84.1 ile üçüncü. En çarpıcı sonuç: MiniMax M2.5 %40.2'ye çökerek kullanılamaz seviyeye düşüyor.

Akışkan bazında CCGT (kombine çevrim) tüm modeller için en zor: en iyi skor sadece %77.3 (Opus). Gemini'nin VCR-A'daki %88.6'lık sürpriz performansı ise Brayton'daki çöküşünün aksine dikkat çekici.

CCGT Neden Bu Kadar Zor?

Kombine çevrim (CCGT), bir Brayton gaz türbin üst çevrimi ile bir Rankine buhar türbin alt çevrimini entegre eder. Gaz türbininden çıkan sıcak egzoz gazları, ısı geri kazanım buhar jeneratöründe (HRSG) buhar üretmek için kullanılır. Bu entegrasyon:

  • İki farklı akışkanın (hava ve su) eşzamanlı yönetimini gerektirir
  • Üst çevrimdeki hatalar alt çevrime doğrudan yansır (hata cascadesi)
  • Toplam verim hesaplaması her iki çevrimin bağımsız ve birleşik analizini gerektirir
  • Pinch point analizi ve HRSG tasarım kısıtlamaları ek karmaşıklık ekler

Çevrim Bazlı Performans

Cevrim Bazli Performans

9 cevrim tipi x 5 model - 3 aile halinde gruplandirma

Claude Opus 4.6
GPT-5.4
Gemini 3.1 Pro
DeepSeek-R1
MiniMax M2.5
Rankine Ailesi
RNK-I (Ideal Rankine)(10 Q)
Claude Opus 4.6
97.5%
GPT-5.4
95%
Gemini 3.1 Pro
97.5%
DeepSeek-R1
91.8%
MiniMax M2.5
52.5%
RNK-A (Gercek Rankine)(10 Q)
Claude Opus 4.6
95%
GPT-5.4
93.5%
Gemini 3.1 Pro
96%
DeepSeek-R1
89.5%
MiniMax M2.5
48%
RNK-RH (Tekrar Isitmali)(8 Q)
Claude Opus 4.6
93%
GPT-5.4
91.5%
Gemini 3.1 Pro
93%
DeepSeek-R1
85%
MiniMax M2.5
43.5%
Brayton Ailesi
BRY-I (Ideal Brayton)(10 Q)
Claude Opus 4.6
98%
GPT-5.4
96.5%
Gemini 3.1 Pro
98%
DeepSeek-R1
93%
MiniMax M2.5
55%
BRY-A (Gercek Brayton)(10 Q)
Claude Opus 4.6
96%
GPT-5.4
94.5%
Gemini 3.1 Pro
97%
DeepSeek-R1
90%
MiniMax M2.5
50%
BRY-AV (Degisken cp)(8 Q)
Claude Opus 4.6
88.5%
GPT-5.4
85%
Gemini 3.1 Pro
63%
DeepSeek-R1
78%
MiniMax M2.5
32%
BRY-RV (Rejen. + Deg. cp)(8 Q)
Claude Opus 4.6
82%
GPT-5.4
78.5%
Gemini 3.1 Pro
38%
DeepSeek-R1
68%
MiniMax M2.5
25%
Diger
VCR-A (Buhar Sikistirmali)(9 Q)
Claude Opus 4.6
88%
GPT-5.4
84%
Gemini 3.1 Pro
88.6%
DeepSeek-R1
76%
MiniMax M2.5
28%
CCGT (Kombine Cevrim)(9 Q)
Claude Opus 4.6
77.3%
GPT-5.4
73%
Gemini 3.1 Pro
70%
DeepSeek-R1
62%
MiniMax M2.5
18%

Degisken cp: Gemini %97 -> %63 -> %38 seklinde cokertiyor. Sabit cp=1.005 kJ/(kg·K) varsayimi, NASA 7-katsayili polinom eksikligi.

CCGT en zor cevrim: En iyi skor %77.3 (Opus). Coklu akiskan, coklu bilesen entegrasyonu gerektiriyor.

9 çevrim arasında net bir zorluk hiyerarşisi ortaya çıkıyor:

Rankine Ailesi

İdeal (RNK-I) ve gerçek (RNK-A) Rankine çevrimlerinde tüm frontier modeller %90+ skor alıyor — bu çevrimler çözülmüş sayılabilir. Tekrar ısıtmalı Rankine'de (RNK-RH) hafif düşüş var (%85-93), ancak yine de yüksek performans. Su, modellerin en iyi bildiği akışkan olmaya devam ediyor.

Brayton Ailesi ve Değişken cp Sorunu

İdeal (BRY-I) ve gerçek (BRY-A) Brayton çevrimleri de çözülmüş kategorisinde — %90+ skorlar. Ancak değişken özgül ısı kapasitesi (cp) devreye girdiğinde tablo tamamen değişiyor.

Gemini'nin çöküşü dramatik: Sabit cp Brayton'da %97 → değişken cp'de %63 → rejenerasyonlu + değişken cp'de %38. Gemini, cp=1.005 kJ/(kg·K) sabit değerini hardcoded kullanıyor ve sıcaklığa bağlı cp değişimini hesaplayamıyor. NASA 7-katsayılı polinom veya hava tabloları kullanması gereken yerde sabit değer kullanıyor.

Opus ve GPT de değişken cp'de düşüş yaşıyor (%88.5 ve %85.0), ancak çöküş boyutunda değil. DeepSeek %78.0 ile orta düzeyde.

Soğutma ve Kombine Çevrim

VCR-A'da sürpriz: Gemini %88.6 ile Opus'un (%88.0) önüne geçiyor. Brayton'daki değişken cp çöküşünün aksine, R-134a tabanlı soğutma çevrimlerinde Gemini güçlü performans gösteriyor. Bu, Gemini'nin R-134a eğitim verisinin veya soğutma çevrimi deneyiminin güçlü olduğunu gösteriyor.

CCGT ise evrensel bir zorluk: Opus %77.3, GPT %73.0, Gemini %70.0, DeepSeek %62.0, MiniMax %18.0. Çoklu akışkan entegrasyonu ve hata cascade'leri tüm modelleri zorluyor.

Akışkan Analizi

Akiskan Bazli Performans

4 akiskan grubu x 5 model - su, hava, R-134a, hava+su (CCGT)

Claude Opus 4.6
GPT-5.4
Gemini 3.1 Pro
DeepSeek-R1
MiniMax M2.5
95.2
93.3
95.5
88.8
48
Su (Rankine)
91.1
88.6
74
82.3
40.5
Hava (Brayton)
88
84
88.6
76
28
R-134a (VCR)
77.3
73
70
62
18
Hava+Su (CCGT)

CCGT tum modeller icin en zor: coklu akiskan entegrasyonu ve cevrimler arasi enerji transferi gerektirir. VCR-A'da Gemini surpriz toparlanma (%88.6).

Katmanlar Arası Analiz: T1 → T2 → T3

Katmanlar Arasi Analiz: T1 -> T2 -> T3

Uc katmandaki performans degisimi ve siralama yolu

Claude Opus 4.6
Tier 1
95.6%
Tier 2
92%
Tier 3
91.3%
-4.3 pp#3#1#1
GPT-5.4
Tier 1
96.9%
Tier 2
91%
Tier 3
88.3%
-8.6 pp#2#2#2
Gemini 3.1 Pro
Tier 1
97.3%
Tier 2
89.5%
Tier 3
84.1%
-13.2 pp#1#3#3
DeepSeek-R1
Tier 1
89.5%
Tier 2
86.9%
Tier 3
81.2%
-8.3 pp#4#4#4
MiniMax M2.5
Tier 1
84.5%
Tier 2
73.4%
Tier 3
40.2%
-44.3 pp#5#5#5

T2 -> T3 siralama korelasyonu p=1.0 (mukemmel), ancak T1 -> T3 korelasyonu sadece p=0.6. Ozellik aramasi basarisi cevrim analizi performansini ongormuyor.

MiniMax -44.3 pp ile felaket boyutunda cokus: Tier 1'deki %84.5'ten Tier 3'te %40.2'ye. Cok adimli muhakeme kapasitesi yetersiz.

T2→T3 sıralama korelasyonu ρ=1.0 — mükemmel korelasyon. Bileşen analizindeki sıralama çevrim analizinde birebir korunuyor. Ancak T1→T3 korelasyonu sadece ρ=0.6 — özellik araması başarısı çevrim analizi performansını öngörmüyor.

Opus en istikrarlı model: Toplam -4.3 pp düşüşle #3→#1→#1 yolunu izliyor. Gemini en büyük düşüşü yaşıyor: -13.2 pp ile #1→#3→#3. MiniMax felaket boyutunda: -44.3 pp ile endüstriyel termodinamik muhakemede tamamen yetersiz.

Temel Bulgular

6 Temel Bulgu

Tier 3 sonuclarindan cikan en onemli icgoruler

#1
Degisken cp Gemini'yi Kiriyor

Gemini sabit cp Brayton'da %97 ile liderken, degisken cp'de %63'e, rejenerasyonlu degisken cp'de %38'e cokertiyor. Sabit cp=1.005 kJ/(kg·K) hardcoded varsayimi ve NASA 7-katsayili polinom eksikligi.

#2
CCGT En Zor Sinav

En iyi skor sadece %77.3 (Opus). Kombine cevrim, Brayton ust cevrim ve Rankine alt cevrimi entegre etmeyi, coklu akiskan yonetimi ve cevrimler arasi enerji transferini gerektiriyor.

#3
MiniMax Felaket Cokusu

Tier 1'deki %84.5'ten Tier 3'te %40.2'ye: -44.3 pp dusus. CCGT'de %18, BRY-RV'de %25. Cok adimli muhakeme kapasitesi tam cevrim analizinde tamamen yetersiz kaliyor.

#4
VCR Surprizi: Gemini Toparlanmasi

Gemini degisken cp'de cokturup VCR-A'da %88.6 ile surpriz toparlanma gosteriyor — Opus'un onunde. R-134a deneyimi veya sogutma cevrimi egitim verisinin guclu oldugunu gosteriyor.

#5
Hata Cascadeleri Baskin

Cevrim analizinde bir adim hatasi sonraki tum adimlari etkiliyor. Rankine'de pompa hatasi kazan ve turbin hesaplarini, Brayton'da kompresor hatasi yanma odasi ve turbin sonuclarini bozuyor.

#6
Opus: Katmanlar Arasi En Istikrarli

Toplam -4.3 pp dususle en istikrarli model. T1'de #3, T2 ve T3'te #1. Gemini ise -13.2 pp ile en buyuk dususu yasiyor (#1 -> #3 -> #3).

Metodoloji

  • Referans kütüphanesi: CoolProp 7.2.0 (IAPWS-IF97 + NIST referans verileri)
  • Tolerans: ±%2 (endüstriyel mühendislik standardı)
  • Soru sayısı: 82 (Tier 3)
  • Çevrim tipleri: 9 (RNK-I, RNK-A, RNK-RH, BRY-I, BRY-A, BRY-AV, BRY-RV, VCR-A, CCGT)
  • Akışkanlar: 4 (Su, Hava, R-134a, Hava+Su)
  • Puanlama: Ağırlıklı adım seviyesi — her ara adım bağımsız olarak CoolProp referansına karşı doğrulanır
  • Değer çıkarma: Claude Sonnet 4.6 ile LLM tabanlı otomatik çıkarma

Sonuç

ThermoQA üç katmanlı benchmark sistemi tamamlandı — toplam 293 soru (110 + 101 + 82):

  • Tier 1: Özellik Aramaları — 110 soru, buhar tablosu değerleri ✅
  • Tier 2: Bileşen Analizi — 101 soru, 7 bileşen, 3 akışkan ✅
  • Tier 3: Çevrim Analizi (bu yazı) — 82 soru, 9 çevrim, 4 akışkan ✅

Üç katman boyunca tutarlı bir tablo ortaya çıkıyor: Opus en istikrarlı ve en başarılı model, GPT güçlü bir ikinci, Gemini basit görevlerde parlıyor ancak karmaşıklık arttıkça düşüyor, DeepSeek muhakeme odaklı mimarisinin avantajını koruyor. MiniMax ise endüstriyel termodinamik muhakeme için yeterli kapasiteye sahip değil.

Kaynaklar

Yazar Hakkında

Olivenet Ekibi

IoT ve Otomasyon Uzmanları

KKTC ve Türkiye'de endüstriyel IoT, akıllı tarım ve enerji izleme çözümleri sunan teknoloji ekibi.

LoRaWANThingsBoardAkıllı TarımEnerji İzleme
LinkedIn