Yapay Zeka

ThermoQA Tier 3: Yapay Zeka Modelleri Tam Termodinamik Çevrim Analizinde Ne Kadar Başarılı?

82 soru, 9 çevrim tipi, 4 akışkan. Opus %91.3 ile lider, MiniMax %40.2 ile çökerken değişken cp Gemini'yi kırıyor. CCGT en zor çevrim — en iyi skor sadece %77.3. T2→T3 sıralama korelasyonu mükemmel (ρ=1.0).

Olivenet Ekibi

IoT ve Otomasyon Uzmanları

2026-03-154 min read

Tier 1 yazımızda buhar tablosu aramalarını, Tier 2 yazımızda ise bileşen analizini test etmiştik. Şimdi sıra en zorlu katmanda: tam termodinamik çevrim analizi.

ThermoQA Tier 3: Çevrim Analizi, birden fazla bileşenin birbirine bağlı olduğu, çevrim veriminin hesaplandığı ve optimizasyon kararlarının verildiği senaryoları test ediyor. 82 soru, 9 çevrim tipi (3 Rankine, 4 Brayton, buhar sıkıştırmalı soğutma, kombine çevrim), 4 akışkan (su, hava, R-134a, hava+su). Artık tek bileşen yetmiyor — modellerin tam bir çevrimi baştan sona analiz etmesi gerekiyor.

Genel Sıralama

R-134a88.6%

Hava+Su70%

1,480 tok/soru

DeepSeek-R1

DeepSeek

Genel

81.2%

Su88.8%

Hava82.3%

R-134a76%

Hava+Su62%

15,280 tok/soru

MiniMax M2.5

MiniMax

Genel

40.2%

Su48%

Hava40.5%

R-134a28%

Hava+Su18%

12,100 tok/soru

Claude Opus 4.6 %91.3 ile liderliğini sürdürüyor — Tier 2'den sadece 0.7 puanlık düşüşle en istikrarlı model. GPT-5.4 %88.3 ile ikinci, Gemini 3.1 Pro %84.1 ile üçüncü. En çarpıcı sonuç: MiniMax M2.5 %40.2'ye çökerek kullanılamaz seviyeye düşüyor.

Akışkan bazında CCGT (kombine çevrim) tüm modeller için en zor: en iyi skor sadece %77.3 (Opus). Gemini'nin VCR-A'daki %88.6'lık sürpriz performansı ise Brayton'daki çöküşünün aksine dikkat çekici.

CCGT Neden Bu Kadar Zor?

Kombine çevrim (CCGT), bir Brayton gaz türbin üst çevrimi ile bir Rankine buhar türbin alt çevrimini entegre eder. Gaz türbininden çıkan sıcak egzoz gazları, ısı geri kazanım buhar jeneratöründe (HRSG) buhar üretmek için kullanılır. Bu entegrasyon:

İki farklı akışkanın (hava ve su) eşzamanlı yönetimini gerektirir
Üst çevrimdeki hatalar alt çevrime doğrudan yansır (hata cascadesi)
Toplam verim hesaplaması her iki çevrimin bağımsız ve birleşik analizini gerektirir
Pinch point analizi ve HRSG tasarım kısıtlamaları ek karmaşıklık ekler

Çevrim Bazlı Performans

Cevrim Bazli Performans

9 cevrim tipi x 5 model - 3 aile halinde gruplandirma

Claude Opus 4.6

GPT-5.4

Gemini 3.1 Pro

DeepSeek-R1

MiniMax M2.5

Rankine Ailesi

RNK-I (Ideal Rankine)(10 Q)

Claude Opus 4.6

97.5%

GPT-5.4

95%

Gemini 3.1 Pro

97.5%

DeepSeek-R1

91.8%

MiniMax M2.5

52.5%

RNK-A (Gercek Rankine)(10 Q)

Claude Opus 4.6

95%

GPT-5.4

93.5%

Gemini 3.1 Pro

96%

DeepSeek-R1

89.5%

MiniMax M2.5

48%

RNK-RH (Tekrar Isitmali)(8 Q)

Claude Opus 4.6

93%

GPT-5.4

91.5%

Gemini 3.1 Pro

93%

DeepSeek-R1

85%

MiniMax M2.5

43.5%

Brayton Ailesi

BRY-I (Ideal Brayton)(10 Q)

Claude Opus 4.6

98%

GPT-5.4

96.5%

Gemini 3.1 Pro

98%

DeepSeek-R1

93%

MiniMax M2.5

55%

BRY-A (Gercek Brayton)(10 Q)

Claude Opus 4.6

96%

GPT-5.4

94.5%

Gemini 3.1 Pro

97%

DeepSeek-R1

90%

MiniMax M2.5

50%

BRY-AV (Degisken cp)(8 Q)

Claude Opus 4.6

88.5%

GPT-5.4

85%

Gemini 3.1 Pro

63%

DeepSeek-R1

78%

MiniMax M2.5

32%

BRY-RV (Rejen. + Deg. cp)(8 Q)

Claude Opus 4.6

82%

GPT-5.4

78.5%

Gemini 3.1 Pro

38%

DeepSeek-R1

68%

MiniMax M2.5

25%

Diger

VCR-A (Buhar Sikistirmali)(9 Q)

Claude Opus 4.6

88%

GPT-5.4

84%

Gemini 3.1 Pro

88.6%

DeepSeek-R1

76%

MiniMax M2.5

28%

CCGT (Kombine Cevrim)(9 Q)

Claude Opus 4.6

77.3%

GPT-5.4

73%

Gemini 3.1 Pro

70%

DeepSeek-R1

62%

MiniMax M2.5

18%

Degisken cp: Gemini %97 -> %63 -> %38 seklinde cokertiyor. Sabit cp=1.005 kJ/(kg·K) varsayimi, NASA 7-katsayili polinom eksikligi.

CCGT en zor cevrim: En iyi skor %77.3 (Opus). Coklu akiskan, coklu bilesen entegrasyonu gerektiriyor.

9 çevrim arasında net bir zorluk hiyerarşisi ortaya çıkıyor:

Rankine Ailesi

İdeal (RNK-I) ve gerçek (RNK-A) Rankine çevrimlerinde tüm frontier modeller %90+ skor alıyor — bu çevrimler çözülmüş sayılabilir. Tekrar ısıtmalı Rankine'de (RNK-RH) hafif düşüş var (%85-93), ancak yine de yüksek performans. Su, modellerin en iyi bildiği akışkan olmaya devam ediyor.

Brayton Ailesi ve Değişken cp Sorunu

İdeal (BRY-I) ve gerçek (BRY-A) Brayton çevrimleri de çözülmüş kategorisinde — %90+ skorlar. Ancak değişken özgül ısı kapasitesi (cp) devreye girdiğinde tablo tamamen değişiyor.

Gemini'nin çöküşü dramatik: Sabit cp Brayton'da %97 → değişken cp'de %63 → rejenerasyonlu + değişken cp'de %38. Gemini, cp=1.005 kJ/(kg·K) sabit değerini hardcoded kullanıyor ve sıcaklığa bağlı cp değişimini hesaplayamıyor. NASA 7-katsayılı polinom veya hava tabloları kullanması gereken yerde sabit değer kullanıyor.

Opus ve GPT de değişken cp'de düşüş yaşıyor (%88.5 ve %85.0), ancak çöküş boyutunda değil. DeepSeek %78.0 ile orta düzeyde.

Soğutma ve Kombine Çevrim

VCR-A'da sürpriz: Gemini %88.6 ile Opus'un (%88.0) önüne geçiyor. Brayton'daki değişken cp çöküşünün aksine, R-134a tabanlı soğutma çevrimlerinde Gemini güçlü performans gösteriyor. Bu, Gemini'nin R-134a eğitim verisinin veya soğutma çevrimi deneyiminin güçlü olduğunu gösteriyor.

CCGT ise evrensel bir zorluk: Opus %77.3, GPT %73.0, Gemini %70.0, DeepSeek %62.0, MiniMax %18.0. Çoklu akışkan entegrasyonu ve hata cascade'leri tüm modelleri zorluyor.

Akışkan Analizi

Akiskan Bazli Performans

4 akiskan grubu x 5 model - su, hava, R-134a, hava+su (CCGT)

Claude Opus 4.6

GPT-5.4

Gemini 3.1 Pro

DeepSeek-R1

MiniMax M2.5

95.2

93.3

95.5

88.8

Su (Rankine)

91.1

88.6

82.3

40.5

Hava (Brayton)

88.6

R-134a (VCR)

77.3

Hava+Su (CCGT)

CCGT tum modeller icin en zor: coklu akiskan entegrasyonu ve cevrimler arasi enerji transferi gerektirir. VCR-A'da Gemini surpriz toparlanma (%88.6).

Katmanlar Arası Analiz: T1 → T2 → T3

40.2%

-44.3 pp#5→#5→#5

T2 -> T3 siralama korelasyonu p=1.0 (mukemmel), ancak T1 -> T3 korelasyonu sadece p=0.6. Ozellik aramasi basarisi cevrim analizi performansini ongormuyor.

MiniMax -44.3 pp ile felaket boyutunda cokus: Tier 1'deki %84.5'ten Tier 3'te %40.2'ye. Cok adimli muhakeme kapasitesi yetersiz.

T2→T3 sıralama korelasyonu ρ=1.0 — mükemmel korelasyon. Bileşen analizindeki sıralama çevrim analizinde birebir korunuyor. Ancak T1→T3 korelasyonu sadece ρ=0.6 — özellik araması başarısı çevrim analizi performansını öngörmüyor.

Opus en istikrarlı model: Toplam -4.3 pp düşüşle #3→#1→#1 yolunu izliyor. Gemini en büyük düşüşü yaşıyor: -13.2 pp ile #1→#3→#3. MiniMax felaket boyutunda: -44.3 pp ile endüstriyel termodinamik muhakemede tamamen yetersiz.

Temel Bulgular

6 Temel Bulgu

Tier 3 sonuclarindan cikan en onemli icgoruler

Degisken cp Gemini'yi Kiriyor

Gemini sabit cp Brayton'da %97 ile liderken, degisken cp'de %63'e, rejenerasyonlu degisken cp'de %38'e cokertiyor. Sabit cp=1.005 kJ/(kg·K) hardcoded varsayimi ve NASA 7-katsayili polinom eksikligi.

CCGT En Zor Sinav

En iyi skor sadece %77.3 (Opus). Kombine cevrim, Brayton ust cevrim ve Rankine alt cevrimi entegre etmeyi, coklu akiskan yonetimi ve cevrimler arasi enerji transferini gerektiriyor.

MiniMax Felaket Cokusu

Tier 1'deki %84.5'ten Tier 3'te %40.2'ye: -44.3 pp dusus. CCGT'de %18, BRY-RV'de %25. Cok adimli muhakeme kapasitesi tam cevrim analizinde tamamen yetersiz kaliyor.

VCR Surprizi: Gemini Toparlanmasi

Gemini degisken cp'de cokturup VCR-A'da %88.6 ile surpriz toparlanma gosteriyor — Opus'un onunde. R-134a deneyimi veya sogutma cevrimi egitim verisinin guclu oldugunu gosteriyor.

Hata Cascadeleri Baskin

Cevrim analizinde bir adim hatasi sonraki tum adimlari etkiliyor. Rankine'de pompa hatasi kazan ve turbin hesaplarini, Brayton'da kompresor hatasi yanma odasi ve turbin sonuclarini bozuyor.

Opus: Katmanlar Arasi En Istikrarli

Toplam -4.3 pp dususle en istikrarli model. T1'de #3, T2 ve T3'te #1. Gemini ise -13.2 pp ile en buyuk dususu yasiyor (#1 -> #3 -> #3).

Metodoloji

Referans kütüphanesi: CoolProp 7.2.0 (IAPWS-IF97 + NIST referans verileri)
Tolerans: ±%2 (endüstriyel mühendislik standardı)
Soru sayısı: 82 (Tier 3)
Çevrim tipleri: 9 (RNK-I, RNK-A, RNK-RH, BRY-I, BRY-A, BRY-AV, BRY-RV, VCR-A, CCGT)
Akışkanlar: 4 (Su, Hava, R-134a, Hava+Su)
Puanlama: Ağırlıklı adım seviyesi — her ara adım bağımsız olarak CoolProp referansına karşı doğrulanır
Değer çıkarma: Claude Sonnet 4.6 ile LLM tabanlı otomatik çıkarma

Sonuç

ThermoQA üç katmanlı benchmark sistemi tamamlandı — toplam 293 soru (110 + 101 + 82):

Tier 1: Özellik Aramaları — 110 soru, buhar tablosu değerleri ✅
Tier 2: Bileşen Analizi — 101 soru, 7 bileşen, 3 akışkan ✅
Tier 3: Çevrim Analizi (bu yazı) — 82 soru, 9 çevrim, 4 akışkan ✅

Üç katman boyunca tutarlı bir tablo ortaya çıkıyor: Opus en istikrarlı ve en başarılı model, GPT güçlü bir ikinci, Gemini basit görevlerde parlıyor ancak karmaşıklık arttıkça düşüyor, DeepSeek muhakeme odaklı mimarisinin avantajını koruyor. MiniMax ise endüstriyel termodinamik muhakeme için yeterli kapasiteye sahip değil.

Kaynaklar

Veri seti: HuggingFace — olivenet/thermoqa
Kaynak kod: GitHub — olivenet-iot/ThermoQA
CoolProp: coolprop.org
IAPWS-IF97: Uluslararası Su ve Buhar Özellikleri Birliği endüstriyel formülasyonu
Tier 1 yazısı: ThermoQA Tier 1 Sonuçları
Tier 2 yazısı: ThermoQA Tier 2 Sonuçları

Yazar Hakkında

Olivenet Ekibi

IoT ve Otomasyon Uzmanları

KKTC ve Türkiye'de endüstriyel IoT, akıllı tarım ve enerji izleme çözümleri sunan teknoloji ekibi.

LoRaWANThingsBoardAkıllı TarımEnerji İzleme