ThermoQA Tier 3: Yapay Zeka Modelleri Tam Termodinamik Çevrim Analizinde Ne Kadar Başarılı?
82 soru, 9 çevrim tipi, 4 akışkan. Opus %91.3 ile lider, MiniMax %40.2 ile çökerken değişken cp Gemini'yi kırıyor. CCGT en zor çevrim — en iyi skor sadece %77.3. T2→T3 sıralama korelasyonu mükemmel (ρ=1.0).
Olivenet Ekibi
IoT ve Otomasyon Uzmanları
Tier 1 yazımızda buhar tablosu aramalarını, Tier 2 yazımızda ise bileşen analizini test etmiştik. Şimdi sıra en zorlu katmanda: tam termodinamik çevrim analizi.
ThermoQA Tier 3: Çevrim Analizi, birden fazla bileşenin birbirine bağlı olduğu, çevrim veriminin hesaplandığı ve optimizasyon kararlarının verildiği senaryoları test ediyor. 82 soru, 9 çevrim tipi (3 Rankine, 4 Brayton, buhar sıkıştırmalı soğutma, kombine çevrim), 4 akışkan (su, hava, R-134a, hava+su). Artık tek bileşen yetmiyor — modellerin tam bir çevrimi baştan sona analiz etmesi gerekiyor.
Genel Sıralama
Tier 3 Genel Siralama
82 soru · 9 cevrim tipi · 4 akiskan · CoolProp 7.2.0 referans · ±%2 tolerans
Claude Opus 4.6
Anthropic
GPT-5.4
OpenAI
Gemini 3.1 Pro
DeepSeek-R1
DeepSeek
MiniMax M2.5
MiniMax
Claude Opus 4.6 %91.3 ile liderliğini sürdürüyor — Tier 2'den sadece 0.7 puanlık düşüşle en istikrarlı model. GPT-5.4 %88.3 ile ikinci, Gemini 3.1 Pro %84.1 ile üçüncü. En çarpıcı sonuç: MiniMax M2.5 %40.2'ye çökerek kullanılamaz seviyeye düşüyor.
Akışkan bazında CCGT (kombine çevrim) tüm modeller için en zor: en iyi skor sadece %77.3 (Opus). Gemini'nin VCR-A'daki %88.6'lık sürpriz performansı ise Brayton'daki çöküşünün aksine dikkat çekici.
CCGT Neden Bu Kadar Zor?
Kombine çevrim (CCGT), bir Brayton gaz türbin üst çevrimi ile bir Rankine buhar türbin alt çevrimini entegre eder. Gaz türbininden çıkan sıcak egzoz gazları, ısı geri kazanım buhar jeneratöründe (HRSG) buhar üretmek için kullanılır. Bu entegrasyon:
- İki farklı akışkanın (hava ve su) eşzamanlı yönetimini gerektirir
- Üst çevrimdeki hatalar alt çevrime doğrudan yansır (hata cascadesi)
- Toplam verim hesaplaması her iki çevrimin bağımsız ve birleşik analizini gerektirir
- Pinch point analizi ve HRSG tasarım kısıtlamaları ek karmaşıklık ekler
Çevrim Bazlı Performans
Cevrim Bazli Performans
9 cevrim tipi x 5 model - 3 aile halinde gruplandirma
Rankine Ailesi
Brayton Ailesi
Diger
Degisken cp: Gemini %97 -> %63 -> %38 seklinde cokertiyor. Sabit cp=1.005 kJ/(kg·K) varsayimi, NASA 7-katsayili polinom eksikligi.
CCGT en zor cevrim: En iyi skor %77.3 (Opus). Coklu akiskan, coklu bilesen entegrasyonu gerektiriyor.
9 çevrim arasında net bir zorluk hiyerarşisi ortaya çıkıyor:
Rankine Ailesi
İdeal (RNK-I) ve gerçek (RNK-A) Rankine çevrimlerinde tüm frontier modeller %90+ skor alıyor — bu çevrimler çözülmüş sayılabilir. Tekrar ısıtmalı Rankine'de (RNK-RH) hafif düşüş var (%85-93), ancak yine de yüksek performans. Su, modellerin en iyi bildiği akışkan olmaya devam ediyor.
Brayton Ailesi ve Değişken cp Sorunu
İdeal (BRY-I) ve gerçek (BRY-A) Brayton çevrimleri de çözülmüş kategorisinde — %90+ skorlar. Ancak değişken özgül ısı kapasitesi (cp) devreye girdiğinde tablo tamamen değişiyor.
Gemini'nin çöküşü dramatik: Sabit cp Brayton'da %97 → değişken cp'de %63 → rejenerasyonlu + değişken cp'de %38. Gemini, cp=1.005 kJ/(kg·K) sabit değerini hardcoded kullanıyor ve sıcaklığa bağlı cp değişimini hesaplayamıyor. NASA 7-katsayılı polinom veya hava tabloları kullanması gereken yerde sabit değer kullanıyor.
Opus ve GPT de değişken cp'de düşüş yaşıyor (%88.5 ve %85.0), ancak çöküş boyutunda değil. DeepSeek %78.0 ile orta düzeyde.
Soğutma ve Kombine Çevrim
VCR-A'da sürpriz: Gemini %88.6 ile Opus'un (%88.0) önüne geçiyor. Brayton'daki değişken cp çöküşünün aksine, R-134a tabanlı soğutma çevrimlerinde Gemini güçlü performans gösteriyor. Bu, Gemini'nin R-134a eğitim verisinin veya soğutma çevrimi deneyiminin güçlü olduğunu gösteriyor.
CCGT ise evrensel bir zorluk: Opus %77.3, GPT %73.0, Gemini %70.0, DeepSeek %62.0, MiniMax %18.0. Çoklu akışkan entegrasyonu ve hata cascade'leri tüm modelleri zorluyor.
Akışkan Analizi
Akiskan Bazli Performans
4 akiskan grubu x 5 model - su, hava, R-134a, hava+su (CCGT)
CCGT tum modeller icin en zor: coklu akiskan entegrasyonu ve cevrimler arasi enerji transferi gerektirir. VCR-A'da Gemini surpriz toparlanma (%88.6).
Katmanlar Arası Analiz: T1 → T2 → T3
Katmanlar Arasi Analiz: T1 -> T2 -> T3
Uc katmandaki performans degisimi ve siralama yolu
Claude Opus 4.6
GPT-5.4
Gemini 3.1 Pro
DeepSeek-R1
MiniMax M2.5
T2 -> T3 siralama korelasyonu p=1.0 (mukemmel), ancak T1 -> T3 korelasyonu sadece p=0.6. Ozellik aramasi basarisi cevrim analizi performansini ongormuyor.
MiniMax -44.3 pp ile felaket boyutunda cokus: Tier 1'deki %84.5'ten Tier 3'te %40.2'ye. Cok adimli muhakeme kapasitesi yetersiz.
T2→T3 sıralama korelasyonu ρ=1.0 — mükemmel korelasyon. Bileşen analizindeki sıralama çevrim analizinde birebir korunuyor. Ancak T1→T3 korelasyonu sadece ρ=0.6 — özellik araması başarısı çevrim analizi performansını öngörmüyor.
Opus en istikrarlı model: Toplam -4.3 pp düşüşle #3→#1→#1 yolunu izliyor. Gemini en büyük düşüşü yaşıyor: -13.2 pp ile #1→#3→#3. MiniMax felaket boyutunda: -44.3 pp ile endüstriyel termodinamik muhakemede tamamen yetersiz.
Temel Bulgular
6 Temel Bulgu
Tier 3 sonuclarindan cikan en onemli icgoruler
Degisken cp Gemini'yi Kiriyor
Gemini sabit cp Brayton'da %97 ile liderken, degisken cp'de %63'e, rejenerasyonlu degisken cp'de %38'e cokertiyor. Sabit cp=1.005 kJ/(kg·K) hardcoded varsayimi ve NASA 7-katsayili polinom eksikligi.
CCGT En Zor Sinav
En iyi skor sadece %77.3 (Opus). Kombine cevrim, Brayton ust cevrim ve Rankine alt cevrimi entegre etmeyi, coklu akiskan yonetimi ve cevrimler arasi enerji transferini gerektiriyor.
MiniMax Felaket Cokusu
Tier 1'deki %84.5'ten Tier 3'te %40.2'ye: -44.3 pp dusus. CCGT'de %18, BRY-RV'de %25. Cok adimli muhakeme kapasitesi tam cevrim analizinde tamamen yetersiz kaliyor.
VCR Surprizi: Gemini Toparlanmasi
Gemini degisken cp'de cokturup VCR-A'da %88.6 ile surpriz toparlanma gosteriyor — Opus'un onunde. R-134a deneyimi veya sogutma cevrimi egitim verisinin guclu oldugunu gosteriyor.
Hata Cascadeleri Baskin
Cevrim analizinde bir adim hatasi sonraki tum adimlari etkiliyor. Rankine'de pompa hatasi kazan ve turbin hesaplarini, Brayton'da kompresor hatasi yanma odasi ve turbin sonuclarini bozuyor.
Opus: Katmanlar Arasi En Istikrarli
Toplam -4.3 pp dususle en istikrarli model. T1'de #3, T2 ve T3'te #1. Gemini ise -13.2 pp ile en buyuk dususu yasiyor (#1 -> #3 -> #3).
Metodoloji
- Referans kütüphanesi: CoolProp 7.2.0 (IAPWS-IF97 + NIST referans verileri)
- Tolerans: ±%2 (endüstriyel mühendislik standardı)
- Soru sayısı: 82 (Tier 3)
- Çevrim tipleri: 9 (RNK-I, RNK-A, RNK-RH, BRY-I, BRY-A, BRY-AV, BRY-RV, VCR-A, CCGT)
- Akışkanlar: 4 (Su, Hava, R-134a, Hava+Su)
- Puanlama: Ağırlıklı adım seviyesi — her ara adım bağımsız olarak CoolProp referansına karşı doğrulanır
- Değer çıkarma: Claude Sonnet 4.6 ile LLM tabanlı otomatik çıkarma
Sonuç
ThermoQA üç katmanlı benchmark sistemi tamamlandı — toplam 293 soru (110 + 101 + 82):
- Tier 1: Özellik Aramaları — 110 soru, buhar tablosu değerleri ✅
- Tier 2: Bileşen Analizi — 101 soru, 7 bileşen, 3 akışkan ✅
- Tier 3: Çevrim Analizi (bu yazı) — 82 soru, 9 çevrim, 4 akışkan ✅
Üç katman boyunca tutarlı bir tablo ortaya çıkıyor: Opus en istikrarlı ve en başarılı model, GPT güçlü bir ikinci, Gemini basit görevlerde parlıyor ancak karmaşıklık arttıkça düşüyor, DeepSeek muhakeme odaklı mimarisinin avantajını koruyor. MiniMax ise endüstriyel termodinamik muhakeme için yeterli kapasiteye sahip değil.
Kaynaklar
- Veri seti: HuggingFace — olivenet/thermoqa
- Kaynak kod: GitHub — olivenet-iot/ThermoQA
- CoolProp: coolprop.org
- IAPWS-IF97: Uluslararası Su ve Buhar Özellikleri Birliği endüstriyel formülasyonu
- Tier 1 yazısı: ThermoQA Tier 1 Sonuçları
- Tier 2 yazısı: ThermoQA Tier 2 Sonuçları
Yazar Hakkında
Olivenet Ekibi
IoT ve Otomasyon Uzmanları
KKTC ve Türkiye'de endüstriyel IoT, akıllı tarım ve enerji izleme çözümleri sunan teknoloji ekibi.