ThermoQA Tier 2: Yapay Zeka Modelleri Termodinamik Bileşen Analizinde Ne Kadar Başarılı?
101 soru, 7 bileşen, 3 akışkan, 3 analiz derinliği. Tier 2'de sıralama tamamen değişiyor: Opus birinciliğe yükselirken Gemini üçüncüye düşüyor. R-134a tüm modelleri çökertiyor, kompresör en zor bileşen — ve daha derin analiz paradoks şekilde daha yüksek doğruluk sağlıyor.
Olivenet Ekibi
IoT ve Otomasyon Uzmanları
Tier 1 yazımızda 5 yapay zeka modelini buhar tablosu aramalarında test etmiştik — 110 soru, tek akışkan (su), tek seviye (özellik araması). Gemini %97.3 ile liderdi. Peki bu liderlik, daha karmaşık görevlerde de korunuyor mu?
ThermoQA Tier 2: Bileşen Analizi, çok adımlı termodinamik muhakemeyi test ediyor. 101 soru, 7 bileşen (türbin, kompresör, pompa, ısı eşanjörü, kazan, karışım odası, lüle), 3 akışkan (su, hava, R-134a), 3 analiz derinliği (enerji, entropi, ekserji). Artık sadece tablo okumak yetmiyor — modellerin enerji dengesi kurması, izentropik verim hesaplaması ve tersinmezlik analizi yapması gerekiyor.
Genel Sıralama
Tier 2 Genel Sıralama
101 soru · 3 akışkan · 7 bileşen · CoolProp 7.2.0 referans · ±%2 tolerans
Claude Opus 4.6
Anthropic
GPT-5.4
OpenAI
Gemini 3.1 Pro
DeepSeek-R1
DeepSeek
MiniMax M2.5
MiniMax
Claude Opus 4.6 %92.0 ile birinci sıraya yükseldi — Tier 1'deki üçüncülüğünden. GPT-5.4 %91.0 ile ikinciliğini koruyor. Gemini 3.1 Pro ise Tier 1 liderliğini koruyamadı: %89.5 ile üçüncü sıraya geriledi.
Akışkan bazında en çarpıcı bulgu: R-134a tüm modelleri çökertiyor. Su (%62-97) ve hava (%77-96) aralığındayken, R-134a'da en iyi skor bile sadece %57.6 (DeepSeek). Frontier modellerin bile soğutucu akışkan özelliklerinde ciddi zorluk yaşadığı açık.
R-134a Neden Bu Kadar Zor?
R-134a (1,1,1,2-tetrafloroetan), soğutma sistemlerinde yaygın kullanılan bir soğutucu akışkandır. Su ve havanın aksine, R-134a'nın termodinamik özellikleri standart Çengel ders kitabı tablolarında sınırlı kapsamdadır. Modeller bu akışkan için NIST/REFPROP veya CoolProp gibi özel veritabanlarına ihtiyaç duyar — ancak eğitim verilerinde bu kaynaklar su kadar yaygın değildir.
Ayrıca R-134a'nın kritik sıcaklığı (101.06°C) ve basıncı (40.59 bar) suyunkinden çok farklıdır. İki fazlı bölgedeki davranışı, modellerin sudan öğrendiği sezgileri yanıltır.
Bileşen Bazlı Performans
Bileşen Bazlı Performans
7 bileşen × 5 model — Kompresör en zor, pompa çözülmüş
Kompresör: En zor bileşen. En iyi skor %76.3 (Opus). Formül tersine çevirme (h₂ = h₁ + (h₂s − h₁) / ηs) ve işaret kuralı zorlukları.
Pompa: Çözülmüş bileşen. İlk üç model %100 skor aldı. Basit enerji dengesi yeterli.
7 bileşen arasında net bir zorluk hiyerarşisi ortaya çıkıyor:
Kompresör en zor bileşen — en iyi skor sadece %76.3 (Opus). Kompresör analizi, formül tersine çevirme gerektirir: çıkış entalpisi h₂ = h₁ + (h₂s − h₁) / ηs formülüyle hesaplanır. Burada ηs izentropik verimdir ve işaret kuralı kritiktir — iş girişi pozitif mi negatif mi? Bu konvansiyonda yapılan hatalar sonucu tamamen bozar. Ayrıca izentropik çıkış durumunun (h₂s) belirlenmesi ayrı bir buhar tablosu araması gerektirir.
Pompa ise çözülmüş bir bileşen — ilk üç model %100 skor aldı. Pompa analizi görece basittir: sıvı fazında çalışır, özgül hacim yaklaşık sabittir ve enerji dengesi doğrudan uygulanabilir.
Isı eşanjörü ve kazan sorularında DeepSeek dikkat çekici: ısı eşanjöründe %89.9 ile en yüksek skoru alan model oldu. Nozzle'da ise Opus (%94.1) ve GPT (%97.9) arasındaki fark belirgin.
Tier 1 → Tier 2 Performans Değişimi
Tier 1 → Tier 2 Performans Değişimi
Özellik araması doğruluğu bileşen analizi performansını öngörmüyor
Claude Opus 4.6
GPT-5.4
Gemini 3.1 Pro
DeepSeek-R1
MiniMax M2.5
Özellik araması doğruluğu bileşen analizi performansını öngörmüyor — sıralama tamamen değişiyor.
Sıralama değişimi dramatik. Gemini Tier 1'de %97.3 ile liderken, Tier 2'de %89.5'e düşerek 7.8 puanlık kayıp yaşıyor — en büyük düşüş. Opus ise 3.6 puanlık kayıpla en az etkilenen frontier model ve sıralamada üçüncülükten birinciliğe yükseliyor.
Bu ne anlama geliyor? Buhar tablosu araması (Tier 1) ile çok adımlı bileşen analizi (Tier 2) farklı yetenekleri ölçüyor. Tier 1'de hızlı ve doğru tablo erişimi yeterliyken, Tier 2'de enerji/kütle dengesi kurma, birden fazla özellik aramasını zincirleme ve formül manipülasyonu gerekiyor. Gemini'nin Tier 1'deki verimli yaklaşımı (823 token/soru), çok adımlı muhakemede dezavantaja dönüşüyor.
DeepSeek-R1 dikkat çekici bir şekilde en az düşüşü yaşayan model (−2.6 pp). Muhakeme ağırlıklı mimarisi, çok adımlı problemlerde daha dayanıklı görünüyor.
Analiz Derinliği vs Doğruluk
Analiz Derinliği vs Doğruluk
Beklentinin aksine: daha derin analiz = daha yüksek doğruluk
Beklenmedik bulgu: Daha derin analiz (ekserji) frontier modellerde daha yüksek doğruluk sağlıyor. Ekserji formülleri yapılandırılmış muhakeme iskelesi görevi görüyor.
Belki de en şaşırtıcı bulgu: daha derin analiz = daha yüksek doğruluk. Beklenti, ekserji (Derinlik C) sorularının daha zor olacağı ve doğruluğun düşeceği yönündeydi. Ancak gerçek tam tersi:
- Derinlik A (Enerji): %71.8 – %90.2
- Derinlik B (+Entropi): %76.0 – %91.5
- Derinlik C (+Ekserji): %72.3 – %94.8
Frontier modellerde (Opus, GPT, Gemini, DeepSeek) Derinlik C, Derinlik A'dan tutarlı şekilde daha yüksek. Neden?
Ekserji formülleri yapılandırılmış muhakeme iskelesi sağlıyor. Ekserji analizi, enerji ve entropiyi birleştiren belirli bir formül çerçevesi sunar (ψ = h − h₀ − T₀(s − s₀)). Bu formül, modelin hangi adımları izlemesi gerektiğini açıkça tanımlar. Enerji analizinde ise denge denklemlerinin nasıl kurulacağı daha belirsizdir ve modeller daha fazla hata yapabilir.
İstisna MiniMax: Derinlik C'de %72.3 ile Derinlik A'dan (%71.8) neredeyse aynı. Yapılandırılmış iskele, yalnızca yeterli temel yeteneğe sahip modellere fayda sağlıyor.
Temel Bulgular
6 Temel Bulgu
Tier 2 sonuçlarından çıkan en önemli içgörüler
Sıralama Değişiyor
Tier 1 lideri Gemini (%97.3) Tier 2'de üçüncüye (%89.5) düşerken, Opus üçüncülükten birinciliğe (%92.0) yükseldi. Özellik araması ≠ çok adımlı muhakeme.
R-134a Ayırt Edici
Su ve hava %62-97 aralığındayken, R-134a tüm modelleri %35-57 aralığına çökertiyor. Çengel tablolarının ötesindeki soğutucu akışkan özellikleri en büyük zayıflık.
Kompresör En Zor
En iyi skor sadece %76.3 (Opus). Formül tersine çevirme (h₂ = h₁ + (h₂s − h₁) / ηs) ve izentropik verim işaret kuralı tüm modelleri zorluyor.
Derinlik C > A
Beklenmedik: ekserji (en derin) sorularında doğruluk, enerji (en basit) sorularından daha yüksek. Ekserji formülleri yapılandırılmış muhakeme iskelesi sağlıyor.
Pompa Çözülmüş
İlk üç model pompa sorularında %100 skor aldı. Basit enerji dengesi ve düşük karmaşıklık — LLM'ler bu bileşeni tamamen çözmüş durumda.
Üç Performans Katmanı
Opus/GPT (%91-92), Gemini/DeepSeek (%87-90), MiniMax (%73). Tier 1'deki sıkı yarış Tier 2'de net katmanlara ayrılıyor.
Metodoloji
- Referans kütüphanesi: CoolProp 7.2.0 (IAPWS-IF97 + NIST referans verileri)
- Tolerans: ±%2 (endüstriyel mühendislik standardı)
- Soru sayısı: 101 (Tier 2)
- Bileşenler: 7 (Türbin, Kompresör, Pompa, Isı Eşanjörü, Kazan, Karışım Odası, Lüle)
- Akışkanlar: 3 (Su, Hava, R-134a)
- Analiz derinlikleri: 3 (Enerji, +Entropi, +Ekserji)
- Puanlama: Ağırlıklı adım seviyesi — her ara adım bağımsız olarak CoolProp referansına karşı doğrulanır
- Değer çıkarma: Claude Sonnet 4.6 ile LLM tabanlı otomatik çıkarma
Sırada Ne Var?
ThermoQA üç katmanlı bir benchmark sistemidir:
- Tier 1: Özellik Aramaları — 110 soru, buhar tablosu değerleri ✅
- Tier 2: Bileşen Analizi (bu yazı) — 101 soru, 7 bileşen, 3 akışkan ✅
- Tier 3: Çevrim Analizi — Tam Rankine, Brayton, soğutma çevrimleri (geliştirme aşamasında)
Tier 3'te tam termodinamik çevrimleri analiz edeceğiz — birden fazla bileşenin birbirine bağlı olduğu, çevrim veriminin hesaplandığı ve optimizasyon kararlarının verildiği senaryolar. Bileşen analizinde güçlü olan modeller tam çevrim analizinde de başarılı olacak mı? Yakında paylaşacağız.
Kaynaklar
- Veri seti: HuggingFace — olivenet/thermoqa
- Kaynak kod: GitHub — olivenet-iot/ThermoQA
- CoolProp: coolprop.org
- IAPWS-IF97: Uluslararası Su ve Buhar Özellikleri Birliği endüstriyel formülasyonu
Yazar Hakkında
Olivenet Ekibi
IoT ve Otomasyon Uzmanları
KKTC ve Türkiye'de endüstriyel IoT, akıllı tarım ve enerji izleme çözümleri sunan teknoloji ekibi.