Yapay Zeka

ThermoQA Tier 2: Yapay Zeka Modelleri Termodinamik Bileşen Analizinde Ne Kadar Başarılı?

101 soru, 7 bileşen, 3 akışkan, 3 analiz derinliği. Tier 2'de sıralama tamamen değişiyor: Opus birinciliğe yükselirken Gemini üçüncüye düşüyor. R-134a tüm modelleri çökertiyor, kompresör en zor bileşen — ve daha derin analiz paradoks şekilde daha yüksek doğruluk sağlıyor.

Olivenet Ekibi

IoT ve Otomasyon Uzmanları

2026-03-105 min read

Tier 1 yazımızda 5 yapay zeka modelini buhar tablosu aramalarında test etmiştik — 110 soru, tek akışkan (su), tek seviye (özellik araması). Gemini %97.3 ile liderdi. Peki bu liderlik, daha karmaşık görevlerde de korunuyor mu?

ThermoQA Tier 2: Bileşen Analizi, çok adımlı termodinamik muhakemeyi test ediyor. 101 soru, 7 bileşen (türbin, kompresör, pompa, ısı eşanjörü, kazan, karışım odası, lüle), 3 akışkan (su, hava, R-134a), 3 analiz derinliği (enerji, entropi, ekserji). Artık sadece tablo okumak yetmiyor — modellerin enerji dengesi kurması, izentropik verim hesaplaması ve tersinmezlik analizi yapması gerekiyor.

Genel Sıralama

Tier 2 Genel Sıralama

101 soru · 3 akışkan · 7 bileşen · CoolProp 7.2.0 referans · ±%2 tolerans

101 Soru3 Akışkan7 Bileşen±%2 Tolerans

🥇

Claude Opus 4.6

Anthropic

Genel

92%

Su96.5%

Hava95.6%

R-134a53%

30,371 tok/soru

🥈

GPT-5.4

OpenAI

Genel

91%

Su95.2%

Hava95.8%

R-134a52%

8,986 tok/soru

🥉

Gemini 3.1 Pro

Google

Genel

89.5%

Su97.4%

Hava81.3%

R-134a44.6%

1,310 tok/soru

DeepSeek-R1

DeepSeek

Genel

86.9%

Su88.5%

Hava86.5%

R-134a57.6%

14,053 tok/soru

MiniMax M2.5

MiniMax

Genel

73.4%

Su61.5%

Hava76.5%

R-134a35.5%

11,659 tok/soru

Claude Opus 4.6 %92.0 ile birinci sıraya yükseldi — Tier 1'deki üçüncülüğünden. GPT-5.4 %91.0 ile ikinciliğini koruyor. Gemini 3.1 Pro ise Tier 1 liderliğini koruyamadı: %89.5 ile üçüncü sıraya geriledi.

Akışkan bazında en çarpıcı bulgu: R-134a tüm modelleri çökertiyor. Su (%62-97) ve hava (%77-96) aralığındayken, R-134a'da en iyi skor bile sadece %57.6 (DeepSeek). Frontier modellerin bile soğutucu akışkan özelliklerinde ciddi zorluk yaşadığı açık.

R-134a Neden Bu Kadar Zor?

R-134a (1,1,1,2-tetrafloroetan), soğutma sistemlerinde yaygın kullanılan bir soğutucu akışkandır. Su ve havanın aksine, R-134a'nın termodinamik özellikleri standart Çengel ders kitabı tablolarında sınırlı kapsamdadır. Modeller bu akışkan için NIST/REFPROP veya CoolProp gibi özel veritabanlarına ihtiyaç duyar — ancak eğitim verilerinde bu kaynaklar su kadar yaygın değildir.

Ayrıca R-134a'nın kritik sıcaklığı (101.06°C) ve basıncı (40.59 bar) suyunkinden çok farklıdır. İki fazlı bölgedeki davranışı, modellerin sudan öğrendiği sezgileri yanıltır.

Bileşen Bazlı Performans

7 bileşen × 5 model — Kompresör en zor, pompa çözülmüş

Claude Opus 4.6

GPT-5.4

Gemini 3.1 Pro

DeepSeek-R1

MiniMax M2.5

Türbin(18 Q)

Claude Opus 4.6

96.9%

GPT-5.4

91.2%

Gemini 3.1 Pro

93.5%

DeepSeek-R1

86.8%

MiniMax M2.5

55.6%

Kompresör(14 Q)

Claude Opus 4.6

76.3%

GPT-5.4

73.4%

Gemini 3.1 Pro

58.5%

DeepSeek-R1

61.4%

MiniMax M2.5

48.6%

Pompa(10 Q)

Claude Opus 4.6

100%

GPT-5.4

100%

Gemini 3.1 Pro

100%

DeepSeek-R1

93.3%

MiniMax M2.5

88.5%

Isı Eşanjörü(19 Q)

Claude Opus 4.6

88.7%

GPT-5.4

84.9%

Gemini 3.1 Pro

88.5%

DeepSeek-R1

89.9%

MiniMax M2.5

66.6%

Kazan(14 Q)

Claude Opus 4.6

98.2%

GPT-5.4

97.1%

Gemini 3.1 Pro

100%

DeepSeek-R1

93.5%

MiniMax M2.5

73%

Karışım Odası(12 Q)

Claude Opus 4.6

92%

GPT-5.4

98.6%

Gemini 3.1 Pro

97.8%

DeepSeek-R1

95.7%

MiniMax M2.5

59.6%

Lüle(14 Q)

Claude Opus 4.6

94.1%

GPT-5.4

97.9%

Gemini 3.1 Pro

91.4%

DeepSeek-R1

77%

MiniMax M2.5

45.7%

Kompresör: En zor bileşen. En iyi skor %76.3 (Opus). Formül tersine çevirme (h₂ = h₁ + (h₂s − h₁) / ηs) ve işaret kuralı zorlukları.

Pompa: Çözülmüş bileşen. İlk üç model %100 skor aldı. Basit enerji dengesi yeterli.

7 bileşen arasında net bir zorluk hiyerarşisi ortaya çıkıyor:

Kompresör en zor bileşen — en iyi skor sadece %76.3 (Opus). Kompresör analizi, formül tersine çevirme gerektirir: çıkış entalpisi h₂ = h₁ + (h₂s − h₁) / ηs formülüyle hesaplanır. Burada ηs izentropik verimdir ve işaret kuralı kritiktir — iş girişi pozitif mi negatif mi? Bu konvansiyonda yapılan hatalar sonucu tamamen bozar. Ayrıca izentropik çıkış durumunun (h₂s) belirlenmesi ayrı bir buhar tablosu araması gerektirir.

Pompa ise çözülmüş bir bileşen — ilk üç model %100 skor aldı. Pompa analizi görece basittir: sıvı fazında çalışır, özgül hacim yaklaşık sabittir ve enerji dengesi doğrudan uygulanabilir.

Isı eşanjörü ve kazan sorularında DeepSeek dikkat çekici: ısı eşanjöründe %89.9 ile en yüksek skoru alan model oldu. Nozzle'da ise Opus (%94.1) ve GPT (%97.9) arasındaki fark belirgin.

Tier 1 → Tier 2 Performans Değişimi

Özellik araması doğruluğu bileşen analizi performansını öngörmüyor

Claude Opus 4.6

Tier 1

95.6%

Tier 2

92%

-3.6 pp#3→#1

GPT-5.4

Tier 1

96.9%

Tier 2

91%

-5.9 pp#2→#2

Gemini 3.1 Pro

Tier 1

97.3%

Tier 2

89.5%

-7.8 pp#1→#3

DeepSeek-R1

Tier 1

89.5%

Tier 2

86.9%

-2.6 pp#4→#4

MiniMax M2.5

Tier 1

84.5%

Tier 2

73.4%

-11.1 pp#5→#5

Özellik araması doğruluğu bileşen analizi performansını öngörmüyor — sıralama tamamen değişiyor.

Sıralama değişimi dramatik. Gemini Tier 1'de %97.3 ile liderken, Tier 2'de %89.5'e düşerek 7.8 puanlık kayıp yaşıyor — en büyük düşüş. Opus ise 3.6 puanlık kayıpla en az etkilenen frontier model ve sıralamada üçüncülükten birinciliğe yükseliyor.

Bu ne anlama geliyor? Buhar tablosu araması (Tier 1) ile çok adımlı bileşen analizi (Tier 2) farklı yetenekleri ölçüyor. Tier 1'de hızlı ve doğru tablo erişimi yeterliyken, Tier 2'de enerji/kütle dengesi kurma, birden fazla özellik aramasını zincirleme ve formül manipülasyonu gerekiyor. Gemini'nin Tier 1'deki verimli yaklaşımı (823 token/soru), çok adımlı muhakemede dezavantaja dönüşüyor.

DeepSeek-R1 dikkat çekici bir şekilde en az düşüşü yaşayan model (−2.6 pp). Muhakeme ağırlıklı mimarisi, çok adımlı problemlerde daha dayanıklı görünüyor.

Analiz Derinliği vs Doğruluk

Beklentinin aksine: daha derin analiz = daha yüksek doğruluk

Claude Opus 4.6

GPT-5.4

Gemini 3.1 Pro

DeepSeek-R1

MiniMax M2.5

90.2

89.8

87.8

81.3

71.8

A (Enerji)

91.5

89.2

88.8

87.9

B (+Entropi)

94.8

94.7

92.2

92.4

72.3

C (+Ekserji)

Beklenmedik bulgu: Daha derin analiz (ekserji) frontier modellerde daha yüksek doğruluk sağlıyor. Ekserji formülleri yapılandırılmış muhakeme iskelesi görevi görüyor.

Belki de en şaşırtıcı bulgu: daha derin analiz = daha yüksek doğruluk. Beklenti, ekserji (Derinlik C) sorularının daha zor olacağı ve doğruluğun düşeceği yönündeydi. Ancak gerçek tam tersi:

Derinlik A (Enerji): %71.8 – %90.2
Derinlik B (+Entropi): %76.0 – %91.5
Derinlik C (+Ekserji): %72.3 – %94.8

Frontier modellerde (Opus, GPT, Gemini, DeepSeek) Derinlik C, Derinlik A'dan tutarlı şekilde daha yüksek. Neden?

Ekserji formülleri yapılandırılmış muhakeme iskelesi sağlıyor. Ekserji analizi, enerji ve entropiyi birleştiren belirli bir formül çerçevesi sunar (ψ = h − h₀ − T₀(s − s₀)). Bu formül, modelin hangi adımları izlemesi gerektiğini açıkça tanımlar. Enerji analizinde ise denge denklemlerinin nasıl kurulacağı daha belirsizdir ve modeller daha fazla hata yapabilir.

İstisna MiniMax: Derinlik C'de %72.3 ile Derinlik A'dan (%71.8) neredeyse aynı. Yapılandırılmış iskele, yalnızca yeterli temel yeteneğe sahip modellere fayda sağlıyor.

Temel Bulgular

6 Temel Bulgu

Tier 2 sonuçlarından çıkan en önemli içgörüler

Sıralama Değişiyor

Tier 1 lideri Gemini (%97.3) Tier 2'de üçüncüye (%89.5) düşerken, Opus üçüncülükten birinciliğe (%92.0) yükseldi. Özellik araması ≠ çok adımlı muhakeme.

R-134a Ayırt Edici

Su ve hava %62-97 aralığındayken, R-134a tüm modelleri %35-57 aralığına çökertiyor. Çengel tablolarının ötesindeki soğutucu akışkan özellikleri en büyük zayıflık.

Kompresör En Zor

En iyi skor sadece %76.3 (Opus). Formül tersine çevirme (h₂ = h₁ + (h₂s − h₁) / ηs) ve izentropik verim işaret kuralı tüm modelleri zorluyor.

Derinlik C > A

Beklenmedik: ekserji (en derin) sorularında doğruluk, enerji (en basit) sorularından daha yüksek. Ekserji formülleri yapılandırılmış muhakeme iskelesi sağlıyor.

Pompa Çözülmüş

İlk üç model pompa sorularında %100 skor aldı. Basit enerji dengesi ve düşük karmaşıklık — LLM'ler bu bileşeni tamamen çözmüş durumda.

Üç Performans Katmanı

Opus/GPT (%91-92), Gemini/DeepSeek (%87-90), MiniMax (%73). Tier 1'deki sıkı yarış Tier 2'de net katmanlara ayrılıyor.

Metodoloji

Referans kütüphanesi: CoolProp 7.2.0 (IAPWS-IF97 + NIST referans verileri)
Tolerans: ±%2 (endüstriyel mühendislik standardı)
Soru sayısı: 101 (Tier 2)
Bileşenler: 7 (Türbin, Kompresör, Pompa, Isı Eşanjörü, Kazan, Karışım Odası, Lüle)
Akışkanlar: 3 (Su, Hava, R-134a)
Analiz derinlikleri: 3 (Enerji, +Entropi, +Ekserji)
Puanlama: Ağırlıklı adım seviyesi — her ara adım bağımsız olarak CoolProp referansına karşı doğrulanır
Değer çıkarma: Claude Sonnet 4.6 ile LLM tabanlı otomatik çıkarma

Sırada Ne Var?

ThermoQA üç katmanlı bir benchmark sistemidir:

Tier 1: Özellik Aramaları — 110 soru, buhar tablosu değerleri ✅
Tier 2: Bileşen Analizi (bu yazı) — 101 soru, 7 bileşen, 3 akışkan ✅
Tier 3: Çevrim Analizi — Tam Rankine, Brayton, soğutma çevrimleri (geliştirme aşamasında)

Tier 3'te tam termodinamik çevrimleri analiz edeceğiz — birden fazla bileşenin birbirine bağlı olduğu, çevrim veriminin hesaplandığı ve optimizasyon kararlarının verildiği senaryolar. Bileşen analizinde güçlü olan modeller tam çevrim analizinde de başarılı olacak mı? Yakında paylaşacağız.

Kaynaklar

Veri seti: HuggingFace — olivenet/thermoqa
Kaynak kod: GitHub — olivenet-iot/ThermoQA
CoolProp: coolprop.org
IAPWS-IF97: Uluslararası Su ve Buhar Özellikleri Birliği endüstriyel formülasyonu

Yazar Hakkında

Olivenet Ekibi

IoT ve Otomasyon Uzmanları

KKTC ve Türkiye'de endüstriyel IoT, akıllı tarım ve enerji izleme çözümleri sunan teknoloji ekibi.

LoRaWANThingsBoardAkıllı TarımEnerji İzleme