Yapay Zeka

ThermoQA Tier 1: Yapay Zeka Modelleri Buhar Tablolarını Ne Kadar İyi Okuyor?

5 büyük dil modelini 110 termodinamik soru ile test ettik. Gemini 3.1 Pro %97.3 ile lider, ancak süperkritik bölgede tüm modeller zorlanıyor. CoolProp 7.2.0 referans değerleri, ±%2 tolerans — işte sonuçlar.

Olivenet Ekibi

IoT ve Otomasyon Uzmanları

2026-03-074 min read

LLM'ler artık kod yazıyor, makale özetliyor, görüntü üretiyor. Peki ya mühendislik hesaplamalarında ne kadar güvenilirler? ThermoQA, tam olarak bu soruyu yanıtlamak için tasarladığımız bir benchmark: yapay zeka modellerinin termodinamik akıl yürütme yeteneğini ölçüyor.

Bu yazıda Tier 1: Özellik Aramaları sonuçlarını paylaşıyoruz — 110 soru, 5 model, 8 kategori, CoolProp 7.2.0 referans değerleri. Sorular, bir mühendislik termodinamiği dersinde buhar tablolarından değer okuma seviyesinde: sıcaklık ve basınç verildiğinde entalpi, entropi, özgül hacim gibi özellikleri bulma.

Neden Termodinamik?

Termodinamik, mühendislik hesaplamalarının temel taşıdır. Bir buhar türbininin verimi, bir soğutma çevriminin COP'u, bir ısı eşanjörünün çıkış sıcaklığı — tüm bunlar buhar tablolarındaki doğru değerlere bağlıdır. Eğer bir LLM bu temel aramaları doğru yapamıyorsa, daha karmaşık çevrim analizlerinde güvenilir olması beklenemez.

CoolProp 7.2.0, IAPWS-IF97 formülasyonunu kullanan açık kaynaklı bir termodinamik özellik kütüphanesidir. Benchmark'taki tüm referans değerleri CoolProp ile hesaplanmıştır. Tolerans ±%2 olarak belirlenmiştir — endüstriyel mühendislik standartlarıyla uyumlu bir eşik.

Genel Sıralama

Tier 1 Genel Sıralama

110 soru · Su/buhar · CoolProp 7.2.0 referans değerleri (IAPWS-IF97) · ±%2 tolerans

110 SoruCoolProp 7.2.0±%2 Tolerans

🥇

Gemini 3.1 Pro

Google

Genel

97.3%

Kolay100%

Orta98.9%

Zor87.5%

🥈

GPT-5.4

OpenAI

Genel

96.9%

Kolay100%

Orta93.9%

Zor94.4%

🥉

Claude Opus 4.6

Anthropic

Genel

95.6%

Kolay88.5%

Orta94.4%

Zor75%

DeepSeek-R1

DeepSeek

Genel

89.5%

Kolay97.4%

Orta96.1%

Zor67.6%

MiniMax M2.5

MiniMax

Genel

84.5%

Kolay90.1%

Orta78.9%

Zor70.8%

Gemini 3.1 Pro %97.3 ile birinci sırada. Kolay sorularda %100, orta zorlukta %98.9, zor sorularda %87.5. GPT-5.4 yakın ikinci (%96.9) ve özellikle zor sorularda Gemini'yi geçiyor (%94.4 vs %87.5). Claude Opus 4.6 üçüncü sırada (%95.6) ancak kolay sorularda beklenmedik hatalar yapıyor (%88.5).

Alt sıralarda DeepSeek-R1 (%89.5) ve MiniMax M2.5 (%84.5) yer alıyor. DeepSeek kolay sorularda güçlü (%97.4) ama zor sorularda ciddi düşüş yaşıyor (%67.6).

Zorluk Analizi

Kolay sorular (standart buhar tablosu değerleri) frontier modelleri ayırt etmiyor — üst üç model %88-100 arasında. Asıl ayrışma zor sorularda gerçekleşiyor: interpolasyon, sınır durumları ve süperkritik bölge. GPT-5.4'ün zor sorulardaki %94.4'lük skoru dikkat çekici — Gemini'den 7 puan yüksek.

Kategori Bazlı Performans

8 kategori × 5 model — Süperkritik bölge en ayırt edici kategori

Gemini 3.1 Pro

GPT-5.4

Claude Opus 4.6

DeepSeek-R1

MiniMax M2.5

Altsoğutulmuş Sıvı(10 Q)

Gemini 3.1 Pro

100%

GPT-5.4

100%

Claude Opus 4.6

80%

DeepSeek-R1

100%

MiniMax M2.5

76.7%

Doymuş Sıvı(12 Q)

Gemini 3.1 Pro

100%

GPT-5.4

100%

Claude Opus 4.6

100%

DeepSeek-R1

91.7%

MiniMax M2.5

97.9%

Yaş Buhar(18 Q)

Gemini 3.1 Pro

100%

GPT-5.4

100%

Claude Opus 4.6

90.7%

DeepSeek-R1

90.7%

MiniMax M2.5

92.6%

Doymuş Buhar(10 Q)

Gemini 3.1 Pro

100%

GPT-5.4

100%

Claude Opus 4.6

100%

DeepSeek-R1

100%

MiniMax M2.5

87.5%

Kızgın Buhar(20 Q)

Gemini 3.1 Pro

98.3%

GPT-5.4

98.3%

Claude Opus 4.6

78.3%

DeepSeek-R1

95%

MiniMax M2.5

83.3%

Süperkritik(10 Q)

Gemini 3.1 Pro

76.7%

GPT-5.4

86.7%

Claude Opus 4.6

48.3%

DeepSeek-R1

48.3%

MiniMax M2.5

43.3%

Faz Belirleme(15 Q)

Gemini 3.1 Pro

100%

GPT-5.4

100%

Claude Opus 4.6

93.3%

DeepSeek-R1

86.7%

MiniMax M2.5

100%

Ters Arama(15 Q)

Gemini 3.1 Pro

100%

GPT-5.4

88.3%

Claude Opus 4.6

96.7%

DeepSeek-R1

95%

MiniMax M2.5

63.3%

Süperkritik bölge: Tüm modeller zorlandı. En iyi skor %86.7 (GPT-5.4)

8 kategoriden 4'ünde (Doymuş Sıvı, Doymuş Buhar, Faz Belirleme, Altsoğutulmuş Sıvı) en az 3 model %100 skor alıyor. Ancak süperkritik bölge dramatik bir şekilde farklı: en iyi skor bile sadece %86.7 (GPT-5.4).

Süperkritik Bölge: Neden Bu Kadar Zor?

Suyun kritik noktası T > 373.95°C, P > 22.064 MPa'dır. Bu noktanın ötesinde sıvı ve buhar fazları arasında net bir ayrım yoktur — özellikler sürekli ama hızla değişir. Standart buhar tabloları bu bölgeyi ayrıntılı kapsamaz; doğru değerler için IAPWS-IF97 durum denklemleri gerekir.

LLM'ler ders kitaplarındaki buhar tablolarını ezberlemiş olabilir, ancak kritik nokta yakınında tablolarda olmayan değerleri hesaplamak için denklem çözme yeteneği gerekir. Bu, ezber ile gerçek hesaplama arasındaki farkı ortaya koyar.

Örnek: Claude Opus 4.6, 402°C / 25.3 MPa

Bu süperkritik koşulda Claude Opus entalpi değerini h = 1887 kJ/kg olarak verdi. CoolProp referans değeri: h = 2585.77 kJ/kg. Hata: %27. Model, kritik noktanın hemen üzerindeki bu bölgede sıvı tarafındaki değerlere yakın bir tahmin yaptı — faz geçişinin bulanık olduğu bölgede tamamen yanlış bir interpolasyon.

Token Kullanım Analizi

Tier 1 — Model başına ortalama çıktı token sayısı

823

Gemini 3.1 Pro97.3%

10,798

GPT-5.496.9%

12,981

Claude Opus 4.695.6%

7,476

DeepSeek-R189.5%

7,551

MiniMax M2.584.5%

Gemini, Opus'tan 16× daha az token kullanarak daha yüksek skor elde etti

Verimlilik Metrikleri

8.5

Token / %

Gemini 3.1 Pro

111.4

Token / %

GPT-5.4

135.8

Token / %

Claude Opus 4.6

83.5

Token / %

DeepSeek-R1

89.4

Token / %

MiniMax M2.5

Token kullanımı modeller arasında dramatik farklılıklar gösteriyor. Gemini 3.1 Pro soru başına ortalama sadece 823 token kullanırken, Claude Opus 4.6 soru başına 12.981 token kullanıyor — 16 kat fark. Ancak daha fazla token harcamak daha iyi sonuç vermiyor: Gemini daha az token ile daha yüksek skor aldı.

Bu, iyi tanımlanmış özellik aramaları için "daha fazla düşünme = daha iyi sonuç" varsayımının geçerli olmadığını gösteriyor. Gemini'nin verimli yaklaşımı, bu tür yapılandırılmış sorular için optimal strateji gibi görünüyor.

Temel Bulgular

5 Temel Bulgu

Tier 1 sonuçlarından çıkan en önemli içgörüler

Süperkritik Bölge Ayırt Edici

Tüm modeller süperkritik bölgede zorlandı. En iyi skor %86.7 (GPT-5.4). LLM'ler buhar tablolarını ezberleyebilir ancak kritik nokta yakınında IAPWS-IF97 denklemlerini çözemez.

Muhakeme Modu Kritik

GPT-5.4 muhakeme olmadan: %81. Muhakeme ile: %96.9. 16 puanlık artış. Muhakeme, çapraz kontrol ve öz-düzeltme sağlar.

Token Verimliliği ≠ Doğruluk

Gemini soru başına 823 token ile %97.3 skor aldı. Opus 12.981 token (16×) kullanarak %95.6 aldı. Daha fazla düşünme her zaman daha iyi sonuç vermez.

Araç Kullanımı Her Şeyi Değiştirir

Süperkritik sorularda araçsız %48 alan model, Python/CoolProp ile %100 aldı. Eksik olan bilgi değil, metodoloji.

Hiçbir Model Her Yerde Mükemmel Değil

Her modelin kendine özgü zayıflıkları var: GPT-5.4 ters aramalarda (%88.3), Opus süperkritik (%48.3), MiniMax ters aramalarda (%63.3), DeepSeek zor sorularda (%67.6).

Araç Kullanımının Etkisi

Benchmark'ın en çarpıcı bulgularından biri araç kullanımının etkisi. Süperkritik sorularda araç (Python/CoolProp) erişimi olmadan %48 alan aynı model, CoolProp kütüphanesini çalıştırabildiğinde %100 alıyor. Eksik olan termodinamik bilgisi değil — modeller durum denklemi çözücülere ihtiyaç duyduklarını biliyor, ancak araç erişimi olmadan bunları çalıştıramıyor.

Bu, LLM'lerin mühendislik hesaplamalarında en güçlü olduğu senaryoyu net bir şekilde tanımlıyor: doğru araçlara erişim + akıl yürütme yeteneği.

Muhakeme Modunun Önemi

GPT-5.4'ün reasoning_effort parametresi olmadan skoru: %81. reasoning_effort=high ile: %96.9. Muhakeme modu, modelin çapraz kontrol yapmasını, ara sonuçları doğrulamasını ve interpolasyon hatalarını düzeltmesini sağlıyor. Sıralamadaki tüm modeller en iyi muhakeme modlarıyla test edilmiştir.

Metodoloji

Referans kütüphanesi: CoolProp 7.2.0 (IAPWS-IF97 formülasyonu)
Tolerans: ±%2 (endüstriyel mühendislik standardı)
Soru sayısı: 110 (Tier 1)
Kategoriler: 8 (Altsoğutulmuş Sıvı, Doymuş Sıvı, Yaş Buhar, Doymuş Buhar, Kızgın Buhar, Süperkritik, Faz Belirleme, Ters Arama)
Zorluk seviyeleri: Kolay, Orta, Zor
Değer çıkarma: Claude Sonnet 4.6 ile LLM tabanlı otomatik çıkarma
Puanlama: Her alt soru bağımsız olarak CoolProp referansına karşı doğrulanır

Sırada Ne Var?

ThermoQA üç katmanlı bir benchmark sistemidir:

Tier 1: Özellik Aramaları (bu yazı) — 110 soru, buhar tablosu değerleri
Tier 2: Bileşen Analizi — 101 soru, türbin/kompresör/pompa gibi bileşenlerin termodinamik analizi (yakında)
Tier 3: Çevrim Analizi — Tam Rankine, Brayton, soğutma çevrimleri (geliştirme aşamasında)

Tier 2 sonuçlarında sıralama tamamen değişiyor — Gemini'nin Tier 1 liderliği çok adımlı muhakemede korunamıyor. Bu analizi bir sonraki yazımızda paylaşacağız.

Kaynaklar

Veri seti: HuggingFace — olivenet/thermoqa
Kaynak kod: GitHub — olivenet-iot/ThermoQA
CoolProp: coolprop.org
IAPWS-IF97: Uluslararası Su ve Buhar Özellikleri Birliği endüstriyel formülasyonu

Yazar Hakkında

Olivenet Ekibi

IoT ve Otomasyon Uzmanları

KKTC ve Türkiye'de endüstriyel IoT, akıllı tarım ve enerji izleme çözümleri sunan teknoloji ekibi.

LoRaWANThingsBoardAkıllı TarımEnerji İzleme