ThermoQA Tier 1: Yapay Zeka Modelleri Buhar Tablolarını Ne Kadar İyi Okuyor?
5 büyük dil modelini 110 termodinamik soru ile test ettik. Gemini 3.1 Pro %97.3 ile lider, ancak süperkritik bölgede tüm modeller zorlanıyor. CoolProp 7.2.0 referans değerleri, ±%2 tolerans — işte sonuçlar.
Olivenet Ekibi
IoT ve Otomasyon Uzmanları
LLM'ler artık kod yazıyor, makale özetliyor, görüntü üretiyor. Peki ya mühendislik hesaplamalarında ne kadar güvenilirler? ThermoQA, tam olarak bu soruyu yanıtlamak için tasarladığımız bir benchmark: yapay zeka modellerinin termodinamik akıl yürütme yeteneğini ölçüyor.
Bu yazıda Tier 1: Özellik Aramaları sonuçlarını paylaşıyoruz — 110 soru, 5 model, 8 kategori, CoolProp 7.2.0 referans değerleri. Sorular, bir mühendislik termodinamiği dersinde buhar tablolarından değer okuma seviyesinde: sıcaklık ve basınç verildiğinde entalpi, entropi, özgül hacim gibi özellikleri bulma.
Neden Termodinamik?
Termodinamik, mühendislik hesaplamalarının temel taşıdır. Bir buhar türbininin verimi, bir soğutma çevriminin COP'u, bir ısı eşanjörünün çıkış sıcaklığı — tüm bunlar buhar tablolarındaki doğru değerlere bağlıdır. Eğer bir LLM bu temel aramaları doğru yapamıyorsa, daha karmaşık çevrim analizlerinde güvenilir olması beklenemez.
CoolProp 7.2.0, IAPWS-IF97 formülasyonunu kullanan açık kaynaklı bir termodinamik özellik kütüphanesidir. Benchmark'taki tüm referans değerleri CoolProp ile hesaplanmıştır. Tolerans ±%2 olarak belirlenmiştir — endüstriyel mühendislik standartlarıyla uyumlu bir eşik.
Genel Sıralama
Tier 1 Genel Sıralama
110 soru · Su/buhar · CoolProp 7.2.0 referans değerleri (IAPWS-IF97) · ±%2 tolerans
Gemini 3.1 Pro
GPT-5.4
OpenAI
Claude Opus 4.6
Anthropic
DeepSeek-R1
DeepSeek
MiniMax M2.5
MiniMax
Gemini 3.1 Pro %97.3 ile birinci sırada. Kolay sorularda %100, orta zorlukta %98.9, zor sorularda %87.5. GPT-5.4 yakın ikinci (%96.9) ve özellikle zor sorularda Gemini'yi geçiyor (%94.4 vs %87.5). Claude Opus 4.6 üçüncü sırada (%95.6) ancak kolay sorularda beklenmedik hatalar yapıyor (%88.5).
Alt sıralarda DeepSeek-R1 (%89.5) ve MiniMax M2.5 (%84.5) yer alıyor. DeepSeek kolay sorularda güçlü (%97.4) ama zor sorularda ciddi düşüş yaşıyor (%67.6).
Zorluk Analizi
Kolay sorular (standart buhar tablosu değerleri) frontier modelleri ayırt etmiyor — üst üç model %88-100 arasında. Asıl ayrışma zor sorularda gerçekleşiyor: interpolasyon, sınır durumları ve süperkritik bölge. GPT-5.4'ün zor sorulardaki %94.4'lük skoru dikkat çekici — Gemini'den 7 puan yüksek.
Kategori Bazlı Performans
Kategori Bazlı Performans
8 kategori × 5 model — Süperkritik bölge en ayırt edici kategori
Süperkritik bölge: Tüm modeller zorlandı. En iyi skor %86.7 (GPT-5.4)
8 kategoriden 4'ünde (Doymuş Sıvı, Doymuş Buhar, Faz Belirleme, Altsoğutulmuş Sıvı) en az 3 model %100 skor alıyor. Ancak süperkritik bölge dramatik bir şekilde farklı: en iyi skor bile sadece %86.7 (GPT-5.4).
Süperkritik Bölge: Neden Bu Kadar Zor?
Suyun kritik noktası T > 373.95°C, P > 22.064 MPa'dır. Bu noktanın ötesinde sıvı ve buhar fazları arasında net bir ayrım yoktur — özellikler sürekli ama hızla değişir. Standart buhar tabloları bu bölgeyi ayrıntılı kapsamaz; doğru değerler için IAPWS-IF97 durum denklemleri gerekir.
LLM'ler ders kitaplarındaki buhar tablolarını ezberlemiş olabilir, ancak kritik nokta yakınında tablolarda olmayan değerleri hesaplamak için denklem çözme yeteneği gerekir. Bu, ezber ile gerçek hesaplama arasındaki farkı ortaya koyar.
Örnek: Claude Opus 4.6, 402°C / 25.3 MPa
Bu süperkritik koşulda Claude Opus entalpi değerini h = 1887 kJ/kg olarak verdi. CoolProp referans değeri: h = 2585.77 kJ/kg. Hata: %27. Model, kritik noktanın hemen üzerindeki bu bölgede sıvı tarafındaki değerlere yakın bir tahmin yaptı — faz geçişinin bulanık olduğu bölgede tamamen yanlış bir interpolasyon.
Token Kullanım Analizi
Token Kullanım Analizi
Tier 1 — Model başına ortalama çıktı token sayısı
Gemini, Opus'tan 16× daha az token kullanarak daha yüksek skor elde etti
Verimlilik Metrikleri
Token kullanımı modeller arasında dramatik farklılıklar gösteriyor. Gemini 3.1 Pro soru başına ortalama sadece 823 token kullanırken, Claude Opus 4.6 soru başına 12.981 token kullanıyor — 16 kat fark. Ancak daha fazla token harcamak daha iyi sonuç vermiyor: Gemini daha az token ile daha yüksek skor aldı.
Bu, iyi tanımlanmış özellik aramaları için "daha fazla düşünme = daha iyi sonuç" varsayımının geçerli olmadığını gösteriyor. Gemini'nin verimli yaklaşımı, bu tür yapılandırılmış sorular için optimal strateji gibi görünüyor.
Temel Bulgular
5 Temel Bulgu
Tier 1 sonuçlarından çıkan en önemli içgörüler
Süperkritik Bölge Ayırt Edici
Tüm modeller süperkritik bölgede zorlandı. En iyi skor %86.7 (GPT-5.4). LLM'ler buhar tablolarını ezberleyebilir ancak kritik nokta yakınında IAPWS-IF97 denklemlerini çözemez.
Muhakeme Modu Kritik
GPT-5.4 muhakeme olmadan: %81. Muhakeme ile: %96.9. 16 puanlık artış. Muhakeme, çapraz kontrol ve öz-düzeltme sağlar.
Token Verimliliği ≠ Doğruluk
Gemini soru başına 823 token ile %97.3 skor aldı. Opus 12.981 token (16×) kullanarak %95.6 aldı. Daha fazla düşünme her zaman daha iyi sonuç vermez.
Araç Kullanımı Her Şeyi Değiştirir
Süperkritik sorularda araçsız %48 alan model, Python/CoolProp ile %100 aldı. Eksik olan bilgi değil, metodoloji.
Hiçbir Model Her Yerde Mükemmel Değil
Her modelin kendine özgü zayıflıkları var: GPT-5.4 ters aramalarda (%88.3), Opus süperkritik (%48.3), MiniMax ters aramalarda (%63.3), DeepSeek zor sorularda (%67.6).
Araç Kullanımının Etkisi
Benchmark'ın en çarpıcı bulgularından biri araç kullanımının etkisi. Süperkritik sorularda araç (Python/CoolProp) erişimi olmadan %48 alan aynı model, CoolProp kütüphanesini çalıştırabildiğinde %100 alıyor. Eksik olan termodinamik bilgisi değil — modeller durum denklemi çözücülere ihtiyaç duyduklarını biliyor, ancak araç erişimi olmadan bunları çalıştıramıyor.
Bu, LLM'lerin mühendislik hesaplamalarında en güçlü olduğu senaryoyu net bir şekilde tanımlıyor: doğru araçlara erişim + akıl yürütme yeteneği.
Muhakeme Modunun Önemi
GPT-5.4'ün reasoning_effort parametresi olmadan skoru: %81. reasoning_effort=high ile: %96.9. Muhakeme modu, modelin çapraz kontrol yapmasını, ara sonuçları doğrulamasını ve interpolasyon hatalarını düzeltmesini sağlıyor. Sıralamadaki tüm modeller en iyi muhakeme modlarıyla test edilmiştir.
Metodoloji
- Referans kütüphanesi: CoolProp 7.2.0 (IAPWS-IF97 formülasyonu)
- Tolerans: ±%2 (endüstriyel mühendislik standardı)
- Soru sayısı: 110 (Tier 1)
- Kategoriler: 8 (Altsoğutulmuş Sıvı, Doymuş Sıvı, Yaş Buhar, Doymuş Buhar, Kızgın Buhar, Süperkritik, Faz Belirleme, Ters Arama)
- Zorluk seviyeleri: Kolay, Orta, Zor
- Değer çıkarma: Claude Sonnet 4.6 ile LLM tabanlı otomatik çıkarma
- Puanlama: Her alt soru bağımsız olarak CoolProp referansına karşı doğrulanır
Sırada Ne Var?
ThermoQA üç katmanlı bir benchmark sistemidir:
- Tier 1: Özellik Aramaları (bu yazı) — 110 soru, buhar tablosu değerleri
- Tier 2: Bileşen Analizi — 101 soru, türbin/kompresör/pompa gibi bileşenlerin termodinamik analizi (yakında)
- Tier 3: Çevrim Analizi — Tam Rankine, Brayton, soğutma çevrimleri (geliştirme aşamasında)
Tier 2 sonuçlarında sıralama tamamen değişiyor — Gemini'nin Tier 1 liderliği çok adımlı muhakemede korunamıyor. Bu analizi bir sonraki yazımızda paylaşacağız.
Kaynaklar
- Veri seti: HuggingFace — olivenet/thermoqa
- Kaynak kod: GitHub — olivenet-iot/ThermoQA
- CoolProp: coolprop.org
- IAPWS-IF97: Uluslararası Su ve Buhar Özellikleri Birliği endüstriyel formülasyonu
Yazar Hakkında
Olivenet Ekibi
IoT ve Otomasyon Uzmanları
KKTC ve Türkiye'de endüstriyel IoT, akıllı tarım ve enerji izleme çözümleri sunan teknoloji ekibi.