Das Scoring ist da | Footballschland

Part 2 – Der Abrechnungsabend. Part 1 gibt's hier.

Die erste Runde des NFL Draft 2026 ist durch. 32 Picks, sieben Boards, ein Scoring-Schema – und ein überraschend klares Ergebnis: Zwei der drei Top-Platzierten sind Menschen, der Sieger ist Daniel Jeremiah, und Björn Werner landet mit seinem Bromance-Board auf Platz 2. Die stärkste KI – ChatGPT GPT-5 – erreicht Platz 3 mit 15 Punkten Abstand zur Spitze. Footballschland macht einen soliden fünften Platz und bleibt damit nicht peinlich hinter den Maschinen zurück.

Wir haben das ursprüngliche Feld aus Part 1 (Gemini, Perplexity, ChatGPT, Claude, Footballschland) um zwei erfahrene menschliche Analysten ergänzt: Daniel Jeremiah (NFL Network) als den wohl etabliertesten Draft-Analysten der Liga und Björn Werner (Football Bromance), unseren gebürtigen Deutschen mit Draft-R1-Background und TV-Einsatz in der RTL-Übertragung. Beide haben vor dem Draft einen vollständigen 32-Pick-Mock veröffentlicht – und dienen uns jetzt als menschliche Vergleichsgruppe.

Das FantasyPros-Scoring ist identisch zu Part 1: 10 Punkte pro Pick maximal, 320 Punkte insgesamt. Vier Regeln, die stacken. Die Regeln im Detail stehen weiter unten.

Gesamt-Ergebnis – Runde 1, alle 32 Picks

🥇 · Daniel Jeremiah (NFL Network) · 135 Pkt — R1 Slot 42 · R2 PosRank 76 · R3 Team+Pos 14 · R4 Team+Spieler 3
🥈 · Björn Werner (Football Bromance) · 125 Pkt — R1 Slot 39 · R2 PosRank 63 · R3 Team+Pos 18 · R4 Team+Spieler 5
🥉 · ChatGPT GPT-5 (OpenAI) · 120 Pkt — R1 Slot 37 · R2 PosRank 56 · R3 Team+Pos 24 · R4 Team+Spieler 3
4 · Claude Opus 4.7 (Anthropic) · 115 Pkt — R1 Slot 39 · R2 PosRank 58 · R3 Team+Pos 14 · R4 Team+Spieler 4
5 · Footballschland · 102 Pkt — R1 Slot 31 · R2 PosRank 52 · R3 Team+Pos 16 · R4 Team+Spieler 3
6 · Gemini 2.5 (Google) · 89 Pkt — R1 Slot 25 · R2 PosRank 54 · R3 Team+Pos 8 · R4 Team+Spieler 2
7 · Perplexity (Grok 4.1) · 58 Pkt — R1 Slot 19 · R2 PosRank 31 · R3 Team+Pos 6 · R4 Team+Spieler 2

Maximal möglich pro Board: 320 Punkte.

Daniel Jeremiah gewinnt nicht mit einem einzigen spektakulären Pick, sondern mit Systematik. Die 76 Punkte auf Regel 2 (Positional Rank) sind das höchste Einzelergebnis des gesamten Feldes – DJ hat nicht nur die richtigen Spieler identifiziert, sondern auch die Rangfolge zwischen ihnen erstaunlich gut getroffen. Wenn im echten Draft QB1 Mendoza ist, QB2 Simpson, OT1 Fano, OT2 Mauigoa – hatte Jeremiah das genauso.

Björn Werner punktet anders. Nur 63 auf PosRank, aber die höchsten R4-Treffer (Team + Spieler) im gesamten Feld: 5 Volltreffer, bei denen genau der Spieler zum genau vorhergesagten Team ging – auch wenn der Pick-Slot daneben lag. Wenn jemand die GM-Hirne der Liga liest, dann er.

ChatGPT hat die Team-Struktur dominiert: 24 Punkte auf Regel 3 (Team + Position) – absoluter Top-Wert. Das Modell hat den Positionsbedarf der Teams besser modelliert als jedes andere Board, inklusive der Menschen. Das ist genau die Stärke, die wir in Part 1 auf Basis der 32 korrekt gesetzten Teams prognostiziert hatten.

Footballschland landet mit 102 Punkten auf Platz 5 – besser als Gemini und Perplexity, aber hinter ChatGPT und Claude. Das Bauchgefühl ohne Web-Recherche hat sich nicht blamiert, aber auch nicht gegen die Spitzenmodelle durchgesetzt.

Gemini mit 89 Punkten zahlt den Preis für die verschobene Post-Trade-Order aus Part 1. Die Picks waren inhaltlich oft plausibel, aber an den falschen Teams – das kostet auf Regel 3 und 4 dramatisch.

Perplexity bleibt mit 58 Punkten das Schlusslicht. Die Struktur-Brüche aus Part 1 (vier Picks an bereits pickende Teams, ab #15 komplett verrutschte Order) schlagen voll durch.

Top-10-Ranking – die Nahaufnahme

Weil der Draft nach zehn Picks schon 90 Prozent aller interessanten Storys geliefert hat, haben wir dieselben Regeln zusätzlich nur auf die Top-10-Picks jedes Boards angewendet. Das Ergebnis sieht deutlich anders aus:

🥇 · Daniel Jeremiah (NFL Network) · 54 Pkt — R1 Slot 20 · R2 PosRank 28 · R3 Team+Pos 4 · R4 Team+Spieler 2
🥈 · Claude Opus 4.7 (Anthropic) · 51 Pkt — R1 Slot 21 · R2 PosRank 24 · R3 Team+Pos 4 · R4 Team+Spieler 2
🥉 · Footballschland · 47 Pkt — R1 Slot 20 · R2 PosRank 16 · R3 Team+Pos 8 · R4 Team+Spieler 3
4 · Perplexity (Grok 4.1) · 45 Pkt — R1 Slot 17 · R2 PosRank 20 · R3 Team+Pos 6 · R4 Team+Spieler 2
4 · ChatGPT GPT-5 · 45 Pkt — R1 Slot 17 · R2 PosRank 18 · R3 Team+Pos 8 · R4 Team+Spieler 2
6 · Björn Werner (Football Bromance) · 41 Pkt — R1 Slot 13 · R2 PosRank 20 · R3 Team+Pos 6 · R4 Team+Spieler 2
7 · Gemini 2.5 · 24 Pkt — R1 Slot 9 · R2 PosRank 10 · R3 Team+Pos 4 · R4 Team+Spieler 1

Maximal möglich pro Board: 100 Punkte.

Das Bild verschiebt sich auf vier Arten:

Claude Opus 4.7 überholt Björn Werner und ChatGPT und landet auf Platz 2 direkt hinter Jeremiah. Die höchste Slot-Accuracy im gesamten Feld (21 Punkte auf R1) kommt aus den ersten zehn Picks – Claude hat oben geliefert.
Footballschland klettert auf Bronze. 20 Slot-Punkte zeigen: Die ersten zehn Picks haben wir so gut gelesen wie Daniel Jeremiah. Erst in den späten Picks bricht der Vorsprung weg.
Perplexity rehabilitiert sich – vom Schlusslicht im Gesamt-Ranking auf Platz 4 punktgleich mit ChatGPT. Die strukturellen Fehler der Perplexity-Order passieren erst ab Pick 15. Die Top 10 ist überraschend solide.
Björn Werner bricht auf Platz 6 ein. Nur 13 Slot-Punkte in den Top 10 – Werner hat seine 125 Gesamtpunkte vor allem in der zweiten Runden-Hälfte aufgebaut. Seine Trade-Vorhersagen in den mittleren Picks und präzise Late-Round-Einschätzungen kompensieren ein schwächeres Top-10-Bild.

Die Lehre: Top 10 ist für KIs machbar. Ab Pick 10 aufwärts verlieren sie gegen die Menschen, die den Wert von Beziehungs-Intel und Team-Fit-Gespür ausspielen können. Daniel Jeremiah baut genau dort seinen Vorsprung auf – 81 der 135 Punkte holt er jenseits der Top 10.

Die sieben Boards im Einzelnen

🥇 Daniel Jeremiah – die Benchmark funktioniert

135 Punkte, Platz 1 in beiden Wertungen, alle vier Regeln im gesunden Bereich. Jeremiah war seit Monaten auf seinem Final-Mock unterwegs – und hat das Feld damit verdient angeführt. Besonders stark: Die korrekte Identifikation der Positional Ranks (QB1, QB2, OT1, OT2, WR1, WR2 …). Wer ihm gefolgt ist, hat die Richtung des Drafts besser verstanden als die meisten GMs dachten.

Bemerkenswert: Jeremiah hat vier Trades vorhergesagt, darunter Saints-rauf-auf-3 und Cardinals-runter-auf-8. Die sind nicht so passiert – aber er hat die richtigen Spieler trotzdem oft bei den richtigen Teams, weil er die Need-Profile sauber getroffen hat.

🥈 Björn Werner – der Tiefenpunkter

125 Punkte, Platz 2, 5 Volltreffer auf Regel 4 (so viele wie niemand sonst). Werner hat in der zweiten Runden-Hälfte punktgenau aus der Realität heraus geschrieben – Cashius Howell zu den Bills, Avieon Terrell zu den Dolphins, T.J. Parker zu den Chiefs. Das sind keine Consensus-Picks, das ist Zugang zu NFL-Denken.

Die relative Top-10-Schwäche (41 Pkt, Platz 6) zeigt: Werner hat die frühen Picks nach Trend-Gefühl gesetzt, die späten nach GM-Intel. Ein Muster, das zu seinem Hintergrund als Ex-Profi passt: Die GMs der zweiten Draft-Hälfte waren seine Peers.

🥉 ChatGPT GPT-5 – der Struktur-Sieger unter den KIs

120 Punkte, Platz 3, höchster R3-Wert des Feldes (24 Punkte). GPT-5 hat die Team-Strategie-Ebene besser modelliert als jedes andere Board. Wenn die Raiders einen QB brauchen, ein Team eine OT-Krise hat oder ein Front-Office einen Edge-Rusher anvisiert – GPT-5 hat das erstaunlich oft erkannt, auch ohne den richtigen Spieler zu tippen.

Die Schwäche liegt auf Regel 4: nur 3 Volltreffer. Das Modell weiß, welche Position ein Team zieht – aber nicht welchen konkreten Spieler. Das ist die Lücke zwischen Consensus-Boards (daran orientiert sich die KI) und tatsächlichem Draft-Room-Intel.

4. Claude Opus 4.7 – der Konsistente

115 Punkte gesamt, aber Platz 2 in der Top 10. Claude hat die Slot-Accuracy am stärksten kapitalisiert (39 Gesamt, 21 in Top 10 – beide Bestwerte). Wo ChatGPT Teams modelliert, modelliert Claude Spieler: Die korrekten Positional Ranks und die korrekten Picks zu den korrekten Slots.

Claude hat im Gegensatz zu ChatGPT drei Trade-Misses eingebaut (Picks 10, 29, 30 mit Original-Team-Holdern), die Punkte kosten. Wer bei Claude liest, bekommt einen tiefen Spieler-Radar – aber verpasst die Trade-Bewegungen.

5. Footballschland – solide, nicht spektakulär

102 Punkte, Platz 5 gesamt, Bronze in der Top 10. Ohne Web-Research, ohne Consensus-Daten, ohne internes Intel – nur Bauchgefühl aus zu vielen College-Spielen. 20 Slot-Punkte in den ersten zehn Picks zeigen: Oben konnten wir mithalten. Hinten verliert das Gefühl gegen die System-Modelle der KIs.

Die wichtigste Erkenntnis für uns: Footballschland hat sich nicht blamiert. Drei KIs liegen hinter uns. Das Bauchgefühl ist zwar nicht Jeremiah, aber besser als Gemini und Perplexity.

6. Gemini 2.5 – die Strukturschuld bleibt

89 Punkte. Gemini zahlt den Preis für die aus Part 1 dokumentierte Post-Trade-Fehlordnung ab Pick 7: Broncos, Colts, Jaguars, Packers, Falcons, Bengals tauchen in R1 auf, obwohl sie ihre Firsts alle getradet haben. Die inhaltlich guten Picks (Carnell Tate, Kadyn Proctor, Sonny Styles) landen an falschen Teams und verlieren auf Regel 3 und 4.

Ironie: Auf Regel 2 (PosRank) liegt Gemini mit 54 Punkten nur knapp hinter Claude. Strukturell kaputt, inhaltlich okay.

7. Perplexity (Grok 4.1) – und plötzlich ein Platz 4 in Top 10

58 Punkte gesamt, aber Platz 4 in der Top 10 mit 45 Pkt – punktgleich mit ChatGPT. Das ist die größte Rangverschiebung des ganzen Scorings. Perplexitys Problem war nie die Top der Runde – da war Grok 4.1 solide. Die strukturellen Brüche in der zweiten Runden-Hälfte (Picks an Teams ohne R1-Pick, verrutschte Order ab #15) haben den Gesamt-Score killed.

Wer nur auf Picks 1–10 guckt, hätte Perplexity unter den Top-Performern eingeordnet. Wer die ganze Runde abbildet, sieht das Schlusslicht.

Drei Takeaways

1. Menschen schlagen die Maschinen – aber knapp. Der Abstand zwischen dem Sieger (Jeremiah, 135) und der stärksten KI (ChatGPT, 120) beträgt 15 Punkte, knapp 5 Prozent des Maximums. Eine oder zwei Trade-Vorhersagen in die andere Richtung – und ChatGPT hätte vor Werner gelegen. Der Vorsprung der Top-Menschen kommt vor allem aus NFL-Insider-Gesprächen, Consensus-Beobachtungen und jahrzehntelangem Team-Fit-Gefühl, nicht aus fundamental besserer Spielerbewertung.

2. Top 10 ist KI-Territorium. Claude auf Platz 2, Perplexity gleichauf mit ChatGPT, Gemini immerhin mit 24 Punkten. Die ersten zehn Picks sind datengetriebener als die späten – Consensus-Rankings, Big Boards und Position-Need-Analysen reichen weit. Die Menschen ziehen erst danach weg.

3. Struktur schlägt Inhalt. Gemini und Perplexity hatten oft richtige Spieler, aber an falschen Teams oder an falschen Pick-Nummern. Das zeigt: Im Draft-Scoring ist die Team-Zuordnung genauso wichtig wie die Spielerwahl. ChatGPT und Claude haben die 32-Team-Post-Trade-Order respektiert – und landen entsprechend weiter vorne.

Nerd-Corner: ein Bugfix, den wir offenlegen müssen

Zwischen der ersten Scoring-Runde (freitagnacht, live gestreamt gegen die Picks 1–16) und der finalen Auswertung haben wir in unserem eigenen Scoring-Script einen Fehler entdeckt und behoben:

Die Funktion normTeam, die Team-Namen für den Vergleich normalisiert, hatte eine falsche Regex. Aus "Giants via CIN" wurde "cin" statt "giants" – die Regex strippte alles vor dem „via" statt alles danach. Das hat Boards benachteiligt, die Trade-Annotationen anders schrieben als die offizielle Draft-Order – zum Beispiel Footballschland selbst, das "Rams via Falcons" schrieb, wo die NFL "Rams via ATL" auflistet.

Der Fix (Commit `1351e4a`) hat die Scores aller Boards um 0–7 Punkte nach oben korrigiert. Die Rangfolge der KI-Boards hat sich dadurch nicht geändert. Perplexity hatte keine Trade-Picks mit korrekten Teamnamen getippt und bleibt unverändert bei 58 Punkten.

Die vorherigen (buggy) Zahlen der KI-Boards nach 30/32 Picks, zum Abgleich:

ChatGPT GPT-5 — vorher 103 Pkt · jetzt 120 Pkt
Claude Opus 4.7 — vorher 97 Pkt · jetzt 115 Pkt
Footballschland — vorher 95 Pkt · jetzt 102 Pkt
Gemini 2.5 — vorher 81 Pkt · jetzt 89 Pkt
Perplexity (Grok 4.1) — vorher 53 Pkt · jetzt 58 Pkt

Das ist unkomfortabel, aber transparent ist besser als wegschauen.

Methodik & Disclaimer

Scoring-Regeln: identisch zu Part 1 (FantasyPros-Schema). Regel 1 Slot Accuracy (max. 4 Pkt, abgestuft nach ±0/±1/±2/±5), Regel 2 Positional Rank (max. 3 Pkt bei Draft in R1), Regel 3 Team + Position (2 Pkt), Regel 4 Team + Spieler (1 Pkt). Alle Regeln stacken.
Top-10-Auswertung: identische Regeln, nur auf die ersten zehn Picks jedes Boards angewendet. Positional Ranks werden innerhalb der Top 10 neu berechnet (der erste QB in der Top 10 ist QB1, nicht QB-Gesamt-1).
Menschliche Boards: Daniel Jeremiahs Final Mock (NFL Network, 22. April 2026) und Björn Werners Football-Bromance-Mock. Beide vor dem Draft veröffentlicht.
Team-Name-Normalisierung: „via X"-Suffixe werden entfernt. Sowohl "Jets" als auch "Jets via IND" oder "Jets via Colts" zählen als Treffer für den Jets-Pick.
Positionen: Abweichende Schreibweisen werden normalisiert (SAF→S, OG→G, DL→DT, IOL→G, IDL→DT, DB→CB). Der primäre Position-Tag zählt (bei "LB/EDGE" nur LB).
Das Script: scripts/score-mock-drafts.mjs, Output in scripts/scoring-results.md. Die echte Draft-Order liegt in scripts/nfl-draft-2026-actual-r1.json, die Analysten-Boards in scripts/analyst-mocks.json. Alles im Repo, alles nachrechenbar.

Wer das Scoring selbst nachfahren will, klont das Repo, lässt node scripts/score-mock-drafts.mjs laufen – und kann sich eigene Boards hinzufügen. Bug-Reports und Verbesserungsvorschläge gerne per Pull Request.

Part 1 gibt's hier, wenn du die Boards vor dem Draft nochmal durchgehen willst. Danke fürs Mitraten – und bis zum nächsten Draft, wenn wir wissen wollen, ob Jeremiah den Titel verteidigt.

Und jetzt heißt es: Daumen drücken für unsere deutschen Jungs in den Runden 2 bis 7 und danach!

Das Scoring ist da: Die Menschen haben die Maschinen geschlagen