
Wenn dieselben Bilder anders gelesen werden
Eine neue Publikation aus dem Umfeld der Tierärztlichen Hochschule Hannover zeigt, wie stark sich die Bewertung von Pickverletzungen bei Puten verschieben kann, wenn Beobachter tausende Bildausschnitte nacheinander beurteilen. Das ist nicht nur ein methodisches Detail. Es betrifft die Frage, wie verlässlich Tierwohlindikatoren künftig erfasst werden können.
von Vivien Kring Quelle Veterinary Research Communications, Institut für Tierhygiene, Tierschutz und Nutztierethologie (ITTN), Stiftung Tierärztliche Hochschule Hannover sowie Christian-Albrechts-Universität zu Kiel. erschienen am 18.03.2026Die Grundfrage ist für die Praxis heikel: Wie verlässlich sind Bonituren von Pickverletzungen, wenn Menschen über längere Zeiträume große Mengen an Bildmaterial sichten? Eine im August 2025 in Veterinary Research Communications veröffentlichte Studie greift genau dieses Problem auf. Die Autoren werteten 24.912 Bildausschnitte von Putenhennen aus. Drei Beobachter mit unterschiedlichem Vorwissen ordneten die Aufnahmen den Kategorien Kopfverletzung, Hautverletzung im befiederten Körperbereich oder keine Verletzung zu. Im Verlauf der Bewertung verschob sich die Einordnung jedoch. Alle drei Beobachter stuften mit der Zeit mehr Bilder als „keine Verletzung“ ein. Am deutlichsten war dieser Effekt bei dem erfahrensten Beobachter, dessen Anteil dieser Kategorie um 5 Prozentpunkte zunahm.
Damit bestätigt die aktuelle Arbeit in deutlich größerem und formal publiziertem Rahmen eine frühere Beobachtung aus Hannover. Bereits 2022 hatte dieselbe Arbeitsgruppe im TiHo-Tagungsband „Aktuelle Arbeiten zur artgemäßen Tierhaltung“ unter dem Titel „Dulling while judging?“ beschrieben, dass sich die Wahrnehmung von Pickverletzungen durch Wiederholungen verändern kann. Der damals nur drei Seiten lange Beitrag war fachlich ein wichtiger Hinweis, hatte aber eher den Charakter einer Vorarbeit. Die jetzt vorliegende Journalpublikation macht aus dieser methodischen Beobachtung ein belastbares Thema für das Tierwohlmonitoring.
Nicht jede Abweichung ist nur ein Schulungsproblem
Die neue Studie ist auch deshalb relevant, weil sie nicht einfach einen Unterschied zwischen Laien und Fachleuten beschreibt. Zwei unerfahrene Beobachter ordneten im Mittel jeweils 13 % der Bilder als Kopfverletzung, 70 % als Hautverletzung und 17 % als ohne Verletzung ein. Der erfahrene Beobachter kam im Schnitt auf 12 % Kopfverletzung, 60 % Hautverletzung und 28 % ohne Verletzung. Noch wichtiger ist aber der zeitliche Verlauf. Die Autoren stellen nicht nur Abweichungen zwischen Personen fest, sondern eine Veränderung innerhalb desselben Beobachters während der fortlaufenden Bildbeurteilung. Genau an diesem Punkt beginnt die praktische Brisanz. Wenn sich Urteile im Lauf langer Sichtungen verschieben, dann reicht es nicht, lediglich auf Erfahrung oder Schulung zu verweisen. Dann wird die Organisation der Bonitur selbst zur Fehlerquelle.
Für die Geflügelhaltung ist das mehr als eine methodische Randnotiz. Pickverletzungen gelten als zentraler Tierwohlindikator. Sie spielen eine Rolle bei der Einschätzung von Herdenzustand, Managementproblemen und möglichem Handlungsbedarf im Bestand. Wenn aber schon die visuelle Einordnung einzelner Bilder vom Bewertungsverlauf beeinflusst wird, stellt sich eine zusätzliche Frage: Wie belastbar sind Datensätze, auf denen spätere betriebliche Entscheidungen oder auch automatische Auswertungssysteme aufbauen.
Warum die Forschung an KI noch nicht am Ziel ist
Gerade hier schließt sich der Kreis zu älteren und neueren Arbeiten derselben Forschungslinie. Bereits 2021 hatte die TiHo-Arbeitsgruppe in der Fachzeitschrift Animals untersucht, wie Trainingsdaten für ein neuronales Netz zur automatischen Erkennung von Pickverletzungen verbessert werden können. Das Ziel war ein kamerabasiertes Warnsystem für die Herdenüberwachung. Die Forscher beschreiben dort ein zentrales Problem: Die anfängliche Übereinstimmung zwischen menschlichen Annotationen und dem trainierten Netzwerk war unzureichend. Erst durch aufwendige Validierungsschritte mit mehrfach geprüften Markierungen ließ sich die Übereinstimmung deutlich verbessern. Verdoppelt wurde der Wert zwar, zugleich betonen die Autoren aber ausdrücklich, dass das System noch nicht in der Lage sei, Pickverletzungen bereits ausreichend sicher zu erkennen.
Das macht die neue 2025er Studie besonders interessant. Sie zeigt nämlich, warum automatisierte Systeme in der Nutztierhaltung nicht einfach daran scheitern, dass Algorithmen noch zu schwach wären. Das Problem beginnt schon früher, nämlich bei der Frage, wie stabil und konsistent die menschlichen Referenzdaten überhaupt sind. Ein System kann nur so gut werden wie die Datengrundlage, mit der es trainiert wird. Wenn Beobachter dieselben Schadbilder im Verlauf langer Sichtungen unterschiedlich lesen, dann bleibt diese Unsicherheit nicht beim Menschen stehen. Sie wandert in den Datensatz hinein. Genau das ist für die Entwicklung robuster KI-Systeme in der Putenhaltung ein Kernproblem.
Dass die Forschung den technischen Weg dennoch weitergeht, zeigt eine 2025 erschienene Dissertation der Leibniz Universität Hannover mit dem Titel „KI-basiertes Echtzeit-Tiermanagementsystem zur Herdenüberwachung in der Mastputenhaltung“. Schon der Titel macht deutlich, wohin die Entwicklung zielt: weg von punktuellen Einzelbewertungen, hin zu einer fortlaufenden kamerabasierten Bestandsüberwachung in Echtzeit. Die Dissertation ist kein TiHo-Paper, sie passt aber in dieselbe fachliche Bewegung, in der Tierwohlindikatoren nicht mehr nur manuell erhoben, sondern digital gestützt erfasst werden sollen.
Parallel dazu arbeitet die TiHo auch weiter an den biologischen Grundlagen des Pickgeschehens. In einer 2024 in Poultry Science erschienenen Untersuchung analysierte dieselbe Arbeitsgruppe das Pickverhalten von Putenhennen im Bereich der Futterpfanne. Die Autoren berichten, dass Tiere mit intaktem Schnabel einzelne Pickhandlungen zum Teil länger zeigten als Tiere mit gekürztem Schnabel, etwa beim Picken auf den Boden oder beim Picken gegen Artgenossen. Für sich genommen beantwortet diese Arbeit nicht die Frage der Bildbewertung. Sie zeigt aber, dass die Forschung in Hannover das Thema von zwei Seiten bearbeitet: Einerseits geht es um das Verhalten im Stall, andererseits um die Frage, wie sich sichtbare Schäden zuverlässig erfassen lassen.
Unterm Strich liefert die aktuelle Publikation also keine neue Managementmaßnahme für den Stallalltag. Sie liefert etwas anderes, das für die Branche nicht weniger wichtig ist: einen nüchternen Hinweis auf die Grenzen menschlicher Bildbeurteilung. Für die Praxis heißt das, dass Bonituren stärker standardisiert, in kleinere Einheiten gegliedert und bei digitalen Anwendungen kritisch auf ihre Datengrundlage geprüft werden müssen. Für die Forschung heißt es, dass der Weg zur automatischen Erkennung von Pickverletzungen weiter offen ist, aber nur dann tragfähig wird, wenn schon die Referenzbewertung belastbar ist. Gerade darin liegt der eigentliche Nachrichtenwert dieser Arbeit. Sie verschiebt den Blick von der technischen Vision zurück auf die Qualität der Beobachtung selbst.










