Thomas Wiegand ist seit 2001 einer der vier Leiter des JVT und nahm den Emmy zusammen mit Gary J. Sullivan (Microsoft), Ajay K. Luthra (Motorola), Professor Jens- Rainer Ohm (RWTH, Aachen und ehemaliger Wissenschaftler am HHI) in Hollywood entgegen. Wiegand hat als Editor des nun erneut preisgekrönten Standards die umfangreiche H.264-Spezifikation verfasst.
Darüber hinaus hat das Team um Wiegand am Heinrich-Hertz-Institut auch erheblich zum technischen Inhalt von H.264 und damit zu diesem Erfolg beigetragen. Die Arbeiten am HHI wurden dazu in vielen Bereichen durch das Bundesministerium für Bildung und Forschung gefördert. Weiterhin betreut das HHI die Referenz-Software des Standards und hat an seiner Etablierung in vielen Bereichen (TV, Mobilfunk und Internet) mitgearbeitet.
Die Verbesserungen durch H.264 haben den Erfolg neuer Video-Anwendungen wie HDTV, Blu-ray Disc, Internet- und Mobile-TV, Video-iPod und -iPhone getragen.
Für den Nutzer ist hier wichtig, mit welcher Geschwindigkeit und Qualität die Videos auf das jeweilige Endgerät kommen. H.264 bewirkt dabei, dass typischerweise weniger als die Hälfte der Bits für ein Video erforderlich sind, als bei seinen Vorgängerstandards.
Die Technology & Engineering Emmy Awards werden einmal jährlich für herausragende technische Leistungen vergeben. Prämiert werden technische Entwicklungen, die den Verbrauchern eine stark verbesserte Nutzung verschiedenster Medienplattformen ermöglichen.
Für die Fachpresse:
Algorithmen zur Videokompression sind wesentliche Bestandteile für die effiziente Übertragung von Videosequenzen. Die Notwendigkeit für Videokompression ergibt sich aus der Diskrepanz zwischen der Bitrate des unkomprimierten Videosignals und der Bitrate der zur Verfügung stehenden Übertragungskanäle. Das unkomprimierte Videosignal besteht aus einer zeitlich geordneten Sequenz von Bildern, die häufig mit 25 Bildern pro Sekunde abgetastet werden. Weiterhin sind für Farbbilder drei Farbkomponenten notwendig, um einen ausreichenden Farbraum darzustellen. Angenommen, jedes Bild einer Videosequenz hat eine Auflösung von 352x288 Bildpunkten und jeder Abtastwert wird mit 8 Bits dargestellt, so entsteht eine Bitrate von mehr als 60 Mbit/s.
Die Komprimierung sorgt dafür, dass in jedem Bild nur Teile, die sich von Bild zu Bild verändern, gespeichert und übertragen werden. Alle gleich bleibenden Bildteile können aus dem vorhergehenden Bild bzw. mehreren vorhergehenden Bilder "vorhergesagt" werden. Damit lässt sich ein Bildinhalt, der zuvor schon einmal sichtbar war und wieder auftaucht, effizient vorhersagen.
Andererseits arbeiten die heutigen Übertragungskanäle bei viel niedrigeren Bitraten, insofern es sich nicht um Broadcastkanäle handelt. Beispielsweise übertragen handelsübliche xDSL- und Kabelmodems nur einige Mbit/s über analoge Telefonleitungen. Für die drahtlose Übertragung sind geeignete Bitraten für Videosequenzen nur eingeschränkt vorhanden. Die drahtlosen UMTS-Netzwerke der dritten Generation übertragen 384 kbit/s bis derzeit max. 7,2 MBit/s (HSDPA), was für Videosequenzen zu wenig ist. Aufgrund dieser eingeschränkten Datenkapazitäten werden hocheffiziente Videokompressionsverfahren benötigt.
Die Verfahren der Videokompression nutzen die Ähnlichkeiten (statistische Abhängigkeiten) aufeinander folgender Bilder bzw. benachbarter Bildbereiche sowie die Eigenschaften des menschlichen visuellen Systems aus. Entsprechende Verfahren sind im Heinrich-Hertz-Institut erweitert und optimiert worden, was zu einer wesentlichen Verbesserung gegenüber allen derzeit existierenden Standards geführt hat.
Der 2003 verabschiedete Standard H.264/AVC (ITU-T Recommendation H.264 | ISO/IEC 14496-10 AVC) stellt einen wesentlichen Fortschritt gegenüber dem MPEG-2-Standard dar. Die um den Faktor 2-3 höhere Kompression bei gleicher Bildqualität wird durch eine Reihe verbesserter Verarbeitungsverfahren erreicht. Hierzu zählen die verbesserte Bewegungskompensation mit kleineren Blöcken (4x4 statt 16x16 Bildpunkte) und erhöhter Genauigkeit (1/4 Bildpunkt statt 1/2 Bildpunkt), der verbesserten Prädiktion mit mehreren Referenzbildern, einer örtlichen Filterung innerhalb der Prädiktionsschleife zur Verminderung von Block-Artefakten und der verbesserten Entropiecodierung.