Ein Team der Davis University in Kalifornien hat einen Prozessor mit 1.000 Kernen entwickelt, der die unglaubliche Durchsatzrate von 1,78 Billionen Instruktionen pro Sekunde erreicht. Das Rechenmonster enthält dabei „nur“ 621 Millionen Transistoren.

Anders als andere Versuche, die lediglich auf knapp 300 Kerne kamen, wurde der KiloCore-Chip nicht nur designed, sondern er läuft auch schon. IBM (wer sonst) hat ihn mit seiner 32-nm-PD-SOI-CMOS-Technology (was sonst) in Silizium gegossen.

Die grundlegende Architektur ist MIMD (Multiple Instruction / Multiple Data) und jeder der mit einer siebenstufigen Pipeline gesegneten Cores verfügt über einen Satz an 72 Befehlen, die jeder in einem einzigen Taktzyklus ausgeführt werden können. Keiner dieser Befehle ist Algorithmen-spezifisch  was den KiloCore-Chip sehr von an GPUs angelehnten Lösungen unterscheidet. Der extreme Durchsatz wird bei einem Takt von 1,78 GHz bei 1,1 V erreicht. Bei 0,84 V und einem auf 1 GHz reduzierten Takt benötigt der Chip nur eine Leistung von 13,1 W. Die optimale Energie pro Befehl mit nur 5,8 pJ/Op wird bei 0,56 V und 115 MHz erzielt.

Jeder Core wird unabhängig versorgt und kann daher auch einzeln abgeschaltet werden, sodass ohne die Ausführung von Befehlen lediglich der Leckstrom verbraucht wird. Statt auf eine Cache-Architektur zu setzen kann jeder Kern selbst Befehle und Daten hierarchisch speichern  entweder im lokalen Speicher oder in dem benachbarter Kerne, auf Chip-unabhängigen Speicher-Modulen oder anderen Speichermedien.

Das Wurmloch-Routing bezieht sich unter anderem darauf, dass Nachrichten von benachbarten oder in der Nähe befindlichen Kernen über ein integriertes Netzwerk geroutet werden. Weiter entferntere Kerne der Prozessor-Matrix kommunizieren paketorientiert. Vom Programmierer aus werden diese als „Würmer“ gesehen. Jeder Kern verfügt über nord-süd-west-ost Kommunikations-Buffer plus einem fünften Kanal für den Host-Prozessor-Verkehr. Der maximale Durchsatz beträgt hier 45,5 Gb/s pro Router sowie 9,1 Gb/s pro Port bei 1,1 V.