CRC32 algorithm checksum tools und dessen Ungenauigkeiten

  • Weiss nicht genau wo dieses Topic am rechten Platz wäre, ich fand dass es ein ernstes Thema über eine Sache ist die Fansubs betreffen.

    Da ich doch einige Sachen falsch machte oder es Unrichtigkeiten gab (wie man dem auch sagen will) habe ich alles komplett überarbeitet und bin mir diesmal relativ sicher dass das Meiste was ich schreibe auch richtig ist. ich musste auch erst alles rausfinden da man kaum auf brauchbare Infos stösst im Netz bezüglich HDD relavanten Spezialbereichen. Ist halt doch teilweise starkes IT Wissen was nur wenige wirklich wissen.

    Was ist CRC32?
    Wie vielleicht viele Leute wissen haben viele Fansubs ein Code z.B. [85F64CD9] eingebaut. Für alle die es nicht wissen, das ist keine Fantasiezahl sondern ist dazu da die Fileintegrität mithilfe einer mathematischen Summe nachzuprüfen (mehr dazu unter Wikipedia http://de.wikipedia.org/wiki/Zyklische_Redundanzpr%C3%BCfung ). Die Buchstaben sind selbstverständlich auch Zahlen aber keine Dezimalzahlen im eigentlichen Sinne denn sie stehen für eine Zahl wie z.B. "11", dadurch ist es möglich z.B. ein 20er System zu haben, sinnvoll um die Anzahl Ziffern klein zu halten.

    Das ist nützlich um zu sehen ob bei einer Übertragung irgendwelche Bits verloren gegangen sind. Sollte das der Fall sein dann wäre die Summe welche euer Tool errechnet hatte nicht identisch mit der Summe welche [......] im Kästchen steht.

    Leider ist nicht jeder Host ein genauer Datenübermittler, dabei gibts in der Tat von Host zu Host Unterschiede. Manche sind meistens sehr genau und andere nicht sosehr. Es ist auch empfehlenswert nicht zu downloaden wenn ein Server nahezu überlastet ist. Das tut weder dem Server gut noch euren Daten, da er dabei fast immer Fehler macht. Deswegen ist erste Regel immer dass ein Host nicht überlastet wird, und falls das passiert dann sollte man stoppen und es zu einer anderen Zeit versuchen.

    Falls nur ein Bit defekt ist kann der Player deswegen crashen. Notfalls gäbe es noch ein Debugmode oder man kann die fehlerhaften Sektoren überspringen aber es ist grundsätzlich immer am besten wenn die Daten intakt sind, dann muss man auch nichts tun um dem entgegenzuwirken.


    HDDs was taugt was?

    Intern: Da empfehle ich ganz einfach eine schnelle SSD mit ca. 128-256 GB Speicher für das System, da gibts etliche SSDs, kann da jetzt nichts empfehlen, ist nur wichtig dass die SSD GARBAGE collection und TRIM beeinhaltet. Danach hängt man noch eine normale 2 TB HDD ran, viele HDDs sind hier empfehlenswert, etwas womit ich bisher sehr zufrieden bin ist die 2TB WD Caviar Green, super Preis und angemessene Performance. Fast alle internen HDDs sind grundsätzlich brauchbar und sollten genau arbeiten da die Hersteller hier besonders darauf acht geben dass sie richtig arbeiten, da sie oft als Systemlaufwerke verwendet werden (bei externen selten der Fall).

    Optimal wäre dann noch eine externe HDD die man als Backup HDD für die interne 2TB HDD verwendet, dann sollte man perfekt gewappnet sein.

    Externe HDD:

    Generel muss ich zu den externen HDDS sagen dann man echt aufpassen muss, denn offenbar stecken die Hersteller hier gerne schlechte Ware rein, oftmals (z.B. WD Elements) weiss man nicht einmal was da genau drinn ist und das Resultat musste ich am eigenen Leibe erfahren. Bis jetzt kann ich nur die WD Studio uneingschränkt empfehlen da alle anderen irgendwelche Macken hatten bei der Stabilität und/oder unter bestimmten Bedinungen. Wie ich das rausgefunden habe ist mithilfe des CRC32 Tools. Welches dadurch instabil arbeitete und bei demselbem File oft verschiedene Resultate lieferte, da die HDD ungenau arbeitete. Was ärgerlich ist wenn Videfiles abstürzen und allgemein Daten korrupt werden. Aber zum Glück kann man schlechte HDDs ebenfalls mit diesem Tool sichtbar machen, es ist also echt ein extrem nützliches Tool.

    Interface:
    USB 2.0 Wird von fast allen verwendet und ist mit Abstand am meisten vertreten. Ist normalerweise zuverlässig jedoch extrem langsam, vielmehr als 35 MBps liegt nicht drinn, die meisten HDDs wären erheblich schneller, die Hersteller tun aber vielfach mit Absicht eine "schlechte" und langsame HDD rein weil es ja sowieso nicht schneller geht. Leider aber ist dann auch das Risiko grösser dass man schlechte Ware erwischt. Deswegen haben USB 2.0 HDDs einen relativ schlechten Ruf bei der Datensicherheit... also man sieht. von irgendwo kommt es. Es ist aber nicht direkt das USB 2.0 Interface daran schuld dass es Korruptionen hatt, sofern der PC einen angemessenen USB Controller hatt (fast überall der Fall).

    USB 3.0: Nur die allerneusten PCs haben dieses Interface. Es soll bis zu 480 MBps erreichen, obs aber wirklich so ist, keine Ahnung. Sollte sich in real leicht schneller als das alte eSATA 300 einreihen, jedoch gibts bereits wieder schnellere SATAs, wobei das NUR bei SSDs Sinn macht.

    eSATA (2): Das wohl beste und schnellste Interface mit ca. 300 MBps (600 MBps bei SATA III 600), es bietet ausserdem, wie auch Ethernet, eine gewisse Redundanzprüfung und ist damit nicht nur schneller als USB sondern auch noch sicherer. Es kann aber dennoch Korruptionen geben weil die Prüfung gilt nur fürs Übertragen, aber falls eine HDD fehlerhaft schreibt dann wird das nicht unbedingt erkannt. Eine HDD sollte man immer auch manuell auf Fehler überprüfen falls Verdacht von Instabilität besteht.

    Firewire u.a: Liegen beim Speed meistens zwischen USB 2.0 und eSATA. nette Zusatzoption besonders für Mac User aber nicht unbedingt das beste, jedoch meistens besser als USB 2.0.

    Verbatim mit Samsung HDD 1 TB, quadinterface: Urteil: Mangelhaft

    Transferspeed:
    ca. 70 Mbps unter eSATA (leider etwas instabil)
    cs. 35 MBps unter USB 2.0 (arbeitet jedoch präzise)

    Problem dieser HDD ist, sie ist zwar sehr schnell wenn mit eSATA verwendet, jedoch wird sie bei diesem Speed leicht instabil und kann ab und zu ein Fehler machen. Bei CRC32 passieren unter eSATA mit 50% iger Wahrscheinlichkeit Fehler. Jedoch arbeitet sie mit USB 2.0 sehr genau und macht dort keine Fehler mehr, dafür ist sie nur noch halb so schnell.

    WD Elements 1.5 TB (u.a. Versionen) : Urteil Schlecht

    Transferspeed: ca. 30 MBps (unterhalb USB 2.0 Limit)


    Diese HDD war für mich eine grosse Enttäuschung. Sie machte mir ein grosser Anteil aller Daten korrupt. Beim CRC32 Test war sie erbarmungslos durchgefallen. Dabei ist das Risiko grösser, je grösser die Daten sind. Auch sonst ist sie alles andere als überzeugend, Hände weg.

    WD Studio II Array RAID 0 2 TB: Urteil GUT!

    Transferspeed: ca. 100 MBps (eSATA zwingend benötigt)


    Die HDD arbeitet sehr genau und es waren mit CRC32 keine Fehler zu erkennen. Was eigentlich verwunderlich ist wenn man bedenkt wie schlecht vorallem die USB HDD abgeschnitten hat. Ich denke bei einer "Profi" HDD wie dieser möchten die Hersteller keine zweifelhafte Sachen einbauen, und das Resultat ist sichtbar. Die Fehleranfälligkeit ist sogar leicht höher da Stripping ein anspruchsvollerer Prozess ist als eine einfache redundante 1:1 HDD.

    Diese HDD ist von Haus aus im RAID0 Stripping Mode d.h. dass die beiden je 1TB HDDs zusammen arbeiten (als einzelnes logisches Laufwerk, dadurch wird auch Kapazität verdoppelt) was wesentlich höhere Leistung erzielt. Da einzige Kehrseite der Medaille ist dass falls eine der HDDs ausfällt, dann ist auch die andere hin, da sie alle Daten untereinander aufteilen. Ich empfehle die HDD als Backup von der internen 2TB HDD und auch als aktive HDD für fast alle Bereiche. Jedoch muss sie zwingend an ein eSATA angeschlossen werden, ansonsten kann man die Leistungsfähigkeit nicht auskosten und es wäre nutzlos sowas schnelles zu verwenden.

    RAID1, also Mirroring, ist mit diesem Array zwar auch möglich, empfehle ich aber eher nicht und zwar aus dem Grund dass Mirroring kein richtiges Backup ersetzen kann, weil es auch Fehler "mitkopiert": Besser ist wenn man alle paar Monate, oder sobald etwas wichtiges ergänzt wurde, es auf eine zweite HDD backuped, am besten Manuell, dann werden keine Fehler mitkopiert. Auch verliert man dabei 50% der Kapazität für eine eher zweifelhafte Zusatzsicherheit, aber muss jeder selber wissen.

    http://img828.imageshack.us/f/hddstuff.jpg/
    Bei mir sieht die HDD Anordnung so aus, was ich hier noch sagen möchte ist, falls man eine WD Array Studio auf Windows verwenden möchte muss man bei Xiqushra die grosse Hauptpartition anklicken, danach das gesammte Volumen löschen (Vorsicht dass man nichts falsches erwischt!!) und danach neu in NTFS formatieren, dabei sollte man nicht schnell formatieren weil vorher bereits eine falsche Formatierung drauf war. WD Studio Arrays sind von Haus aus mit HFC+ formatiert, das ist ein Unix-Mac-Format welches inkompatibel ist mit Windows. Die 2TB Version braucht dafür ca. 5 Stunden (das ist für eine HDD dieser Grösse relativ schnell). Wennmöglich sollte man die HDD im GUID Modus lassen, dieser Modus wird gebraucht für 64 Bit Systeme, ist aber auch mit einigen 32 Bit Systemen (Vista u.a.) kompatibel. Normalerweise verwendet man bei 32 Bit MBR, das ist aber mittlerwele veraltet.


    CRC 32 Check: Mit diesem Test hatte ich viele Stabilitätsprobleme, was, wie ich später herausfand, auf die HDDs zurückzuführen waren, deswegen auch der Titel.

    Falls man mit instabiler HDD dennoch ein CRC32 Test durchführen möchte würde es nur so gehen:

    Erste Runde inkorrekt: 1.2.5.8.9,11.12.13,16.17.18.20.21.22.24.26.31.32
    Zweite Runde inkorrekt: 2.4.5.6.7.8.9.11.12.15.18.19.22.24.26
    Dritte Runde inkorrekt: 1.2.3.5.11.12.13.15.22.24.26.28
    Vierte Runde inkorrekt: 2.7.8.9.10.12.15.17.20.21.22.25

    Immer noch kein OK erhalten: 12.22. Deswegen einzeln 4x durchgecheckt.
    12 und 22 bekamen nun ebenfalls ein OK Nun stellt sich heraus dass alles OK ist, was durch den Player indirekt bestätigt wurde da er kein einziges mal crashte.

    Falls eine HDD derart ungenau arbeitet dass man regelmässig komplett Korruptionen hatt und fast die Hälfte der Dateien auch nach endlos vielen Checks fehlerhaft sind, dann kann man die HDD nur noch fortwerfen, das Zeugs verusacht nichts als Probleme. Eine HDD ist halt nicht einfach "kaputt oder nicht kaputt" sie kann auch irgendwo dazwischen "rumhühnern": Das CRC32 checktool weist (mit schlechter HDD) ungefähr 50% failure rate auf. Man kann aber davon ausgehen dass die Daten korrekt sind falls es nur 1x korrekt war, da eine zufällig richtiger Treffer so gut wie ausgeschlossen ist bei mehreren Millionen Möglichkeiten.

    Für Tipps und Tricks bin ich natürlich dankbar und für alle Verbesserungsvorschläge betreffend diesem Thema.