Common Voice

Dass Amazon über Echo, Apple über Siri, Microsoft über Cortana oder Google über Voice Match Sprachdaten sammeln – mit oder ohne Einverständnis der Nutzerinnen und Nutzer – ist bekannt und geht immer wieder durch die Presse. Diese Daten nutzen die Firmen, um KI weiterzuentwickeln, Werbung zu optimieren oder Übersetzungstools zu verbessern. Aber die Daten bleiben bei den Firmen und werden auch nur von diesen genutzt.

Mit seinem Projekt Common Voice stellt Mozilla allen Forscherinnen und Forschern eine Sprachdatenbank zur freien Verfügung. Jeder kann diese Datenbank nutzen und jeder kann mithelfen, die Datenbank zu füllen. „Der mehrsprachige Datensatz von Common Voice ist bereits der größte öffentlich verfügbare Sprachdatensatz seiner Art“ (Quelle).

Auf der Webseite von Common Voice findet man viele Informationen zu diesem großartigen Projekt: Welche Sprachen bisher erfaßt wurden, wieviele Daten in welchen Sprachen, woher die Texte kommen (Textspenden, gemeinfrei), welche Ziele das Projekt verfolgt etc.

Selber zu helfen ist ganz einfach. Man benötigt einen Computer, Tablet oder Smartphone mit Mikrophone und Kopfhörern oder Boxen. Dann kann man entweder Texte einsprechen oder gesprochene Texte bestätigen. Die Texte bestehen meist aus einem eher kürzeren Satz. Man spricht oder bestätigt immer fünf Texte, dann kann man die eigenen Texte noch einmal kontrollieren und bei Bedarf neu einsprechen und zum Schluss abschicken. Das kann man beliebig oft wiederholen. Die Bedienung ist wirklich sehr einfach und intuitiv und es benötigt wirklich nicht viel Zeit.

Und die Datensätze stehen für inzwischen 40 Sprachen als mp3 unter der CC-0-Lizenz zur Verfügung und können heruntergeladen werden. Für Deutsch sind das mit dem heutigen Tag beispielsweise 14 GB mit insgesamt 538 Stunden (davon 483 bestätigt) von 8 460 Sprecherinnen und Sprechern. Übrigens: Dialekte und Nichtmuttersprachler sind sehr willkommen, um die Vielfalt der Sprache abzubilden, und es gibt bisher wesentlich weniger Frauen- als Männerstimmen.

Man kann sich auch ein Konto erstellen, dann werden Daten wie Geschlecht oder Dialekt zusätzlich – anonym – erfaßt. Und man erhält seine eigene Statistik.

Tolle Sache, um der Forschung und interessierten Nutzerinnen und Nutzern zu helfen, automatisiertes Übersetzen zu verbessern, Sprache zu analysieren, KIs zu füttern etc...

In letzter Zeit gibt es viele Spam-Kommentare, deswegen habe ich die Kommentarfunktion erst einmal abgeschaltet.

Einen Kommentar schreiben

Kommentar von Thomas |

Hallo, guter Tipp, genau das habe ich gerade gesucht. Beste Grüße, Thomas

Kommentar von Kristina |

Sehr genialer Tipp. Das brauchte ich! Vielen lieben Dank!

Kommentar von Alex |

DANKE! Ich hab auch eben danach gesucht und es klappt bestens.

Kommentar von Emanuel P. |

Bin gespannt, Backend ist leicht aber Frontend sind viele am Grübeln wegen des 401 Fehlers und es existiert leider keine gute Anleitung wi man 2FA fürs Frontend richtig konfiguriert (speziell Template Anpassung und security.yml)

Antwort von Anika Strobach

Danke für den Kommentar. Ich hoffe, ich habe bald die Zeit dazu!

Kommentar von Gerhard Hirt |

Guten Tag
Was kann ich tun, wenn z.B. bei der 7. Pos. die Meldung Zeitüberschreitung kommt?
Was ist der vermutliche Grund für diese Zeitüberschreitung.

Danke für eine kurze Antwort
Gerhard

Antwort von Anika Strobach

Vielen Dank für den Kommentar.

Die Zeitüberschreitung liegt normalerweise daran, dass die Internetverbindung zu langsam oder gestört ist, entweder bei Ihnen selber oder bei dem Server, auf dem Ihre Webseite liegt. Oft klappt es zu einem anderen Zeitpunkt.

Mehr kann ich leider aus der Ferne und mit den wenigen Infos nicht sagen.

Kommentar von Karsten |

Hallo,
ich habe das plugin installiert und aktiviert.
In einem Beitrag per code -> php-> pass = XXXX eingetragen
Es erfolgt keine Abfrage!
Codeschnipsel als weißes Feld!
Was mache ich falsch?
Der Beitrag ist einfach nur ein Link, den man nach Eingabe des richtigen Passwortes sehen soll.

Kommentar von Marion |

Hallo Anika,
danke für die hilfreiche Anleitung!
Weißt Du, ob man die 2FA problemlos wieder rückgängig machen kann?
Viele Grüße
Marion

Kommentar von Matthias Hechler |

Muss die DENIC denn nicht auch den Provider herausgeben?

Kommentar von Gottfried |

Hallo, 2FA ist ne super Sache, aber nun ist das Handy weg und ich habe noch eine Sicherung der Backup Codes. Muss ich den Codeblock nun ganz in des Feld eingeben?

Kommentar von Comichaot |

Hatte die letzten Tage vermehret Brutforce angriffe aber dank Limit Login Attempts Reloaded ist alles gut!

Kommentar von Michael Conrad |

Danke für den super Tipp! Das war genau das Steinchen, was mir auf den Weg zur Suche nach dem Webserver gefehlt hat.

Sie müssen sich anmelden, um Kommentare hinzuzufügen.