
Wie fühlst du dich gerade in Bezug auf deine japanische Aussprache?
Wenn du ehrlich bist, gibt es wahrscheinlich mindestens einen Laut, bei dem du dir nicht ganz sicher bist. Vielleicht ist es das R. Vielleicht ist es die Art und Weise, wie です am Ende ausklingt. Vielleicht hat dir ein Muttersprachler gesagt, dass dein Pitch „ein wenig daneben“ klingt, aber du hast keine Ahnung, was das eigentlich bedeutet.
Hier ist die Sache: Die japanische Aussprache ist tatsächlich einer der am einfachsten zu lernenden Teile der Sprache. Da Japanisch ein phonetisches Schriftsystem verwendet, ist das, was man sieht, fast immer das, was man bekommt. Sobald du verstehst, wie die Laute funktionieren – woher sie kommen, wie dein Mund sie formt – kannst du dieses Wissen jedes Mal anwenden, wenn du den Mund aufmachst.
Dieser Leitfaden deckt alles ab. Wir beginnen mit den Grundlagen: dem Schriftsystem, den Vokalen, den Konsonanten. Dann gehen wir zu den kniffligen Lauten über, über die die meisten Lernenden stolpern. Danach widmen wir uns Mustern auf Wortebene wie langen Vokalen, Doppelkonsonanten und der Devokalisierung. Schließlich beschäftigen wir uns mit dem Pitch-Akzent und dem Satzrhythmus – den Dingen, die „Lehrbuch-Japanisch“ von „Japanisch, das wie eine echte Person klingt“ unterscheiden.
Nimm dir wirklich Zeit dafür. Du wirst am Ende spürbar besser klingen.
Achtung: Dieser Leitfaden verwendet durchgehend Hiragana. Wenn du sie noch nicht gelernt hast, lies zuerst unseren Hiragana-Leitfaden für Anfänger. Es dauert nur ein oder zwei Tage, und es wird dafür sorgen, dass alles in diesem Leitfaden viel schneller Sinn ergibt. Komm zurück, wenn du bereit bist.
Inhaltsverzeichnis [ausblenden]
Lass uns zuerst eines klarstellen: Die japanische Aussprache ist nicht so schwer, wie die Leute denken.
Ja, es gibt Laute, die es im Englischen nicht gibt. Ja, der Pitch-Akzent ist eine reale Sache, die Zeit braucht, um sich zu entwickeln. Im Vergleich zum schieren Chaos der englischen Rechtschreibung ist Japanisch jedoch bemerkenswert beständig.
Betrachte für einen Moment das Englische. Die Buchstabenkombination „ough“ wird in „though“, „through“, „thought“, „rough“ und „cough“ unterschiedlich ausgesprochen. Das sind fünf völlig verschiedene Laute aus denselben sechs Buchstaben. Englisch ist eine Sprache, in der Rechtschreibung und Aussprache vor Jahrhunderten in den Krieg gezogen sind, und keine der beiden Seiten hat sauber gewonnen.
Japanisch hingegen funktioniert nach einem einfachen Prinzip: ein Symbol, ein Laut. Da Hiragana eine phonetische Silbenschrift ist, stellt jedes Zeichen einen festen Silbenlaut dar, der sich nie ändert. Sobald du also weißt, wie die Laute funktionieren, kannst du fast jedes japanische Wort lesen und aussprechen, dem du begegnest – sogar Wörter, die du noch nie zuvor gesehen hast.
Darüber hinaus hat Japanisch weit weniger Einzellaute als Englisch. Englisch hat etwa 44 verschiedene Phoneme. Japanisch hat eher 25. Du arbeitest also tatsächlich mit einem kleineren Werkzeugkasten.
Die Herausforderung ist nicht die Menge – es ist die Präzision. Einige japanische Laute sind englischen Lauten ähnlich, aber nicht identisch. Diese kleinen Unterschiede richtig hinzubekommen ist das, was „verständlich“ von „klingt natürlich“ unterscheidet. Genau dafür ist dieser Leitfaden da.

Das Japanische verwendet drei Schriftsysteme: Hiragana, Katakana und Kanji. Für die Aussprache ist Hiragana am wichtigsten zu verstehen.
Jedes Hiragana-Zeichen steht für eine Silbe. Nicht nur ein einzelner Konsonant oder Vokal – eine ganze Silbe. か ist also nicht nur „k“ – es ist die gesamte Silbe „ka“. ち ist nicht nur „ch“ – es ist die vollständige Silbe „chi“.
Das ist wichtig, weil es die Art und Weise verändert, wie du über japanische Laute denken solltest. Anstatt Wörter wie im Englischen in einzelne Buchstaben zu zerlegen, teilt Japanisch Laute in Silbeneinheiten auf. Das Wort かわいい (kawaii) hat vier Silben: か, わ, い, い. Jede ist eine saubere, separate Lauteinheit.
Das Verständnis dieser Silbenstruktur ist die Grundlage für eine gute japanische Aussprache. Da jedes Zeichen eine Silbe ist, wird das Timing sehr gleichmäßig. Jede Silbe erhält in etwa die gleiche Zeit. Es gibt kein Dehnen einiger Silben und Quetschen anderer, wie es im Englischen ständig vorkommt.
Das „fast“ in dieser Überschrift ist wichtig. Es gibt eine kleine Anzahl von Ausnahmen, die wir später behandeln werden – wie die Art und Weise, wie sich ん ändert, je nachdem, was danach kommt, oder wie す am Ende von Wörtern seinen Vokal verliert.
Als allgemeine Regel gilt jedoch, dass die japanische Rechtschreibung ehrlich zu dir ist, in einer Weise, wie es das Englische einfach nicht ist. Wenn du das Wort たべもの (tabemono, was „Essen“ bedeutet) siehst, kannst du es genau so aussprechen, wie es geschrieben steht: ta-be-mo-no. Keine Überraschungen.
Das bedeutet, dass das Lernen von Hiragana nicht optional ist – es ist die beste Investition, die du in deine Aussprache tätigen kannst. Romaji (japanische Laute mit lateinischen Buchstaben schreiben) verbirgt Informationen und lehrt schlechte Angewohnheiten. Wenn du Hiragana also noch nicht beherrschst, schau dir unseren Hiragana-Leitfaden an, bevor du weitermachst.

Japanisch hat genau fünf Vokallaute. Außerdem ändern sie sich im Gegensatz zum Englischen nie. Ein japanisches あ klingt immer wie あ. Ein englisches „a“ kann wie in „cat“, „cake“, „car“ oder „caw“ klingen – vier völlig verschiedene Laute für denselben Buchstaben.
Hier sind die fünf japanischen Vokale:
| Hiragana | Romanisierung | Wie man es ausspricht |
| あ | a | Wie „ah“ — Mund offen, Zunge tief und zentral |
| い | i | Wie „ie“ — Zunge hoch und vorne, Lippen entspannt |
| う | u | Wie „u“, aber mit entspannten, ungerundeten Lippen — enger als das deutsche „u“ |
| え | e | Wie das „e“ in „Bett“ — Zunge mittelhoch, vorne |
| お | o | Wie das „o“ in „Boot“ — Zunge mittelhoch, hinten |
Sag sie laut: あ、い、う、え、お. Spüre, wie sich deine Zunge bewegt, während du sie durchgehst. Sie hebt und senkt sich. Sie bewegt sich vor und zurück. Diese Zungenbewegungen erzeugen die verschiedenen Vokallaute – nicht das, was du mit deinen Lippen oder Zähnen machst.
Der Laut う bringt viele Englisch- und Deutschsprachige durcheinander, weil wir automatisch unsere Lippen runden wollen, wenn wir einen „u“-Laut machen. Das japanische う ist jedoch ungerundet. Deine Lippen sollten entspannt und relativ flach bleiben, und der Laut kommt von der Position deines Zungenrückens, nicht von deiner Lippenform.
Versuche dies: Sag „u“ wie in „Mond“. Entspanne nun deine Lippen vollständig – schiebe sie überhaupt nicht nach vorne – während du deine Zunge in etwa derselben Position hältst. Das kommt dem japanischen う näher.
Dies ist besonders wichtig für Wörter wie すき (suki, „mögen/lieben“) und つ (tsu). Wenn du den Vokal hier falsch aussprichst, klingst du deutlich wie ein Nicht-Muttersprachler.
Japanische Vokale erscheinen manchmal direkt hintereinander. In diesem Fall spricht man jeden einzelnen deutlich als separate Silbe aus. Es gibt keine Vermischung wie bei englischen Diphthongen.
Zum Beispiel:
Nimm dir Zeit für jede Silbe. Da Japanisch ein sehr gleichmäßiges Timing hat, klingt das Durchhetzen von aufeinanderfolgenden Vokalen unnatürlich.

Wenn Vokale entstehen, wenn die Luft ungehindert aus dem Mund strömt, sind Konsonanten das Gegenteil. Konsonanten entstehen, wenn etwas diesen Luftstrom blockiert oder unterbricht. Der Ort, an dem die Blockierung passiert, und die Art und Weise, wie sie passiert, bestimmen den Laut.
Jeder Konsonant hat vier Schlüsseleigenschaften:
Das mag nach viel Fachjargon klingen. Sobald du jedoch diese vier Fragen verinnerlicht hast, kannst du jeden Laut im Japanischen – oder in jeder anderen Sprache – verstehen und nachahmen.
Gehen wir die japanischen Konsonanten von vorne nach hinten im Mund durch. Versuche beim Lesen jeden Laut laut auszusprechen.
Diese Laute entstehen, indem man beide Lippen zusammenbringt.
ば び ぶ べ ぼ (ba bi bu be bo) — Stimmhafter bilabialer Plosiv Deine Lippen schließen sich vollständig, stoppen die Luft und öffnen sich dann wieder. Deine Stimmbänder vibrieren.
ぱ ぴ ぷ ぺ ぽ (pa pi pu pe po) — Stimmloser bilabialer Plosiv Dieselbe Lippenbewegung, aber deine Stimmbänder bleiben stumm. Du kannst einen kleinen Luftstoß an deiner Hand spüren.
ま み む め も (ma mi mu me mo) — Stimmhafter bilabialer Nasal Deine Lippen schließen sich wie bei einem Plosiv, aber die Luft entweicht durch die Nase statt durch den Mund. Deshalb klingt „m“ nasal.
Platziere deine Zungenspitze direkt hinter deinen oberen Schneidezähnen. Dieser unebene Damm ist der Alveolarfortsatz, und er ist einer der meistgenutzten Punkte im Japanischen.
だ で ど (da de do) — Stimmhafter alveolarer Plosiv Deine Zungenspitze berührt den Damm und löst sich wieder.
た て と (ta te to) — Stimmloser alveolarer Plosiv Dieselbe Aktion, keine Stimmbandvibration.
な に ぬ ね の (na ni nu ne no) — Stimmhafter alveolarer Nasal Die Zunge berührt den Damm, aber die Luft geht durch die Nase.
さ す せ そ (sa su se so) — Stimmloser alveolarer Frikativ Deine Zunge berührt den Damm nicht — stattdessen erzeugt sie einen schmalen Spalt, der die Luft hindurchpresst und ein „zischendes“ Reibungsgeräusch erzeugt.
ざ ず ぜ ぞ (za zu ze zo) — Stimmhafter alveolarer Frikativ Wie oben, aber mit zusätzlicher Stimmbandvibration.
し (shi) — Stimmloser palato-alveolarer Frikativ Die Zungenspitze bewegt sich etwas weiter nach hinten als bei さ, wodurch das „sh“-Reibungsgeräusch entsteht. Bemerkenswerterweise klingt das japanische し etwas anders als das englische „sh“ — es wird ein Stück weiter hinten erzeugt. Der Unterschied ist subtil, aber vorhanden.
じ ぢ (ji) — Stimmhafte palato-alveolare Affrikate Eine Affrikate kombiniert einen Plosiv und einen Frikativ. Deine Zunge stoppt die Luft und lässt sie dann durch einen schmalen Spalt frei. じ und ぢ werden im Standardjapanischen heute identisch ausgesprochen.
ち (chi) — Stimmlose palato-alveolare Affrikate Die stimmlose Version des Obigen. Beachte, dass die Romanisierung „chi“ unterschätzt, wie weit hinten die Zunge im Vergleich zum englischen „ch“ ist.
Das Velum ist der weiche, fleischige Teil des Gaumens, weit hinten hinter dem harten Gaumen.
か き く け こ (ka ki ku ke ko) — Stimmloser velarer Plosiv Dein Zungenrücken berührt das Velum.
が ぎ ぐ げ ご (ga gi gu ge go) — Stimmhafter velarer Plosiv Dieselbe Position, Stimmbänder vibrieren. Zusätzlich verwenden einige japanische Sprecher – insbesondere ältere Sprecher oder solche in bestimmten Regionen – eine nasale Version dieses Lautes, das sogenannte nasale が. Mehr dazu im nächsten Abschnitt.
ふ (fu) — Stimmloser bilabialer Frikativ Diesen Laut gibt es im Englischen nicht. ふ entsteht, indem Luft durch einen schmalen Spalt zwischen beiden Lippen geblasen wird – nicht indem die Unterlippe die Zähne berührt, wie beim deutschen „f“. Es liegt irgendwo zwischen „f“ und „h“.
ひ (hi) — Stimmloser palataler Frikativ Der Zungenkörper erzeugt Reibung in der Nähe deines harten Gaumens. Bei manchen Sprechern klingt dies eher wie das „h“ in „huge“, das mit einem starken Ausatmen gesprochen wird. Andere erzeugen es näher am „ch“ im deutschen „ich“. Keines davon ist das englische „h“.
は へ ほ (ha he ho) — Stimmloser glottaler Frikativ Dies sind echte „h“-Laute – Reibung an der Glottis, dem Raum zwischen deinen Stimmbändern.
ん — Nasal (kontextabhängig) ん tauchte viermal in der Konsonanten-Tour oben auf, weil es sich je nach Kontext ändert. Es ist der einzige japanische Konsonant, der ohne einen darauf folgenden Vokal existiert, was ihn einzigartig macht.

Die meisten Lernenden verwenden das englische oder deutsche „f“ für ふ. Das ist falsch. Das „f“ ist labiodental – Unterlippe zu den oberen Zähnen. Das japanische ふ benutzt keine Zähne. Beide Lippen bilden eine kleine Öffnung und Luft strömt hindurch – ein bilabialer Frikativ.
Übungstipp: Hauche auf deine Hände, um sie aufzuwärmen. Dieses sanfte Ausatmen nur über die Lippen ist die Position für ふ. Forme daraus nun eine Silbe.
Übungswörter: ふるい (alt), おふろ (Bad), ふくろう (Eule)
ひ ist ein palataler Frikativ – dein Zungenkörper erzeugt Reibung in der Nähe deines harten Gaumens. Er klingt weicher und behauchter als das englische „h“, eher wie das „h“ in einem übertriebenen „huge“ oder das deutsche „ich“.
Der Unterschied ist subtil, aber dein Ohr darauf zu trainieren, ihn wahrzunehmen, hilft dir, ihn mit der Zeit natürlicher zu produzieren.
ん ist einzigartig – es ist der einzige japanische Konsonant ohne einen folgenden Vokal, und er ändert sich je nachdem, was danach kommt. Dieser Vorgang wird Koartikulation genannt.
| Was auf ん folgt | ん klingt wie | Beispiel |
| Bilabial (ぱ, ぼ, ま) | „m“ | しんぶん → „shimbun“ |
| Velar (か, が) | „ng“ in „singen“ | ほんが → „hong-ga“ |
| Alveolar (な, た, さ) | Standard-„n“ | てんのう → „ten-nou“ |
| Wortende / vor Vokal | uvularer Nasal | ほん → nasal gehalten |
Warum ist das wichtig? Das Verwechseln von ん mit な/に/ぬ/ね/の ändert die Bedeutung komplett. Das berühmte Beispiel: しんいたみえき (Shin-Itami Station) vs しにたみえき („Ich-will-sterben-Station“). Muttersprachler werden es bemerken.
Das japanische R ist weder das englische „r“ noch das englische „l“. Hier ist der eigentliche Unterschied:
| Laut | Zungenposition |
| Englisches R | Zurückgerollt, berührt nichts — schwebt im Mund |
| Englisches L | Spitze fest an den Alveolarfortsatz gepresst und dort gehalten |
| Japanisches R | Spitze tippt kurz den Alveolarfortsatz an und löst sich sofort wieder |
Das nächste englische Äquivalent ist das schnelle „d“ im amerikanischen „ladder“ oder „butter“ – dieses schnelle Antippen mit der Zunge ist fast genau das japanische R.
Übung: Anstatt „r“ oder „l“ zu üben, übe den Laut in „ladder“ und wende ihn dann auf ら、り、る、れ、ろ an.
Im modernen Standardjapanischen sind じ = ぢ und ず = づ in der Aussprache identisch. Du wirst ぢ und づ immer noch schriftlich sehen (meist durch Rendaku oder wiederholte Laute), aber sprich sie einfach als じ und ず aus.
を ist technisch gesehen „wo“, aber im heutigen gesprochenen Japanisch klingt es genau wie お. Das „w“ ist verschwunden. Für die Alltagssprache sag einfach お.
Ein langer Vokal wird doppelt so lange gehalten wie ein kurzer – und im Japanischen ändert diese Länge die Bedeutung.
| Kurz | Bedeutung | Lang | Bedeutung |
| おじさん | Onkel | おじいさん | Großvater |
| おばさん | Tante | おばあさん | Großmutter |
| こわい | gruselig | かわいい | süß |
Das letzte Paar ist die häufigste Falle für Anfänger. Ein zusätzliches い macht aus „gruselig“ ein „süß“. Lerne die Vokallänge, wenn du das Wort lernst – nicht erst im Nachhinein.
Stell es dir so vor: kurzer Vokal = ein Schlag, langer Vokal = zwei Schläge.
Ein kleines っ vor einem Konsonanten signalisiert Gemination – eine kurze Pause, bevor der Konsonant freigesetzt wird. Dein Mund begibt sich in Position, hält für einen Schlag inne und lässt dann los.
Das Auslassen dieser Pause oder das Hinzufügen eines vollständigen „Tsu“-Lautes führt beides zum falschen Wort.
Dies ist die Korrektur, die die meisten neuen Lernenden zuerst erhalten. Muttersprachler lassen das abschließende う in です und ます fast vollständig weg:
Dieses Weglassen des Vokallauts wird Devokalisierung genannt. Sie betrifft besonders い und う – am Ende von Wörtern und vor stimmlosen Konsonanten. し und ち werden ebenfalls häufig devokalisiert:
Die Devokalisierung ist in der natürlichen japanischen Sprache allgegenwärtig. Sie nachzuahmen macht einen größeren Unterschied für deinen Akzent als fast alles andere.

Ein häufiges Missverständnis: Japanisch sei „flach“, mit gleicher Gewichtung auf jeder Silbe. Das ist falsch. Japanisch verwendet Pitch-Akzent – Silben wechseln zwischen hohen (H) und tiefen (L) Tönen.
Dies unterscheidet sich vom englischen oder deutschen Wortakzent (der die Lautstärke erhöht) und von chinesischen Tönen (die die Bedeutung einzelner Silben markieren). Beim japanischen Pitch geht es um die musikalische Note, nicht um die Lautstärke – und er bezieht sich auf Wörter und Phrasen als Ganzes.
Drei Grundregeln decken die meisten japanischen Wörter ab:
Einige japanische Wörter teilen die gleiche Schreibweise, unterscheiden sich aber nur im Pitch:
| Wort | Pitch | Bedeutung |
| はし | HL | Essstäbchen |
| はし | LH | Brücke |
| かみ | HL | Gott |
| かみ | LH | Papier / Haare |
| あめ | HL | Regen |
| あめ | LH | Bonbon |
Diese falsch zu machen, führt normalerweise nicht zur Katastrophe – der Kontext hilft. Ein durchgehend falscher Pitch ist jedoch das, was Sprache fremd klingen lässt, selbst wenn Vokabular und Grammatik korrekt sind.
Phrasen neigen dazu, höher zu beginnen und im weiteren Verlauf abzufallen. Pausen bei Partikeln und Satzzeichen lassen den Pitch für die nächste Phrase neu ansetzen.
Nimm diesen Satz: コウイチは毎朝、カレーを食べながら日本語を勉強します。
Er hat drei natürliche Phrasen-Einheiten, jede mit ihrem eigenen Pitch-Bogen:
Das Sprechen in Phrasen-Einheiten – nicht in einem langen Durchgang – ist das wirkungsvollste, was du für die Aussprache auf Satzebene tun kannst.
Das Gehirn greift standardmäßig auf vertraute Muster zurück. Das führt zu: englischem „f“ für ふ, englischem „r“ für らりるれろ, uneinheitlich angewendeten englischen Vokalen.
Behebung: Gehe für jeden kniffligen Laut zurück zur physischen Beschreibung in diesem Leitfaden – wo im Mund, wie die Luft strömt. Übe von diesem Artikulationspunkt aus, nicht von der englischen Annäherung.
Lange Vokale verändern die Bedeutung. Wenn du sie falsch machst, wirst du sofort als Anfänger enttarnt.
Behebung: Lerne die Vokallänge als Teil des Wortes, nicht separat. Wenn du ein Wort in deinen Wortschatz aufnimmst, notiere dir, ob seine Vokale kurz oder lang sind, und übe es vom ersten Tag an so.
Da diese Wörter fast jeden Satz beenden, fällt eine falsche Aussprache ständig auf.
Behebung: Lass das abschließende う weg. Nimm dich selbst auf, wenn du です sagst, und sag es dann noch einmal, wobei das う kaum vorhanden ist. Der Unterschied ist sofort hörbar.
Das Überspringen der Pause lässt Wörter falsch klingen. Das Hinzufügen eines „Tsu“-Lautes fügt eine Silbe hinzu, die nicht da ist.
Behebung: Betrachte っ als „stilles Innehalten“ – bringe deinen Mund in Position für den nächsten Konsonanten, warte einen Schlag, lass los. Kein Ton während des Haltens, nur eine bewusste Pause.
Du wirst auch ohne perfekten Pitch verstanden. Das Ignorieren des Pitchs schränkt jedoch ein, wie natürlich du jemals klingen wirst – und schlechte Angewohnheiten, die man sich früh angewöhnt, lassen sich später nur schwer wieder ablegen.
Behebung: Du musst den Pitch jetzt noch nicht beherrschen. Fange jedoch sofort an, ihn wahrzunehmen. Schlage Pitch-Muster nach, wenn du Vokabeln lernst. Achte darauf, wo die Stimmen von Muttersprachlern steigen und fallen.
Dein Gehirn braucht ein Modell, bevor es einen Laut produzieren kann. Passives Hören – Podcasts, Serien, Musik – schult dein Ohr schneller, als du denkst. Höre so viel Japanisch wie möglich, auch ohne aktive Lernziele.
Wörter, die sich durch nur einen Laut unterscheiden, trainieren die Präzision schnell:
Unangenehm, aber unerlässlich. Du wirst Dinge hören, die du beim Sprechen nicht spüren kannst. Vergleiche dich mit Muttersprachlern. Diese Lücke ist dein spezifisches Übungsziel. Aufnahmen von vor einem Monat anzuschauen, ist wirklich motivierend.
Aussprachefehler verfestigen sich schnell. Ein Muttersprachler oder ein qualifizierter Lehrer kann Probleme in einer Sitzung erkennen, für deren Eigendiagnose man Monate bräuchte.
Fünf Minuten fokussiertes Üben täglich sind besser als eine Mammutsitzung pro Woche. Aussprache ist eine körperliche Fertigkeit – sie baut sich durch Wiederholung über die Zeit auf. Baue sie in deine tägliche Routine ein, anstatt sie wie ein Projekt zu behandeln, das man abschließt.