
Como você se sente em relação à sua pronúncia de japonês agora?
Se você for honesto, provavelmente há pelo menos um som do qual você não tem total certeza. Talvez seja o R. Talvez seja a maneira como o です desaparece no final. Talvez um falante nativo tenha lhe dito que seu tom soa "um pouco estranho", mas você não tem ideia do que isso realmente significa.
Aqui está a questão: a pronúncia japonesa é genuinamente uma das partes mais fáceis de aprender no idioma. Como o japonês usa um sistema de escrita fonético, o que você vê é quase sempre o que você obtém. Uma vez que você entende como os sons funcionam — de onde eles vêm, como sua boca os produz — você pode aplicar esse conhecimento toda vez que abrir a boca.
Este guia cobre tudo. Começamos com os fundamentos: o sistema de escrita, as vogais, as consoantes. Depois, passamos para os sons complicados que confundem a maioria dos estudantes. Em seguida, abordamos padrões em nível de palavra, como vogais longas, consoantes duplas e a desvocalização. Finalmente, entramos no acento tonal (pitch accent) e no ritmo das frases — o que separa o "japonês de livro didático" do "japonês que soa como uma pessoa real".
Dedique um tempo real a este guia. Você sairá do outro lado soando visivelmente melhor.
Fique atento: Este guia usa hiragana em toda a sua extensão. Se você ainda não o aprendeu, leia primeiro o nosso guia de hiragana para iniciantes. Leva apenas um dia ou dois, e fará com que tudo neste guia faça sentido muito mais rápido. Volte quando estiver pronto.
Índice [ocultar]
Vamos esclarecer uma coisa primeiro: a pronúncia japonesa não é tão difícil quanto as pessoas pensam.
Sim, existem sons que não existem no português ou inglês. Sim, o acento tonal é algo real que leva tempo para desenvolver. No entanto, comparado ao caos absoluto da ortografia do inglês, o japonês é notavelmente consistente.
Pense no inglês por um momento. A combinação de letras "ough" é pronunciada de forma diferente em "though", "through", "thought", "rough" e "cough". São cinco sons completamente diferentes para as mesmas seis letras. O inglês é um idioma onde a ortografia e a pronúncia entraram em guerra séculos atrás, e nenhum dos lados venceu de forma limpa.
O japonês, por outro lado, opera sob um princípio simples: um símbolo, um som. Como o hiragana é um silabário fonético, cada caractere representa um som de sílaba fixo que nunca muda. Portanto, uma vez que você sabe como os sons funcionam, você pode ler e pronunciar quase qualquer palavra japonesa que encontrar — mesmo palavras que você nunca viu antes.
Além disso, o japonês tem muito menos sons individuais do que o inglês. O inglês tem cerca de 44 fonemas distintos. O japonês tem cerca de 25. Portanto, você está trabalhando com uma caixa de ferramentas menor.
O desafio não é a quantidade — é a precisão. Alguns sons japoneses são próximos aos sons do português ou inglês, mas não idênticos. Acertar essas pequenas diferenças é o que separa o "compreensível" do "soa natural". É exatamente para isso que este guia serve.

O japonês usa três sistemas de escrita: hiragana, katakana e kanji. Para fins de pronúncia, o hiragana é o mais importante de se entender.
Cada caractere hiragana representa uma sílaba. Não apenas uma consoante ou vogal individual — uma sílaba completa. Portanto, か não é apenas "k" — é a sílaba inteira "ka". ち não é apenas "ch" — é a sílaba completa "chi".
Isso importa porque muda a forma como você deve pensar sobre os sons japoneses. Em vez de quebrar palavras em letras individuais, o japonês agrupa os sons em unidades silábicas. A palavra かわいい (kawaii) tem quatro sílabas: か, わ, い, い. Cada uma é uma unidade de som limpa e separada.
Entender essa estrutura silábica é fundamental para uma boa pronúncia japonesa. Como cada caractere é uma sílaba, o tempo torna-se muito regular. Cada sílaba recebe aproximadamente o mesmo tempo. Não há o alongamento de algumas sílabas e a compressão de outras como acontece constantemente em outros idiomas.
O "quase" no título acima tem um motivo. Há um pequeno número de exceções que cobriremos mais adiante — como a forma como o ん muda dependendo do que vem depois dele, ou a forma como o す perde sua vogal no final das palavras.
No entanto, como regra geral, a ortografia japonesa é honesta com você de uma forma que o inglês, por exemplo, não é. Se você vir a palavra たべもの (tabemono, que significa "comida"), você pode pronunciá-la exatamente como está escrita: ta-be-mo-no. Sem surpresas.
Isso significa que aprender hiragana não é opcional — é o melhor investimento que você pode fazer na sua pronúncia. O romaji (escrever sons japoneses com letras latinas) oculta informações e ensina maus hábitos. Portanto, se você ainda não domina o hiragana, acesse nosso guia de hiragana antes de prosseguir.

O japonês tem exatamente cinco sons de vogais. Além disso, ao contrário de outros idiomas, eles nunca mudam. Um あ japonês sempre soa como あ.
Aqui estão as cinco vogais japonesas:
| Hiragana | Romanização | Como pronunciar |
| あ | a | Como "ah" — boca aberta, língua baixa e central |
| い | i | Como o nosso "i" — língua alta e para frente, lábios relaxados |
| う | u | Parecido com "u", mas com lábios relaxados e não arredondados |
| え | e | Como "e" em "café" — língua em altura média, para frente |
| お | o | Como "o" em "ovo" — língua em altura média, para trás |
Diga estas em voz alta: あ、い、う、え、お. Sinta sua língua se movendo enquanto as percorre. Ela sobe e desce. Move-se para frente e para trás. Esses movimentos da língua são o que cria os diferentes sons das vogais — e não algo que você faz com seus lábios ou dentes.
O som う confunde muitos falantes de línguas ocidentais porque queremos arredondar automaticamente nossos lábios ao fazer um som de "u". No entanto, o う japonês não é arredondado. Seus lábios devem permanecer relaxados e relativamente planos, e o som vem da posição posterior da língua, não do formato dos lábios.
Tente isto: diga "u" como em "uva". Agora relaxe completamente os lábios — não os projete para frente — enquanto mantém a língua na mesma posição. Isso é mais próximo do う japonês.
Isso importa particularmente para palavras como すき (suki, "gostar/amar") e つ (tsu). Errar a vogal aqui faz você soar nitidamente como um estrangeiro.
As vogais japonesas às vezes aparecem uma após a outra. Quando isso acontece, você pronuncia cada uma distintamente como uma sílaba separada. Não há fusão como nos ditongos.
Por exemplo:
Leve o seu tempo com cada sílaba. Como o japonês tem um tempo muito regular, apressar-se através de vogais seguidas soa antinatural.

Se as vogais são criadas quando o ar flui livremente para fora da boca, as consoantes são o oposto. As consoantes acontecem quando algo bloqueia ou interrompe esse fluxo de ar. O local onde o bloqueio acontece, e a forma como acontece, determina o som.
Toda consoante tem quatro propriedades principais:
Isso pode parecer muita terminologia. No entanto, uma vez que você internaliza essas quatro perguntas, você pode entender e recriar qualquer som em japonês — ou em qualquer idioma.
Vamos percorrer as consoantes japonesas da frente da boca para trás. Enquanto lê, tente produzir cada som em voz alta.
Esses sons são feitos aproximando ambos os lábios.
ば び ぶ べ ぼ (ba bi bu be bo) — Oclusiva bilabial sonora Seus lábios se fecham completamente, param o ar e depois o liberam. Suas cordas vocais vibram.
ぱ ぴ ぷ ぺ ぽ (pa pi pu pe po) — Oclusiva bilabial surda Mesmo movimento labial, mas suas cordas vocais ficam em silêncio. Você pode sentir um pequeno sopro de ar na mão.
ま み む め も (ma mi mu me mo) — Nasal bilabial sonora Seus lábios se fecham como uma oclusiva, mas o ar escapa pelo nariz em vez da boca. É por isso que o "m" soa nasal.
Coloque a ponta da língua logo atrás dos dentes frontais superiores. Aquela saliência rugosa é o cume alveolar, e é um dos pontos mais ativos no japonês.
だ で ど (da de do) — Oclusiva alveolar sonora A ponta da sua língua toca o cume e se libera.
た て と (ta te to) — Oclusiva alveolar surda Mesma ação, sem vibração das cordas vocais.
な に ぬ ね の (na ni nu ne no) — Nasal alveolar sonora A língua toca o cume, mas o ar sai pelo nariz.
さ す せ そ (sa su se so) — Fricativa alveolar surda Sua língua não toca o cume — em vez disso, ela cria uma fresta estreita que força o ar a passar, criando um som de fricção de "sibilo".
ざ ず ぜ ぞ (za zu ze zo) — Fricativa alveolar sonora O mesmo que acima, mas com vibração das cordas vocais adicionada.
し (shi) — Fricativa palatoalveolar surda A ponta da língua move-se um pouco mais para trás do que para さ, criando o som de fricção "sh". Notavelmente, o し japonês soa ligeiramente diferente do "sh" do inglês — é produzido um pouco mais atrás. A diferença é sutil, mas existe.
じ ぢ (ji) — Africada palatoalveolar sonora Uma africada combina uma oclusiva e uma fricativa. Sua língua interrompe o ar e depois o libera através de uma fresta estreita. じ e ぢ são agora pronunciados de forma idêntica no japonês padrão.
ち (chi) — Africada palatoalveolar surda A versão surda do som acima. Note que a romanização "chi" não mostra o quão para trás a língua está em comparação com o "ch" do inglês.
O véu palatário é a parte macia e carnuda do céu da boca, bem atrás do palato duro.
か き く け こ (ka ki ku ke ko) — Oclusiva velar surda A parte de trás da sua língua toca o véu palatário.
가 ぎ ぐ げ ご (ga gi gu ge go) — Oclusiva velar sonora Mesma posição, cordas vocais vibram. Além disso, alguns falantes de japonês — particularmente falantes mais velhos ou de certas regiões — usam uma versão nasal deste som chamada nasal が. Mais sobre isso na próxima seção.
ふ (fu) — Fricativa bilabial surda Este som não existe em muitos idiomas europeus. ふ é feito soprando ar através de uma fresta estreita entre os dois lábios — não tocando o lábio inferior nos dentes como o "f" do inglês ou português. Ele fica em algum lugar entre um "f" e um "h".
ひ (hi) — Fricativa palatal surda O corpo da sua língua cria fricção perto do palato duro. Para alguns falantes, isso soa como o "h" em "huge" dito com uma exalação forte. Outros o produzem mais perto do "ch" no alemão "ich". Nenhum deles é o "h" comum do inglês.
は へ ほ (ha he ho) — Fricativa glotal surda Estes são sons "h" verdadeiros — fricção na glote, que é o espaço entre as cordas vocais.
ん — Nasal (dependente do contexto) O ん apareceu quatro vezes no tour das consoantes acima, porque ele muda dependendo do contexto. É a única consoante japonesa que existe sem uma vogal depois dela, o que a torna única.

A maioria dos estudantes usa o "f" comum para o ふ. Isso está errado. O "f" comum é labiodental — lábio inferior nos dentes superiores. O ふ japonês não usa dentes. Ambos os lábios formam uma pequena abertura e o ar sopra através deles — uma fricativa bilabial.
Dica de prática: Sopre nas suas mãos para aquecê-las. Essa exalação suave, apenas pelos lábios, é a posição do ふ. Agora molde-a em uma sílaba.
Palavras para praticar: ふるい (velho), おふろ (banho), ふくろう (coruja)
ひ é uma fricativa palatal — o corpo da sua língua cria fricção perto do palato duro. Soa mais suave e aspirado do que o "h" comum, mais próximo do "h" em um "huge" exagerado ou do "ch" alemão em "ich".
A diferença é sutil, mas treinar seu ouvido para notá-la ajuda a produzi-la de forma mais natural com o tempo.
O ん é único — é a única consoante japonesa sem uma vogal seguinte, e ele muda dependendo do que vem depois. Este processo é chamado de coarticulação.
| O que segue o ん | O ん soa como | Exemplo |
| Bilabial (ぱ, ぼ, ま) | “m” | しんぶん → “shimbun” |
| Velar (か, が) | “ng” como em “sing” | ほんが → “hong-ga” |
| Alveolar (な, た, さ) | “n” padrão | てんのう → “ten-nou” |
| Final de palavra / antes de vogal | nasal uvular | ほん → segurado nasalmente |
Por que isso importa? Confundir ん com な/に/ぬ/ね/の muda totalmente o significado. O exemplo famoso: しんいたみえき (Estação Shin-Itami) vs しにたみえき ("Estação eu-quero-morrer"). Falantes nativos notarão.
O R japonês não é nem o "r" retroflexo do inglês nem o "l". Para falantes de português, ele é idêntico ao "r" brando (como em "caro" ou "prato").
| Som | Posição da língua |
| R do Inglês | Enrolada para trás, sem tocar em nada — flutuando na boca |
| L do Inglês/Português | Ponta pressionada firmemente no cume alveolar, segurada lá |
| R Japonês | A ponta toca brevemente o cume alveolar e libera imediatamente |
O equivalente mais próximo é o toque rápido da língua no "r" de "arara" ou "caro" — esse toque rápido é quase exatamente o R japonês.
Prática: Em vez de praticar como um "r" arrastado ou "l", use o toque rápido de "caro" e aplique-o a ら、り、る、れ、ろ.
No japonês padrão moderno, じ = ぢ e ず = づ na pronúncia. Você ainda verá ぢ e づ na escrita (geralmente por rendaku ou sons repetidos), mas basta pronunciá-los como じ e ず.
を é tecnicamente "wo", mas no japonês falado contemporâneo soa exatamente como お. O "w" desapareceu. Para a fala cotidiana, apenas diga お.
Uma vogal longa é segurada pelo dobro do tempo de uma curta — e no japonês, essa duração muda o significado.
| Curta | Significado | Longa | Significado |
| おじさん | tio | おじいさん | avô |
| おばさん | tia | おばあさん | avó |
| こわい | assustador | かわいい | fofo |
Esse último par é a armadilha mais comum para iniciantes. Um い extra transforma "assustador" em "fofo". Aprenda a duração da vogal ao aprender a palavra — não como um detalhe posterior.
Pense desta forma: vogal curta = um tempo, vogal longa = dois tempos.
Um っ pequeno antes de uma consoante sinaliza a geminação — uma breve pausa segurada antes de a consoante ser liberada. Sua boca entra em posição, segura silenciosamente por um tempo e depois dispara.
Pular essa pausa, ou adicionar um som de "tsu" completo, produz a palavra errada.
Esta é a correção que a maioria dos novos estudantes recebe primeiro. Falantes nativos omitem o う final em です e ます quase inteiramente:
Essa queda do som da vogal é chamada de desvocalização. Afeta especialmente い e う — no final de palavras e antes de consoantes surdas. し e ち também são comumente desvocalizados:
A desvocalização está em toda parte na fala natural do japonês. Replicá-la faz uma diferença maior no seu sotaque do que quase qualquer outra coisa.

Um equívoco comum: o japonês é "plano", com peso igual em cada sílaba. Isso está errado. O japonês usa acento tonal (pitch accent) — as sílabas alternam entre tons altos (H) e baixos (L).
Isso é diferente da acentuação tônica (que adiciona volume/intensidade) e dos tons do chinês (que marcam o significado de sílabas individuais). O tom japonês tem a ver com nota musical, não volume — e se aplica a palavras e frases como um todo.
Três regras básicas cobrem a maioria das palavras japonesas:
Algumas palavras japonesas compartilham a mesma grafia, mas diferem apenas no tom:
| Palavra | Tom | Significado |
| はし | HL | Hashis (Pauzinhos) |
| はし | LH | Ponte |
| かみ | HL | Deus |
| かみ | LH | Papel / Cabelo |
| あめ | HL | Chuva |
| あめ | LH | Bala (Doce) |
Errar esses tons geralmente não causa desastres — o contexto ajuda. No entanto, tons consistentemente errados são o que faz a fala soar estrangeira, mesmo quando o vocabulário e a gramática estão corretos.
As frases tendem a começar mais altas e cair à medida que continuam. Pausas em partículas e pontuação permitem que o tom seja reiniciado para a próxima frase.
Veja esta frase: コウイチは毎朝、カレーを食べながら日本語を勉強します。
Ela tem três blocos de frases naturais, cada um com seu próprio arco de tom:
Falar em blocos de frases — não em uma longa corrida — é a coisa mais impactante que você pode fazer pela pronúncia em nível de frase.
O cérebro recorre a padrões familiares. Isso causa: "f" dental para ふ, "r" retroflexo para らりるれろ, vogais aplicadas de forma inconsistente.
Correção: Para cada som difícil, volte à descrição física neste guia — onde na boca, como o ar se move. Pratique a partir desse ponto de articulação, não da aproximação do seu idioma nativo.
Vogais longas mudam o significado. Erradas, elas marcam você como iniciante imediatamente.
Correção: Aprenda a duração da vogal como parte da palavra, não separadamente. Quando você adicionar uma palavra ao seu vocabulário, observe se suas vogais são curtas ou longas e pratique dessa forma desde o primeiro dia.
Como essas palavras terminam quase todas as frases, pronunciá-las incorretamente se destaca constantemente.
Correção: Elimine o う final. Grave a si mesmo dizendo です, depois diga novamente com o う mal aparecendo. A diferença é imediatamente audível.
Pular a pausa faz as palavras soarem erradas. Adicionar um som de "tsu" adiciona uma sílaba que não existe.
Correção: Pense no っ como uma "retenção silenciosa" — posicione sua boca para a próxima consoante, espere um tempo e libere. Sem som durante a retenção, apenas uma pausa com intenção.
Você será compreendido sem um tom perfeito. No entanto, ignorar o tom completamente limita o quão natural você soará — e maus hábitos criados cedo são difíceis de desfazer depois.
Correção: Você não precisa dominar o tom agora. No entanto, comece a notá-lo imediatamente. Verifique os padrões de tom quando procurar vocabulário. Preste atenção onde as vozes dos falantes nativos sobem e descem.
Seu cérebro precisa de um modelo antes de poder produzir um som. A escuta passiva — podcasts, programas, música — prepara seu ouvido mais rápido do que você imagina. Ouça japonês o máximo possível, mesmo sem metas de estudo ativo.
Palavras que diferem por apenas um som treinam a precisão rapidamente:
Pode ser desconfortável, mas é essencial. Você ouvirá coisas que não consegue sentir enquanto fala. Compare com falantes nativos. Essa lacuna é o seu alvo de prática específico. Olhar para trás e ouvir gravações de um mês atrás é genuinamente motivador.
Erros de pronúncia tornam-se habituais rapidamente. Um falante nativo ou um professor qualificado pode identificar problemas em uma sessão que levariam meses para você diagnosticar sozinho.
Cinco minutos diários de prática focada superam uma sessão maratona semanal. A pronúncia é uma habilidade física — ela se constrói através da repetição ao longo do tempo. Inclua-a em sua rotina diária em vez de tratá-la como um projeto a ser concluído.