n-gramとは、任意の文書や文字列などにおける任意のn文字が連続した文字列のことである。
1文字続きのものはunigram、2文字続きのものはbigram、3文字続きのものはtrigram、と特に呼ばれ、4文字以上のものは、単に4-gram、5-gramと表現されることが多い。
また、n-gramを元にした言語モデルとしてはn-gramモデルがある。n-gramモデルの場合は、特定のn-gramに関するコーパスや文章集合における出現頻度や共起の仕方に着目する。