アメリカ語ではspeculative decodingというらしい。 LLMは次の単語を予測するモデルなので、次の単語を予測してそれを加えてさらに次の単語を予測してそれを加えt・・という風に生成する単語数分計算する必要があります。しかしLLMは単語一個一個ではなく ...