LLMLarge Language Model
大量のテキストデータで訓練された大規模な言語モデル
大規模言語モデル(LLM)は、数百億〜数兆のパラメータを持つニューラルネットワークで、大量のテキストデータから言語パターンを学習したモデルです。テキスト生成、翻訳、要約、コード生成など多様なタスクをこなします。
Transformerトランスフォーマー
現在のLLMの基盤となるニューラルネットワークアーキテクチャ
2017年にGoogleが発表した「Attention Is All You Need」論文で提案されたアーキテクチャ。Self-Attention(自己注意)機構により、入力テキスト内の全単語間の関係を並列に処理できるため、従来のRNNに比べて大幅に高速・高精度な学習が可能になりました。現在のほぼすべてのLLMがTransformerベースです。
トークンToken
LLMが処理するテキストの最小単位
LLMはテキストを「トークン」という単位に分割して処理します。英語では1単語≒1トークン、日本語では1文字≒1〜2トークンが目安です。APIの料金や、モデルが一度に処理できる量(コンテキストウィンドウ)はトークン数で計算されます。
コンテキストウィンドウContext Window
モデルが一度に処理できるトークンの最大数
モデルが一度の会話で参照できるテキストの最大量をコンテキストウィンドウと呼びます。これが大きいほど長い文書や長い会話履歴を扱えます。2026年現在、主要モデルのコンテキスト長は100K〜200Kトークンが標準、Geminiは最大200万トークンに対応しています。
マルチモーダルMultimodal
テキスト・画像・音声・動画など複数の形式を統合的に処理する能力
テキストだけでなく、画像・音声・動画などを同時に理解・生成できるAIの能力です。従来はモダリティ(データの種類)ごとに別モデルが必要でしたが、現在の主要LLMはほぼすべてマルチモーダルに対応し、画像を見て質問に答えたり、音声から文字起こしを行うことが可能です。
パラメータParameter
モデルの学習で調整される数値的な重み
ニューラルネットワーク内の調整可能な重みの数。一般にパラメータ数が多いほどモデルの表現力は高くなりますが、計算コストも増大します。「7Bモデル」は70億パラメータ、「405B」は4050億パラメータを意味します。
MoEMixture of Experts
複数の専門ネットワークを動的に切り替えるアーキテクチャ
モデル内に複数の「エキスパート」(専門サブネットワーク)を持ち、入力に応じて最適なエキスパートだけを活性化する手法。総パラメータ数は大きくても、推論時には一部だけが稼働するため効率的です。GPT-4やGeminiなどの大規模モデルで採用されています。
推論Inference
学習済みモデルが入力に対して出力を生成するプロセス
訓練(学習)フェーズとは異なり、学習済みモデルがユーザーからの入力を受けて回答を生成する処理を「推論」と呼びます。APIを叩いてChatGPTやClaudeから回答を得る行為は、すべて推論にあたります。推論速度やコストはモデル選定の重要な指標です。
Temperature / Top-p生成パラメータ
AIの出力のランダム性・創造性を制御する設定値
Temperature: 0に近いほど確定的で一貫した出力、高いほどランダムで創造的な出力になります。コード生成や事実確認には低め(0〜0.3)、創作やブレストには高め(0.7〜1.0)が適します。
Top-p(核サンプリング): 累積確率の閾値で次のトークンの候補を絞り込む手法。0.9なら確率上位90%の候補から選択します。
ベンチマークBenchmark
AIモデルの性能を定量的に測定する評価基準
モデルの能力を客観的に比較するための標準テスト群。分野別の知識、推論能力、コーディング能力などを測定します。ただし、ベンチマークスコアと実用性は必ずしも一致しないため、目安として活用しましょう。
プロンプトPrompt
AIに与える入力テキスト(指示・質問)
AIモデルへの入力テキスト全般を指します。単純な質問から、役割設定・条件・出力形式を指定した複雑な指示まで含みます。プロンプトの書き方次第で出力品質が大きく変わるため、効果的なプロンプトを設計する技術を「プロンプトエンジニアリング」と呼びます。
システムプロンプトSystem Prompt
AIの振る舞い・役割を定義する裏方の指示文
ユーザーの質問とは別に、モデルの人格・制約・出力形式などを事前に設定する特別な指示文。API利用時に設定でき、「あなたは日本語で回答する親切なアシスタントです」のように振る舞いを定義します。チャットボット開発やAIアプリ構築の要となる概念です。
Few-shot / Zero-shotフューショット / ゼロショット
例を示す数によるプロンプトの分類
Zero-shot: 例を一切与えずにタスクを指示する方法。「この文章を英訳してください」のような直接的な指示。
Few-shot: 2〜5個の入出力例をプロンプト内で示してからタスクを依頼する方法。出力形式やトーンを統一したい場合に効果的です。
入力: "happy" → 出力: "嬉しい"
入力: "sad" → 出力: "悲しい"
入力: "excited" → 出力: ?
Chain of Thought (CoT)思考の連鎖
AIにステップバイステップで考えさせる推論テクニック
AIに「ステップバイステップで考えてください」と指示することで、推論の途中過程を明示させるテクニック。複雑な数学や論理問題で精度が大幅に向上します。OpenAIのo3/o4-miniモデルやClaudeの拡張思考はこの考え方を発展させ、モデル内部で自動的にCoTを実行します。
拡張思考Extended Thinking / Reasoning
回答前に深く考える次世代モデルの推論機能
回答を生成する前にモデル内部で長時間の「思考」プロセスを実行し、より正確で論理的な回答を導く機能。通常モデルより応答が遅い代わりに、複雑なコーディング・数学・分析タスクで格段に高い精度を発揮します。
ハルシネーションHallucination
AIがもっともらしいがまったくの嘘を生成する現象
AIが事実と異なる情報を、あたかも本当であるかのように自信を持って出力する現象。存在しない論文の引用、架空のURLの生成、誤った歴史的事実の主張などが典型例です。RAGやGround Truthの提供により軽減可能ですが、完全な解消は困難なため、重要な情報は必ず裏取りが必要です。
RAGRetrieval-Augmented Generation
外部知識を検索して回答に反映させる手法
質問を受けたAIが、まず外部の知識ベース(社内ドキュメント、Webなど)を検索し、取得した情報を参考にして回答を生成する手法。LLMの知識カットオフ以降の最新情報にも対応でき、ハルシネーションも大幅に軽減されます。NotebookLMやPerplexityがRAGの代表的な実装例です。
Tool Use / Function Callingツール使用
AIが外部ツールやAPIを呼び出して実行する機能
AIが会話中に必要に応じて外部のAPI・関数を呼び出す機能。天気情報の取得、データベース検索、計算の実行などを自律的に行えます。「構造化出力(Structured Output)」と組み合わせることで、APIレスポンスをJSONなど機械可読な形式で返すことも可能です。
AIエージェントAI Agent / Agentic AI
目標に向けて自律的にタスクを計画・実行するAIシステム
一問一答のチャットとは異なり、AIがゴールを設定し、複数のステップを自律的に計画・実行・検証するシステムです。ツール呼び出し、Web検索、コード実行などを組み合わせて複雑なタスクを遂行します。2025-2026年のAI業界最大のトレンドの一つです。
MCPModel Context Protocol
AIと外部ツールをつなぐ標準プロトコル
Anthropicが提唱したオープンプロトコルで、AIモデルと外部データソース・ツールの接続を標準化する仕組み。「AIのUSB-C」とも呼ばれ、1つのプロトコルでデータベース、API、ファイルシステムなど多様なサービスにAIがアクセスできるようになります。Google、OpenAIなど他社も採用を表明しています。
Computer Useコンピュータ使用
AIが人間のようにPCやブラウザを直接操作する機能
AIがマウスクリック・キー入力・スクリーンショット認識などでPCを直接操作する能力。APIが存在しないWebサービスでも、GUIを通じてAIが操作を自動化できます。Anthropicが先行しClaudeで実装、その後OpenAI Operatorなどが続いています。
APIApplication Programming Interface
プログラムからAIモデルにアクセスするためのインターフェース
ChatGPTのようなUI経由ではなく、プログラムから直接AIモデルを呼び出すための仕組み。開発者はAPI経由で自社サービスにAI機能を組み込めます。通常、使用トークン数に応じた従量課金モデルが採用されています。
ワークフロー自動化Workflow Automation
AIを組み込んだ業務プロセスの自動化
ノーコード/ローコードツールを使い、AI機能を含む一連の業務フローを自動化する手法。メール受信→AI要約→Slack通知のような複数ステップの処理を、プログラミング不要で構築できます。
ガードレール / アライメントGuardrails / Alignment
AIの安全な動作を保証するための制約・調整技術
ガードレール: AIが不適切なコンテンツを生成しないようにするフィルタリングや制約。入力チェック・出力チェック・コンテンツポリシーなどを含みます。
アライメント: AIの動作を人間の意図・価値観に合致させる技術。RLHF(人間のフィードバックによる強化学習)やConstitutional AIなどの手法が使われます。
ファインチューニングFine-tuning
学習済みモデルを特定タスク向けに追加学習させる手法
ベースモデルを自社データやタスク固有のデータでさらに学習させること。出力のスタイル統一や専門用語への対応力向上に効果的です。大量のデータが必要ですが、LoRAなどの効率的な手法の登場で個人でも実施可能になりつつあります。
LoRALow-Rank Adaptation
少ないリソースでモデルをカスタマイズする効率的手法
モデル全体を再学習する代わりに、小さな「アダプター」レイヤーだけを学習させる手法。メモリ・計算コストを大幅に削減しつつ、タスク特化の性能向上が可能です。画像生成AIでは特定の画風やキャラクターを学習させるために広く利用されています。
エンベディングEmbedding
テキストや画像を数値ベクトルに変換する技術
テキストを意味を保持した数値ベクトル(数百〜数千次元の数値の配列)に変換する技術。意味が似た文は近いベクトルになるため、類似検索やRAGの基盤技術として使われます。
ベクトルDBVector Database
エンベディングを効率的に保存・検索するデータベース
エンベディングされたベクトルデータを格納し、「意味的な類似度」による高速検索を可能にするデータベース。RAGシステムの中核コンポーネントで、ユーザーの質問に意味的に近い文書を瞬時に探し出します。
蒸留Knowledge Distillation
大きなモデルの知識を小さなモデルに移転する手法
高性能な大型モデル(教師モデル)の出力を使って、小型モデル(生徒モデル)を効率的に学習させる手法。大型モデルに近い性能を、はるかに低いコスト・遅延で実現できます。DeepSeekなどが蒸留手法で注目を集めました。
量子化Quantization
モデルの精度を少し落として大幅に軽量化する技術
モデルの重み(パラメータ)を32ビットや16ビットから、8ビットや4ビットに圧縮する技術。モデルサイズとメモリ使用量を半分以下にでき、個人のPCでもLLMを動かせるようになります。品質低下を最小限に抑える高度な量子化手法が次々と開発されています。
拡散モデルDiffusion Model
ノイズから高品質な画像を生成するAIの中核技術
完全なランダムノイズから段階的にノイズを除去し、最終的に高品質な画像を生成する手法。Stable Diffusion、DALL-E、Midjourney、Fluxなど、現在の主要な画像生成AIの基盤技術です。動画生成にも応用されています。
txt2img / img2imgテキスト→画像 / 画像→画像
テキストや参照画像から新しい画像を生成する手法
txt2img: テキストプロンプトから画像を生成。「夕焼けの海辺を歩く猫」のような自然言語の記述から画像を作ります。
img2img: 既存の画像を入力として、それをベースに変換・改変した画像を生成。ラフスケッチを高品質イラストに変換するなどの用途があります。
インペインティング / アウトペインティングInpainting / Outpainting
画像の一部を修正、または画像の外側を拡張する技術
インペインティング: 画像の指定した領域をAIが自然に塗り替える技術。不要な物体の除去や衣装の変更などに使います。
アウトペインティング: 画像の外側の領域をAIが推測して拡張する技術。構図の変更や画像のアスペクト比変更に活用されます。
ControlNetコントロールネット
ポーズ・構図・深度情報で画像生成を精密に制御する技術
拡散モデルに追加の制御条件を与える手法。棒人間のポーズ画像、エッジ検出画像、深度マップなどを入力として、構図やポーズを指定しながら画像を生成できます。テキストプロンプトだけでは難しい精密な構図制御を実現します。
アップスケーリングUpscaling / Super Resolution
低解像度の画像をAIで高解像度に拡大する技術
AIが画像の細部を推測・補完しながら解像度を2〜4倍に向上させる技術。単純な拡大とは異なり、テクスチャやエッジを知的に再構成します。AI生成画像の仕上げや、古い写真の復元にも活用されます。
Text-to-Videoテキスト→動画生成
テキストの説明から動画を自動生成する技術
テキストプロンプトから数秒〜数十秒の動画を生成する技術。2024年のSora登場以降急速に進化し、2026年現在は音声同期、カメラ制御、長尺生成にも対応。広告・プリビズ・SNSコンテンツ制作で実用化が進んでいます。
TTS / STT / Voice Clone音声合成・認識・複製
AIによるテキスト読み上げ・音声文字起こし・声の複製
TTS(Text-to-Speech): テキストを自然な音声に変換。ElevenLabs、OpenAI TTSなどが人間と区別困難なレベルに到達。
STT(Speech-to-Text): 音声をテキストに変換(文字起こし)。OpenAI Whisperが代表的。
Voice Clone: 数秒の音声サンプルから特定の声を複製する技術。ナレーションや多言語吹き替えに活用。
音楽生成AIAI Music Generation
テキストや条件指定から楽曲を自動生成する技術
「ジャズ風のリラックスしたBGM」のようなテキスト指示から、ボーカル入りの完成楽曲を数十秒で生成する技術。BGM制作、プロトタイピング、SNSコンテンツ用音楽に活用されています。
オープンソース vs クローズドソースOpen Source vs Closed Source
モデルの重みが公開されているか否かの分類
オープンソース(オープンウェイト): モデルの重みが公開され、自由にダウンロード・カスタマイズ・自社サーバーで実行可能。Llama 4(Meta)、Mistral、DeepSeekなど。
クローズドソース: API経由でのみ利用可能で、モデルの重みは非公開。GPT-5.2(OpenAI)、Claude(Anthropic)、Gemini(Google)など。
エッジAI / オンデバイスAIEdge AI / On-device AI
クラウドを使わずデバイス上でAIを実行する技術
スマートフォンやPC上でLLMを直接実行する技術。データを外部に送信しないためプライバシーが保護され、オフラインでも利用可能。Apple Intelligence、Google Gemini Nano、Ollama(ローカルLLM実行)などが代表例です。
プロンプトキャッシュPrompt Caching
繰り返し使うプロンプトの処理結果を再利用してコスト削減
同じシステムプロンプトや長い参照テキストを繰り返しAPIに送る場合、初回の処理結果をキャッシュして2回目以降の入力トークンコストを最大90%削減する技術。Anthropic、OpenAIなどの主要APIプロバイダーが提供しています。
バッチ処理Batch Processing
大量のリクエストをまとめて処理して50%コスト削減
即時応答が不要な大量のAPI呼び出しをバッチ(一括)で送信し、数時間以内に結果を受け取る方式。リアルタイム処理の約50%のコストで利用可能。大規模なデータ分析やコンテンツ生成に最適です。
AIガバナンスAI Governance
AI利用に関する法規制・倫理・企業方針の総称
AI技術の利用に関する法規制、倫理ガイドライン、社内ポリシーの整備を含む包括的な概念。EU AI Act(2025年施行開始)が世界初の包括的AI規制法として注目されています。著作権、個人情報保護、説明責任なども含む幅広いテーマです。
該当する用語が見つかりません
別のキーワードで検索してみてください