Zennta

ログイン会員登録

検索後で読むお気に入りお気に入りグループ

履歴

履歴がありません

Qiita一覧

Zenn一覧

お問い合わせフォーム利用規約プライバシーポリシー

1

sarashina2.2-1b-instruct-v0.1をAWQで量子化する

TanukiモデルのAWQ、GPTQ、GGUF量子化について

NVIDIA RTX3060(12GB)でLLMを試す：AWQ量子化

ELYZA-japanese-Llama-2-7bをAWQ化して利用する

PrismaのRawQueryでのBoolean値の扱いについて

1

1
2
3

論文紹介：OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models

AIソムリエ向けに各種LLMのテイスティングサンプルを作ってみた

作って理解するMLflow ChatAgetのresource指定

N番煎じでRinna社のQwen2.5 Bakeneko 32B Instruct V2を試す

Databricks Genie APIを使った社内データに基づくDeepResearch(もどき)を作る

N番煎じでRinna社のQwQ-Bakeneko-32Bを試す

MLflow 2.20.2時点のChatAgentインターフェースでSGLangを使ったLLMのサービングをしてみる

論文紹介：AWQ: ACTIVATION-AWARE WEIGHT QUANTIZATION FOR ON-DEVICE LLM COMPRESSION AND ACCELERATION

Apple-NVIDIAが公開したReDrafterについて

ローカルLLMでgptmeを動かしてみた

ローカルLLM

C#でChatGPTをローカルで動かしてみる(本当はphi-3-mini)

LLMの推論で推論パラメータの値を変化させ出力の変化を確認してみた

パラメータ

ローカル LLM で Chat GPT に匹敵する性能を追求 - マルチ GPU 環境の vLLM で Qwen2.5 Coder を動かす

Dockerでローカル日本語LLMの構築

N番煎じでQwen2.5をDatabricks Mosaic AI Model Serving上で試す

LLMsの社会的規範とプライバシーを評価する新たなアプローチ：LLM-CIフレームワークの詳細解説

プライバシー保護

Phi-3.5-mini-instruct のモデルを ONNX 形式に変換して動かしてみる

量子化したLLMを低GPUリソースでfinetuningする

最新LLM Llama3.1 を AWQ で4bit量子化して GPUサーバーに乗せてチャットできるようにした

Llama-3-ELYZA-JP-8B を GPT3.5 と比較して使ったらすごかった

Terraform で KVM 上に Single Node OpenShift/OKD (SNO) を構築する

XinferenceでローカルLLMを使う

OCI の A10 インスタンスを使って Hugging Face にある色々な LLM モデルの推論をサクっと試す

[アーカイブ: 新投稿あり] OCI の A10 インスタンスを使って Hugging Face にある色々な LLM モデルの推論をサクっと試す

ローカル環境で大規模言語モデルをAPIサーバを動作させる text-generation-webui編

text-generation-webui

日本語LLM 9種を量子化して回答内容を比較調査してみた

OpenVINO™ 2024.0 の概要: パフォーマンスの強化とサポートの拡張で開発者を支援

langchainとDatabricksで(私が)学ぶRAG : LangGraphとローカルLLMによるAgentを使ったRAG

1
2
3