Zennta
ログイン
会員登録
検索
後で読む
お気に入り
お気に入りグループ
検索
Qiita一覧
Zenn一覧
お問い合わせフォーム
利用規約
プライバシーポリシー
1
sarashina2.2-1b-instruct-v0.1をAWQで量子化する
TanukiモデルのAWQ、GPTQ、GGUF量子化について
NVIDIA RTX3060(12GB)でLLMを試す:AWQ量子化
ELYZA-japanese-Llama-2-7bをAWQ化して利用する
PrismaのRawQueryでのBoolean値の扱いについて
1
1
2
3
論文紹介:OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models
論文読み
量子化
LLM
AIソムリエ向けに各種LLMのテイスティングサンプルを作ってみた
cloudflare
grok
OpenAI
Gemini
LLM
作って理解するMLflow ChatAgetのresource指定
Databricks
MLflow
N番煎じでRinna社のQwen2.5 Bakeneko 32B Instruct V2を試す
Databricks
rinna
LLM
Databricks Genie APIを使った社内データに基づくDeepResearch(もどき)を作る
Databricks
Genie
LLM
N番煎じでRinna社のQwQ-Bakeneko-32Bを試す
Databricks
LLM
QwQ
MLflow 2.20.2時点のChatAgentインターフェースでSGLangを使ったLLMのサービングをしてみる
Databricks
MLflow
LLM
SGLang
test
テスト
猫
猫2
論文紹介:AWQ: ACTIVATION-AWARE WEIGHT QUANTIZATION FOR ON-DEVICE LLM COMPRESSION AND ACCELERATION
論文読み
量子化
LLM
Apple-NVIDIAが公開したReDrafterについて
NVIDIA
Apple
ReDrafter
ローカルLLMでgptmeを動かしてみた
LLM
ELYZA
LMStudio
ローカルLLM
gptme
C#でChatGPTをローカルで動かしてみる(本当はphi-3-mini)
C#
WinUI3
LLM
LLMの推論で推論パラメータの値を変化させ出力の変化を確認してみた
パラメータ
推論
LLM
Tanuki-8x8B
ローカル LLM で Chat GPT に匹敵する性能を追求 - マルチ GPU 環境の vLLM で Qwen2.5 Coder を動かす
Ray
AI
生成AI
ChatGPT
vLLM
Dockerでローカル日本語LLMの構築
Python
Docker
AI
LLM
N番煎じでQwen2.5をDatabricks Mosaic AI Model Serving上で試す
n番煎じ
Databricks
ModelServing
Qwen
MosaicAI
LLMsの社会的規範とプライバシーを評価する新たなアプローチ:LLM-CIフレームワークの詳細解説
プライバシー保護
AI倫理
LLM
Phi-3.5-mini-instruct のモデルを ONNX 形式に変換して動かしてみる
ONNX
ONNXRUNTIME
LLM
Phi-3
量子化したLLMを低GPUリソースでfinetuningする
FineTuning
transformers
quantization
LLM
QLORA
最新LLM Llama3.1 を AWQ で4bit量子化して GPUサーバーに乗せて チャットできるようにした
Python
LLM
llama3.1
Llama-3-ELYZA-JP-8B を GPT3.5 と比較して使ったらすごかった
Python
LLM
ELYZA
Terraform で KVM 上に Single Node OpenShift/OKD (SNO) を構築する
KVM
openshift
kubernetes
Terraform
OKD
XinferenceでローカルLLMを使う
LLM
XInference
OCI の A10 インスタンスを使って Hugging Face にある色々な LLM モデルの推論をサクっと試す
oci
oraclecloud
Inference
GenerativeAI
LLM
[アーカイブ: 新投稿あり] OCI の A10 インスタンスを使って Hugging Face にある色々な LLM モデルの推論をサクっと試す
oci
oraclecloud
Inference
GenerativeAI
LLM
ローカル環境で大規模言語モデルをAPIサーバを動作させる text-generation-webui編
GPU
LLM
text-generation-webui
日本語LLM 9種を量子化して回答内容を比較調査してみた
量子化
LLM
OpenVINO™ 2024.0 の概要: パフォーマンスの強化とサポートの拡張で開発者を支援
DeepLearning
intel
OpenVINO
生成AI
LLM
langchainとDatabricksで(私が)学ぶRAG : LangGraphとローカルLLMによるAgentを使ったRAG
Databricks
rag
LangChain
LLM
LangGraph
1
2
3