Zennta
ログイン
会員登録
検索
後で読む
お気に入り
お気に入りグループ
検索
Qiita一覧
Zenn一覧
お問い合わせフォーム
利用規約
プライバシーポリシー
記事がありません
1
特化型llm(Doujinshi-1.8b)の開発報告書③:特定のドメインに特化したsft用データセット(コーパス)の作成
特化型llm(Doujinshi-1.8b)の開発報告書②:特定のドメインに特化した事前学習用データセット(コーパス)の作成
大規模コーパスから類義語を取得する方法
大規模言語モデルを自作しよう!2 (C++コーパスクリーニング+Patch-Level Training)
Tanukiモデルが全角数字・記号を認識出来ない問題とその解決(LLM学習コーパスの正規化の落とし穴)
松尾研LLM開発 チームZoo(三内チーム)におけるコーパス構築
LLM 日本語データセット(コーパス)構築向け: C++ Exact dedup at scale(Suffix Array 構築編)
LLM コーパス構築用: deduplicate-text-datasets で Exact Dedup するメモ
JVSコーパスとESPNetを使って複数話者TTSモデル(VITS)を訓練させた
Locality Sensitive Hashingを用いた大規模コーパスの準重複文書排除
huggingface datasets に LLM 学習用の dataset(コーパス) を追加するメモ(めんどいんであまり推奨しない)
LLM 向け日本語データセット(コーパス)の整備メモ
「コーパス」とは?AI業界が突然コーパスに騒いでいる理由
ReazonSpeech 日本語コーパスダウンロードのメモ
SageMakerでJParaCrawlのコーパスを使って翻訳モデルを作成する
JTubeSpeech: YouTubeによる日本語音声コーパスの構築方法
自作ウェブアプリを使って自分でJVS/声優統計コーパスの読み上げを録音した話
1