Zennta

ログイン会員登録

検索後で読むお気に入りお気に入りグループ

履歴

履歴がありません

Qiita一覧

Zenn一覧

お問い合わせフォーム利用規約プライバシーポリシー

記事がありません

1

特化型llm(Doujinshi-1.8b)の開発報告書③:特定のドメインに特化したsft用データセット(コーパス)の作成

特化型llm(Doujinshi-1.8b)の開発報告書②:特定のドメインに特化した事前学習用データセット(コーパス)の作成

大規模コーパスから類義語を取得する方法

大規模言語モデルを自作しよう！2 (C++コーパスクリーニング+Patch-Level Training）

Tanukiモデルが全角数字・記号を認識出来ない問題とその解決（LLM学習コーパスの正規化の落とし穴）

松尾研LLM開発チームZoo(三内チーム)におけるコーパス構築

LLM 日本語データセット(コーパス)構築向け: C++ Exact dedup at scale(Suffix Array 構築編)

LLM コーパス構築用: deduplicate-text-datasets で Exact Dedup するメモ

JVSコーパスとESPNetを使って複数話者TTSモデル（VITS）を訓練させた

Locality Sensitive Hashingを用いた大規模コーパスの準重複文書排除

huggingface datasets に LLM 学習用の dataset(コーパス) を追加するメモ(めんどいんであまり推奨しない)

LLM 向け日本語データセット(コーパス)の整備メモ

「コーパス」とは？AI業界が突然コーパスに騒いでいる理由

ReazonSpeech 日本語コーパスダウンロードのメモ

SageMakerでJParaCrawlのコーパスを使って翻訳モデルを作成する

JTubeSpeech: YouTubeによる日本語音声コーパスの構築方法

自作ウェブアプリを使って自分でJVS/声優統計コーパスの読み上げを録音した話

1