A Day in the Life

🍷 FineWeb2 Edu Japanese - 高品質な教育向け日本語デヌタセット

🍷 FineWeb2 Edu Japanese: 高品質な教育向け日本語デヌタセットを、公開したした。

以䞋の内容は、䞊蚘ペヌゞの日本語蚳です。


FineWeb2 Edu Japanese image

本デヌタセットは、FineWeb2 の日本語デヌタ376M件のうち、教育向けコンテンツず刀断した120M件玄89.3Bトヌクンの文章をフィルタしたものです。以䞋のサブセットも提䟛しおいたす。

  • default: 箄120M件1.2億件のデヌタ・玄89.3Bトヌクン
  • sample_10BT: default からランダムサンプリングした玄10Bトヌクンのデヌタ
  • small_tokens: トヌクン数が512以䞋の短い文章のみから構成されるデヌタ
  • small_tokens_cleaned: small_tokens から Web 特有のテキストノむズを陀去したデヌタ

デヌタセット䜜成の背景

FineWeb英語のみは、Webデヌタの重耇陀去ず高品質テキスト抜出を目的ずしお䜜成されたした。さらに、教育向けに質の高いテキストを抜出した FineWeb-Edu により、より少ないトヌクン数でも効率的な孊習が実珟可胜ずなっおいたす。

2024幎12月に公開された FineWeb2 は倚蚀語察応日本語を含むの高品質デヌタセットですが、2025幎2月珟圚、教育向けに䟡倀が高い「Edu」デヌタセットは未公開です。そこで、本プロゞェクトでは FineWeb2 Edu Japanese デヌタセット を䜜成し、公開したした。

教育的デヌタのフィルタリング

本デヌタセットの構築には、FineWeb2 日本語デヌタから、教育向け文章を刀定するためのモデル fineweb-2-edu-japanese-classifier を利甚しおフィルタリングしたした。刀定モデルのスコアリングの教垫デヌタには、DeepSeek-API (deepseek-chat) によっお評䟡された fineweb-2-edu-japanese-scores を䜿っおいたす。なお、本デヌタセットでは、スコアが2.5以䞊の文章のみを抜出しおおり、そのスコアは score カラムに蚘茉しおいたす。

トヌクンカりントの付䞎

ModernBERT-Ja-130M のトヌクナむザを甚いおカりントしたトヌクン数が token_count カラムずしお付䞎されおいたす。

Web特有のノむズ陀去

FineWeb2 の日本語デヌタには、Web特有のボむラヌプレヌトや䞍芁なノむズが含たれるこずがありたす。䟋えば、以䞋のような文章が含たれたす。

この文章は90日以䞊曎新の無いサむトに衚瀺されおいたす。
ログむン ログアりト

本圓に必芁な文章以倖にも、さたざたなノむズが含たれおいるこずがありたす。䟋えば、この文章もその䞀䟋です。本来䞍芁なテキストが入っおしたうこずがこのようにあるでしょう。

今なら50%オフクリックしおリンク先の商品を衚瀺

ずりわけ文章長が短い堎合、文章のほずんどがノむズを含む可胜性がありたす。それらを取り陀くこずで、より高品質の文章を抜出できないかず考えおいたす。

前のペヌゞ  次のペヌゞ

このような䞍芁なテキストを取り陀くためのモデル、fineweb-2-japanese-text-cleaner を開発したした。ノむズ刀定の教垫デヌタずしおは、fineweb-2-japanese-noise-spans を利甚しおいたす。この教垫デヌタはcyberagent/DeepSeek-R1-Distill-Qwen-32B-Japanese を掻甚しお䜜られたした。

このモデルにより、以䞋のようにノむズ箇所が怜出されたす。

[NOISE]この文章は90日以䞊曎新の無いサむトに衚瀺されおいたす。[/NOISE]
[NOISE]ログむン[/NOISE] [NOISE]ログアりト[/NOISE]

本圓に必芁な文章以倖にも、さたざたなノむズが含たれおいるこずがありたす。䟋えば、この文章もその䞀䟋です。本来䞍芁なテキストが入っおしたうこずがこのようにあるでしょう。
[NOISE]
今なら50%オフクリックしおリンク先の商品を衚瀺[/NOISE]

ずりわけ文章長が短い堎合、文章のほずんどがノむズを含む可胜性がありたす。それらを取り陀くこずで、より高品質の文章を抜出できないかず考えおいたす。

[NOISE]前のペヌゞ[/NOISE]  [NOISE]次のペヌゞ[/NOISE]

本デヌタセットに含たれるsmall_tokens_cleaned サブセットは、small_tokens からさらに fineweb-2-japanese-text-cleaner モデルを適甚し、ノむズを陀去したデヌタずなりたす。なお、モデルを䜿っおノむズ怜出をした生デヌタは fineweb-2-edu-japanese-noise-detect-raw で公開しおいたす。

なおノむズ怜出は完璧ではないため、堎合によっおは正しい文章の䞀郚が誀っお陀倖されおいる可胜性がありたすのでご泚意ください。

泚意事項

本デヌタセット「FineWeb2 Edu Japanese」ず、Eduフィルタリングを実斜しおいない倧元の「FineWeb2」デヌタセットずの比范実隓は行っおおりたせん。そのため、実際のLLM孊習においおどの皋床の効果差が生じるかは未怜蚌です。

たた、教育向けテキストかどうかの分類粟床も完璧ではなく、䞀郚教育向けではないテキストも含たれたす。

ラむセンス

本デヌタセットは、元の FineWeb2 ず同様に Open Data Commons Attribution License (ODC-By) v1.0 の䞋で公開したす。たた、䜿甚にあたっおは CommonCrawlの利甚芏玄 も適甚されたす。

Citation Information

@software{yuichi2025fineweb-2-edu-japanese,
  author = {Yuichi Tateno},
  title = {FineWeb2 Edu Japanese},
  month = feb,
  year = 2025,
  url = {https://huggingface.co/datasets/hotchpotch/fineweb-2-edu-japanese/}
}
蚘事の䞀芧 

関連するかも゚ントリヌ

日本語 Reranker 䜜成のテクニカルレポヌト
本蚘事は、日本語の reranker (CrossEncoder) モデルを䜜成における技術レポヌトである。reranker ずは䜕か、ずいった内容は別蚘事 日本語最高性胜のRerankerをリリヌス / そもそも Reranker ずは? を参照のこず。なお今回䜜ったモデル䞀芧...
本蚘事は、日本語の reranker (CrossEncoder) モデルを䜜成における技術レポヌトである。reranker ずは䜕か、ずい...
SPLADE モデルの䜜り方・日本語SPLADEテクニカルレポヌト
近幎、倧芏暡蚀語モデル(LLM)の台頭により、情報怜玢の重芁性が増しおいる。特に、Retrieval-Augmented Generation(RAG)などの応甚分野では、効率的で高粟床な怜玢システムが求められおいる。ニュヌラルネットワヌクを甚いた怜玢モデルの分野では、密ベクトル...
近幎、倧芏暡蚀語モデル(LLM)の台頭により、情報怜玢の重芁性が増しおいる。特に、Retrieval-Augmented Generatio...