From cace83e27a1acafe57f32cc5eee4bb1078f20e74 Mon Sep 17 00:00:00 2001
From: Sergey Matveev <stargrave@stargrave.org>
Date: Tue, 19 Oct 2021 14:54:56 +0300
Subject: [PATCH] =?utf8?q?=D0=A3=D0=BB=D1=83=D1=87=D1=88=D0=B5=D0=BD=D0=B8?=
 =?utf8?q?=D1=8F=20WARC-=D0=B0=20=D0=B2=20tofuproxy?=
MIME-Version: 1.0
Content-Type: text/plain; charset=utf8
Content-Transfer-Encoding: 8bit

https://iipc.github.io/warc-specifications/specifications/warc-zstd/
ÐÑÐµÐ¶Ð´Ðµ ÑÐ¶Ð°ÑÑÐµ WARC-Ð¸ Ð² tofuproxy Ð¿Ð¾Ð´Ð´ÐµÑÐ¶Ð¸Ð²Ð°Ð»Ð¸ÑÑ, Ð½Ð¾ Ð½Ð¸ÐºÐ°ÐºÐ¾Ð³Ð¾
Ð¾Ð¿ÑÐ¸Ð¼Ð°Ð»ÑÐ½Ð¾Ð³Ð¾ Ð¸Ð½Ð´ÐµÐºÑÐ¸ÑÐ¾Ð²Ð°Ð½Ð¸Ñ Ð¸ Ð¿ÐµÑÐµÐ¼ÐµÑÐµÐ½Ð¸Ñ Ð¿Ð¾ Ð½Ð¸Ð¼ (Ð¿Ð¾ ÑÐµÐ³Ð¼ÐµÐ½ÑÐ°Ð¼ gzip Ð¸Ð»Ð¸
frame-Ð°Ð¼ zstd) Ð½Ðµ Ð±ÑÐ»Ð¾. Ð¢ÐµÐ¿ÐµÑÑ Ð²Ð¾ Ð²ÑÐµÐ¼Ñ Ð¿Ð°ÑÑÐ¸Ð½Ð³Ð° WARC-Ð° Ð²ÑÐµ ÑÑÐ¸ ÑÐ¼ÐµÑÐµÐ½Ð¸Ñ
ÑÑÐ¸ÑÑÐ²Ð°ÑÑÑÑ Ð¸ ÐºÐ»Ð°Ð´ÑÑÑÑ Ð² Ð¸Ð½Ð´ÐµÐºÑ.

Ð¡ gzip-Ð¾Ð¼ Ð¿ÑÐ¾Ð±Ð»ÐµÐ¼ Ð½Ðµ Ð²Ð¾Ð·Ð½Ð¸ÐºÐ°Ð»Ð¾, Ð° Ð²Ð¾Ñ Ñ Zstandard Ð²ÑÐµ Go-ÑÐ½ÑÐµ Ð±Ð¸Ð±Ð»Ð¸Ð¾ÑÐµÐºÐ¸
Ð¼ÐµÐ½Ñ Ð½Ðµ ÑÑÑÑÐ°Ð¸Ð²Ð°ÑÑ: Ð½Ð¸ÐºÑÐ¾ Ð½Ðµ Ð¿ÑÐµÐ´Ð¾ÑÑÐ°Ð²Ð»ÑÐµÑ Ð²Ð¾Ð·Ð¼Ð¾Ð¶Ð½Ð¾ÑÑÐ¸ Ð¾ÑÑÐ°Ð½Ð¾Ð²Ð¸ÑÑÑ Ð¿Ð¾ÑÐ»Ðµ
ÑÑÐµÐ½Ð¸Ñ frame-Ð° (ÐºÑÐ¾-ÑÐ¾ Ð¿ÑÐµÐ´Ð¾ÑÑÐ°Ð²Ð»ÑÐ», Ð½Ð¾ Ð½Ðµ ÑÐ°Ð±Ð¾ÑÐ°Ð» Ð¿Ð¾ ÑÐ°ÐºÑÑ, Ð¿Ð°Ð´Ð°Ð»).
ÐÐ°Ð»ÐµÐ· Ð² Ð¸ÑÑÐ¾Ð´Ð½ÑÐ¹ ÐºÐ¾Ð´, Ð½Ð¾ ÑÐ·Ð½Ð°ÑÑ Ð¿ÑÐ¸ ÑÑÐ¾Ð¼ ÑÐ¾ÑÐ½Ð¾Ðµ ÑÐ¼ÐµÑÐµÐ½Ð¸Ðµ Ð½Ð°ÑÐ°Ð»Ð¾/ÐºÐ¾Ð½ÑÐ°
ÐºÐ°Ð´ÑÐ¾Ð² ÐºÐ°Ðº-ÑÐ¾ Ð³ÐµÐ¼Ð¾ÑÑÐ¾Ð¹Ð½Ð¾. Ð Ð¸ÑÐ¾Ð³Ðµ Ð½Ð°Ð¿Ð¸ÑÐ°Ð» Ð½Ð° Ð¡Ð¸ ÑÑÐ¸Ð»Ð¸ÑÑ: zstd Ð¸Ð´ÑÑ Ð²
stdin, Ð´ÐµÐºÐ¾Ð¼Ð¿ÑÐµÑÑÐ¸Ñ Ð² stdout, Ð² 3-Ð¸Ð¹ ÑÐ°Ð¹Ð»Ð¾Ð²ÑÐ¹ Ð´ÐµÑÐºÑÐ¸Ð¿ÑÐ¾Ñ TSV ÑÐ°Ð±Ð»Ð¸ÑÐ°
ÑÐ¼ÐµÑÐµÐ½Ð¸Ð¹ ÐºÐ°Ð´ÑÐ¾Ð² Ð¸ Ð´ÐµÐºÐ¾Ð¼Ð¿ÑÐµÑÑÐ¸ÑÐ¾Ð²Ð°Ð½Ð½ÑÑ Ð´Ð°Ð½Ð½ÑÑ.

ÐÐ·ÑÐ»ÑÑ Ð¿Ð¸ÑÐ°ÑÑ zstd ÐºÐ¾Ð¼Ð¿ÑÐµÑÑÐ¾Ñ ÐºÐ¾ÑÐ¾ÑÑÐ¹ Ð±Ñ Ð´ÐµÐ»Ð°Ð» multi-frame ÐºÐ¾Ð¼Ð¿ÑÐµÑÑÐ¸Ñ
WARC-Ð¾Ð², ÐºÐ°Ðº ÑÑÐ¾ Ð¾Ð¿Ð¸ÑÐ°Ð½Ð¾ Ð² ÑÐµÑÐ½Ð¾Ð²Ð¸ÐºÐµ .warc.zst "ÑÑÐ°Ð½Ð´Ð°ÑÑÐ°", Ð½Ð¾ Ð¾Ð½ ÑÐ¿Ð¾ÑÐ½Ð¾
Ð½Ðµ ÑÐ¾ÑÐµÐ» Ð·Ð°Ð¿Ð¾Ð»Ð½ÑÑÑ ÑÐ°Ð·Ð¼ÐµÑ ÐºÐ°Ð´ÑÐ¾Ð² ÐºÐ¾ÑÑÐµÐºÑÐ½Ð¾ (ÑÑÐ¾ Ð¾Ð¿ÑÐ¸Ð¾Ð½Ð°Ð»ÑÐ½Ð¾Ðµ Ð¿Ð¾Ð»Ðµ), ÑÐµÐ³Ð¾
ÑÑÐµÐ±Ð¾Ð²Ð°Ð» ÑÑÐ°Ð½Ð´Ð°ÑÑ. Ð Ð¸ÑÐ¾Ð³Ðµ Ð½Ð°Ð¿Ð¸ÑÐ°Ð» Ð´ÑÑÐ³ÑÑ Ð¡Ð¸ ÑÑÐ¸Ð»Ð¸ÑÑ Ð´Ð»Ñ ÑÑÐ¾Ð³Ð¾, Ð²
ÐºÐ¾ÑÐ¾ÑÐ¾Ð¹ Ð±ÐµÐ· Ð¿ÑÐ¾Ð±Ð»ÐµÐ¼ Ð²ÑÑ ÑÐ¾ÑÐ¼Ð¸ÑÑÑ.

.warc.zst Ð¾ÐºÐ°Ð·ÑÐ²Ð°ÐµÑÑÑ Ð²Ð¾Ð²ÑÑ ÑÐ¶Ðµ Ð´ÐµÐ»Ð°ÑÑÑÑ Ð½Ðµ Ð¿ÐµÑÐ²ÑÐ¹ Ð³Ð¾Ð´ Ð² Internet
Archive. ÐÐ¾Ð»ÐµÐµ ÑÐ¾Ð³Ð¾, Ð¾Ð½Ð¸ Ð´ÐµÐ»Ð°ÑÑ ÑÐ¶Ð°ÑÐ¸Ðµ Ñ Ð²ÑÑÑÐ¾ÐµÐ½Ð½ÑÐ¼ ÑÐ»Ð¾Ð²Ð°ÑÑÐ¼, ÐºÐ¾ÑÐ¾ÑÑÐ¹
ÑÐ¾Ð¶Ðµ Ñ Ð¼ÐµÐ½Ñ Ð¿Ð¾Ð´Ð´ÐµÑÐ¶Ð¸Ð²Ð°ÐµÑÑÑ. ÐÐ°Ð¿ÑÐ¸Ð¼ÐµÑ:
https://archive.org/details/archiveteam_yahooanswers_20210422220546_c4fac540
-- 
2.51.0