]> Sergey Matveev's repositories - feeder.git/blob - doc/warcs.texi
Enclosures and WARCs downloader
[feeder.git] / doc / warcs.texi
1 @node WARCs
2 @unnumbered WARCs
3
4 Similarly to @ref{Enclosures, enclosures} downloading, you may run
5 downloading of @code{X-URL} URLs, pointing to the article itself. If it
6 is HTML document, then it can depend on various other resources, like
7 images and stylesheets. @url{https://www.gnu.org/software/wget/, GNU Wget}
8 has ability to download it with all required requisites. Moreover it is
9 able to output the whole document in
10 @url{https://en.wikipedia.org/wiki/Web_ARChive, WARC} format.
11
12 @example
13 $ mkdir path/to/warcs
14 $ ./feeds-warcs.zsh path/to/warcs
15 [...]
16 www.darkside.ru_news_140480-20220218-145755.warc
17 [...]
18 @end example
19
20 It is not compressed by default. You can both view and compress them
21 with @url{https://www.tofuproxy.stargrave.org/WARCs.html, tofuproxy}'s
22 help as an option. After you get pile of various @file{*.warc} files,
23 you can simply add them to running @command{tofuproxy}:
24
25 @example
26 $ for w (path/to/warcs/*.warc) print $w > path/to/tofuproxy/fifos/add-warcs
27 @end example
28
29 And then visit @url{http://warc/} URL (when @command{tofuproxy} already
30 acts as a proxy) to view and visit existing URLs.