]> Sergey Matveev's repositories - feeder.git/blob - doc/warcs.texi
Various refactoring and parametrizing
[feeder.git] / doc / warcs.texi
1 @node WARCs
2 @unnumbered WARCs
3
4 Similarly to @ref{Enclosures, enclosures} downloading, you may run
5 downloading of @code{X-URL} URLs, pointing to the article itself. If it
6 is HTML document, then it can depend on various other resources, like
7 images and stylesheets. @url{https://www.gnu.org/software/wget/, GNU Wget}
8 has ability to download it with all required requisites. Moreover it is
9 able to output the whole document in
10 @url{https://en.wikipedia.org/wiki/Web_ARChive, WARC} format.
11
12 @example
13 $ ./feeds-warcs.zsh
14 [...]
15 www.darkside.ru_news_rss/warcs/20220218-145755-www.darkside.ru_news_140480.warc
16 [...]
17 @end example
18
19 It is not compressed by default. You can both view and compress them
20 with @url{https://www.tofuproxy.stargrave.org/WARCs.html, tofuproxy}'s
21 help as an option. After you get pile of various @file{*.warc} files,
22 you can simply add them to running @command{tofuproxy}:
23
24 @example
25 $ for w (feeds/*/warcs/*.warc) print $w:a > path/to/tofuproxy/fifos/add-warcs
26 @end example
27
28 And then visit @url{http://warc/} URL (when @command{tofuproxy} already
29 acts as a proxy) to view and visit existing URLs.
30
31 Of course you can also download only single feed's enclosures:
32
33 @example
34 $ cmd/warcs.zsh path/to/FEED [optional overriden destination directory]
35 @end example