]> Sergey Matveev's repositories - tofuproxy.git/blobdiff - doc/warcs.texi
Download link for 0.6.0 release
[tofuproxy.git] / doc / warcs.texi
index a88cde4e9e135d111f1e0740d6f13545af30380f..757f344c82c255fbaa0ac418248af254484b3364 100644 (file)
@@ -24,7 +24,7 @@ Zstandard compressed WARC, as in
 Multi-frame format is properly indexed. Dictionary at the beginning
 is also supported.
 
-It is processed with with @command{unzstd} (@file{cmd/zstd/unzstd})
+It is processed with @command{unzstd} (@file{cmd/zstd/unzstd})
 utility. It eats compressed stream from @code{stdin}, outputs
 decompressed data to @code{stdout}, and prints each frame size with
 corresponding decompressed data size to 3rd file descriptor (if it is
@@ -38,7 +38,7 @@ opened).
 Load WARCs:
 
 @example
-$ tee fifos/add-warcs < warcs.txt
+$ tee fifos/add-warcs <warcs.txt
 smth.warc-00000.warc.gz
 smth.warc-00001.warc.gz
 smth.warc-00002.warc.gz
@@ -64,7 +64,7 @@ smth.warc-00000.warc.gz 154
 smth.warc-00001.warc.gz 13
 smth.warc-00002.warc.gz 0
 another.warc 123
-$ echo another.warc > fifos/del-warcs
+$ echo another.warc >fifos/del-warcs
 @end example
 
 One possibility that @file{smth.warc-00002.warc.gz} has no URIs is that
@@ -73,22 +73,22 @@ it contains continuation segmented records.
 @end itemize
 
 Loading of WARC involves its whole reading and remembering where is each
-URI response is located. You can @code{echo SAVE > fifos/add-warcs} to
+URI response is located. You can @code{echo SAVE >fifos/add-warcs} to
 save in-memory index to the disk as @file{....idx.gob} files. During
 the next load, if those files exists, they are used as index immediately,
 without expensive WARC parsing.
 
-@code{redo warc-extract.cmd} utility uses exactly the same code for
-parsing WARCs. It can be used to check if WARCs can be successfully
+@code{cmd/warc-extract/warc-extract} utility uses exactly the same code
+for parsing WARCs. It can be used to check if WARCs can be successfully
 loaded, to list all URIs after, to extract some specified URI and to
-pre-generate @file{.idx.gob} indexes.
+pre-generate @file{.idx.gob} indices.
 
 @example
-$ warc-extract.cmd -idx \
+$ cmd/warc-extract/warc-extract -idx \
     smth.warc-00000.warc.gz \
     smth.warc-00001.warc.gz \
     smth.warc-00002.warc.gz
-$ warc-extract.cmd -uri http://some/uri \
+$ cmd/warc-extract/warc-extract -uri http://some/uri \
     smth.warc-00000.warc.gz \
     smth.warc-00001.warc.gz \
     smth.warc-00002.warc.gz
@@ -99,9 +99,8 @@ from any kind of already existing WARCs. It has better compression ratio
 and much higher decompression speed, than @file{.warc.gz}.
 
 @example
-$ redo cmd/enzstd/enzstd
-$ ./warc-extract.cmd -for-enzstd /path/to.warc.gz |
-    cmd/enzstd/enzstd > /path/to.warc.zst
+$ cmd/warc-extract/warc-extract -for-enzstd /path/to.warc.gz |
+    cmd/zstd/enzstd >/path/to.warc.zst
 @end example
 
 @url{https://www.gnu.org/software/wget/, GNU Wget} can be easily used to
@@ -112,3 +111,6 @@ $ wget ... [--page-requisites] [--recursive] \
     --no-warc-keep-log --no-warc-digests [--warc-max-size=XXX] \
     --warc-file smth.warc ...
 @end example
+
+Or even more simpler @url{https://git.jordan.im/crawl/tree/README.md, crawl}
+utility written on Go too.