]> Sergey Matveev's repositories - tofuproxy.git/blobdiff - doc/warcs.texi
Mention crawl website crawler
[tofuproxy.git] / doc / warcs.texi
index feac377799445ff446e18e8560c8088256ed9360..681354ea6b41ed11ba95efe61554a461004c0087 100644 (file)
@@ -81,7 +81,7 @@ without expensive WARC parsing.
 @code{redo warc-extract.cmd} utility uses exactly the same code for
 parsing WARCs. It can be used to check if WARCs can be successfully
 loaded, to list all URIs after, to extract some specified URI and to
-pre-generate @file{.idx.gob} indexes.
+pre-generate @file{.idx.gob} indices.
 
 @example
 $ warc-extract.cmd -idx \
@@ -99,9 +99,9 @@ from any kind of already existing WARCs. It has better compression ratio
 and much higher decompression speed, than @file{.warc.gz}.
 
 @example
-$ redo cmd/enzstd/enzstd
+$ redo cmd/zstd/enzstd
 $ ./warc-extract.cmd -for-enzstd /path/to.warc.gz |
-    cmd/enzstd/enzstd > /path/to.warc.zst
+    cmd/zstd/enzstd > /path/to.warc.zst
 @end example
 
 @url{https://www.gnu.org/software/wget/, GNU Wget} can be easily used to
@@ -112,3 +112,6 @@ $ wget ... [--page-requisites] [--recursive] \
     --no-warc-keep-log --no-warc-digests [--warc-max-size=XXX] \
     --warc-file smth.warc ...
 @end example
+
+Or even more simpler @url{https://git.jordan.im/crawl/tree/README.md, crawl}
+utility written on Go too.