]> Sergey Matveev's repositories - public-inbox.git/blobdiff - examples/grok-pull.post_update_hook.sh
nntp: use substr to check for trailing CRLF
[public-inbox.git] / examples / grok-pull.post_update_hook.sh
index 66c5cea509c067a017e58981858542e42ff4cfce..77489472123192ca1df6522e6a1bbaa8fe6845b5 100755 (executable)
@@ -1,8 +1,15 @@
 #!/bin/sh
+
+# use flock(1) from util-linux to avoid seek contention on slow HDDs
+# when using multiple `pull_threads' with grok-pull:
+# [ "${FLOCKER}" != "$0" ] && exec env FLOCKER="$0" flock "$0" "$0" "$@" || :
+
 # post_update_hook for repos.conf as used by grok-pull, takes a full
 # git repo path as it's first and only arg.
 full_git_dir="$1"
 
+url_base=http://127.0.0.1:8080/
+
 # same default as other public-inbox-* tools
 PI_CONFIG=${PI_CONFIG-~/.public-inbox/config}
 
@@ -15,19 +22,27 @@ if git --git-dir="$full_git_dir" ls-tree --name-only HEAD | \
        grep -E '^(m|d)$' >/dev/null
 then
        inbox_fmt=2
-       inbox_mainrepo=$(expr "$full_git_dir" : "$EPOCH2MAIN")
-       inbox_name=$(basename "$inbox_mainrepo")
-       msgmap="$inbox_mainrepo"/msgmap.sqlite3
+       inbox_dir=$(expr "$full_git_dir" : "$EPOCH2MAIN")
+       inbox_name=$(basename "$inbox_dir")
+       msgmap="$inbox_dir"/msgmap.sqlite3
+       inbox_lock="$inbox_dir"/inbox.lock
 else
        inbox_fmt=1
-       inbox_mainrepo="$full_git_dir"
-       inbox_name=$(basename "$inbox_mainrepo" .git)
-       msgmap="$inbox_mainrepo"/public-inbox/msgmap.sqlite3
+       inbox_dir="$full_git_dir"
+       inbox_name=$(basename "$inbox_dir" .git)
+       msgmap="$inbox_dir"/public-inbox/msgmap.sqlite3
+       inbox_lock="$inbox_dir"/ssoma.lock
 fi
 
 # run public-inbox-init iff unconfigured
-cfg_mainrepo=$(git config -f "$PI_CONFIG" publicinbox."$inbox_name".mainrepo)
-case $cfg_mainrepo in
+cfg_dir=$(git config -f "$PI_CONFIG" publicinbox."$inbox_name".inboxdir)
+
+# check legacy name for "inboxdir"
+case $cfg_dir in
+'') cfg_dir=$(git config -f "$PI_CONFIG" publicinbox."$inbox_name".mainrepo) ;;
+esac
+
+case $cfg_dir in
 '')
        remote_git_url=$(git --git-dir="$full_git_dir" config remote.origin.url)
        case $remote_git_url in
@@ -47,7 +62,8 @@ case $cfg_mainrepo in
        esac
 
        config_url="$remote_inbox_url"/_/text/config/raw
-       remote_config="$inbox_mainrepo"/remote.config.$$
+       remote_config="$inbox_dir"/remote.config.$$
+       infourls=
        trap 'rm -f "$remote_config"' EXIT
        if curl --compressed -sSf -v "$config_url" >"$remote_config"
        then
@@ -64,19 +80,21 @@ case $cfg_mainrepo in
                esac
                newsgroups=$(git config -f "$remote_config" -l | \
                        sed -ne 's/^publicinbox\..\+\.newsgroup=//p')
+               infourls=$(git config -f "$remote_config" -l | \
+                       sed -ne 's/^publicinbox\..\+.infourl=//p')
        else
                newsgroups=
                addresses="$inbox_name@$$.$(hostname).example.com"
                echo >&2 "E: curl $config_url failed"
-               echo >&2 "E: using bogus <$addresses> for $inbox_mainrepo"
+               echo >&2 "E: using bogus <$addresses> for $inbox_dir"
        fi
-       local_url="http://127.0.0.1:8080/$inbox_name"
+       local_url="$url_base$inbox_name"
        public-inbox-init -V$inbox_fmt "$inbox_name" \
-               "$inbox_mainrepo" "$local_url" $addresses
+               "$inbox_dir" "$local_url" $addresses
 
        if test $? -ne 0
        then
-               echo >&2 "E: public-inbox-init failed on $inbox_mainrepo"
+               echo >&2 "E: public-inbox-init failed on $inbox_dir"
                exit 1
        fi
 
@@ -87,7 +105,13 @@ case $cfg_mainrepo in
                # only one newsgroup per inbox
                break
        done
-       echo "I: $inbox_name at $inbox_mainrepo ($addresses) $local_url"
+       for url in $infourls
+       do
+               git config -f "$PI_CONFIG" \
+                       "publicinbox.$inbox_name.infourl" "$url"
+       done
+       curl -sSfv "$remote_inbox_url"/description >"$inbox_dir"/description
+       echo "I: $inbox_name at $inbox_dir ($addresses) $local_url"
        ;;
 esac
 
@@ -96,13 +120,27 @@ esac
 # don't know what indexlevel a user wants
 if test -f "$msgmap"
 then
-       n=$(echo 'SELECT COUNT(*) FROM msgmap' | sqlite3 -readonly "$msgmap")
+       # We need to use flock(1) (from util-linux) to avoid timeouts
+       # and SQLite locking problems.
+       # FreeBSD has a similar lockf(1) utility, but it unlinks by
+       # default so we use `-k' to keep the lock on the FS.
+       FLOCK=flock
+       case $(uname -s) in
+       FreeBSD) FLOCK='lockf -k' ;;
+       # ... other OSes here
+       esac
+
+       n=$(echo 'SELECT COUNT(*) FROM msgmap' | \
+               $FLOCK $inbox_lock sqlite3 -readonly "$msgmap")
        case $n in
        0|'')
                : v2 inboxes may be init-ed with an empty msgmap
                ;;
        *)
-               $EATMYDATA public-inbox-index -v "$inbox_mainrepo"
+               # if on HDD and limited RAM, add `--sequential-shard'
+               # and possibly a large `--batch-size' if you have much
+               # memory in public-inbox 1.6.0+
+               $EATMYDATA public-inbox-index -v "$inbox_dir"
                ;;
        esac
 fi