]> Sergey Matveev's repositories - public-inbox.git/blob - lib/PublicInbox/Syscall.pm
No ext_urls
[public-inbox.git] / lib / PublicInbox / Syscall.pm
1 # This is a fork of the (for now) unmaintained Sys::Syscall 0.25,
2 # specifically the Debian libsys-syscall-perl 0.25-6 version to
3 # fix upstream regressions in 0.25.
4 #
5 # See devel/syscall-list in the public-inbox source tree for maintenance
6 # <https://80x24.org/public-inbox.git>, and machines from the GCC Farm:
7 # <https://cfarm.tetaneutral.net/>
8 #
9 # This license differs from the rest of public-inbox
10 #
11 # This module is Copyright (c) 2005 Six Apart, Ltd.
12 # Copyright (C) all contributors <meta@public-inbox.org>
13 #
14 # All rights reserved.
15 #
16 # You may distribute under the terms of either the GNU General Public
17 # License or the Artistic License, as specified in the Perl README file.
18 package PublicInbox::Syscall;
19 use v5.12;
20 use parent qw(Exporter);
21 use POSIX qw(ENOENT ENOSYS EINVAL O_NONBLOCK);
22 use Socket qw(SOL_SOCKET SCM_RIGHTS);
23 use Config;
24 our %SIGNUM = (WINCH => 28); # most Linux, {Free,Net,Open}BSD, *Darwin
25
26 # $VERSION = '0.25'; # Sys::Syscall version
27 our @EXPORT_OK = qw(epoll_ctl epoll_create epoll_wait
28                   EPOLLIN EPOLLOUT EPOLLET
29                   EPOLL_CTL_ADD EPOLL_CTL_DEL EPOLL_CTL_MOD
30                   EPOLLONESHOT EPOLLEXCLUSIVE
31                   signalfd rename_noreplace %SIGNUM);
32 our %EXPORT_TAGS = (epoll => [qw(epoll_ctl epoll_create epoll_wait
33                              EPOLLIN EPOLLOUT
34                              EPOLL_CTL_ADD EPOLL_CTL_DEL EPOLL_CTL_MOD
35                              EPOLLONESHOT EPOLLEXCLUSIVE)],
36                 );
37
38 use constant {
39         EPOLLIN => 1,
40         EPOLLOUT => 4,
41         # EPOLLERR => 8,
42         # EPOLLHUP => 16,
43         # EPOLLRDBAND => 128,
44         EPOLLEXCLUSIVE => (1 << 28),
45         EPOLLONESHOT => (1 << 30),
46         EPOLLET => (1 << 31),
47         EPOLL_CTL_ADD => 1,
48         EPOLL_CTL_DEL => 2,
49         EPOLL_CTL_MOD => 3,
50         SIZEOF_int => $Config{intsize},
51         SIZEOF_size_t => $Config{sizesize},
52         NUL => "\0",
53 };
54
55 use constant {
56         TMPL_size_t => SIZEOF_size_t == 8 ? 'Q' : 'L',
57         BYTES_4_hole => SIZEOF_size_t == 8 ? 'L' : '',
58         # cmsg_len, cmsg_level, cmsg_type
59         SIZEOF_cmsghdr => SIZEOF_int * 2 + SIZEOF_size_t,
60 };
61
62 my @BYTES_4_hole = BYTES_4_hole ? (0) : ();
63
64 our (
65      $SYS_epoll_create,
66      $SYS_epoll_ctl,
67      $SYS_epoll_wait,
68      $SYS_signalfd4,
69      $SYS_renameat2,
70      );
71
72 my ($SYS_sendmsg, $SYS_recvmsg);
73 my $SYS_fstatfs; # don't need fstatfs64, just statfs.f_type
74 my ($FS_IOC_GETFLAGS, $FS_IOC_SETFLAGS);
75 my $SFD_CLOEXEC = 02000000; # Perl does not expose O_CLOEXEC
76 our $no_deprecated = 0;
77
78 if ($^O eq "linux") {
79     my (undef, undef, $release, undef, $machine) = POSIX::uname();
80     my ($maj, $min) = ($release =~ /\A([0-9]+)\.([0-9]+)/);
81     $SYS_renameat2 = 0 if "$maj.$min" < 3.15;
82     # whether the machine requires 64-bit numbers to be on 8-byte
83     # boundaries.
84     my $u64_mod_8 = 0;
85
86     if ($Config{ptrsize} == 4) {
87         # if we're running on an x86_64 kernel, but a 32-bit process,
88         # we need to use the x32 or i386 syscall numbers.
89         if ($machine eq 'x86_64') {
90             my $s = $Config{cppsymbols};
91             $machine = ($s =~ /\b__ILP32__=1\b/ && $s =~ /\b__x86_64__=1\b/) ?
92                                 'x32' : 'i386'
93         } elsif ($machine eq 'mips64') { # similarly for mips64 vs mips
94             $machine = 'mips';
95         }
96     }
97
98     if ($machine =~ m/^i[3456]86$/) {
99         $SYS_epoll_create = 254;
100         $SYS_epoll_ctl    = 255;
101         $SYS_epoll_wait   = 256;
102         $SYS_signalfd4 = 327;
103         $SYS_renameat2 //= 353;
104         $SYS_fstatfs = 100;
105         $SYS_sendmsg = 370;
106         $SYS_recvmsg = 372;
107         $FS_IOC_GETFLAGS = 0x80046601;
108         $FS_IOC_SETFLAGS = 0x40046602;
109     } elsif ($machine eq "x86_64") {
110         $SYS_epoll_create = 213;
111         $SYS_epoll_ctl    = 233;
112         $SYS_epoll_wait   = 232;
113         $SYS_signalfd4 = 289;
114         $SYS_renameat2 //= 316;
115         $SYS_fstatfs = 138;
116         $SYS_sendmsg = 46;
117         $SYS_recvmsg = 47;
118         $FS_IOC_GETFLAGS = 0x80086601;
119         $FS_IOC_SETFLAGS = 0x40086602;
120     } elsif ($machine eq 'x32') {
121         $SYS_epoll_create = 1073742037;
122         $SYS_epoll_ctl = 1073742057;
123         $SYS_epoll_wait = 1073742056;
124         $SYS_signalfd4 = 1073742113;
125         $SYS_renameat2 //= 0x40000000 + 316;
126         $SYS_fstatfs = 138;
127         $SYS_sendmsg = 0x40000206;
128         $SYS_recvmsg = 0x40000207;
129         $FS_IOC_GETFLAGS = 0x80046601;
130         $FS_IOC_SETFLAGS = 0x40046602;
131     } elsif ($machine eq 'sparc64') {
132         $SYS_epoll_create = 193;
133         $SYS_epoll_ctl = 194;
134         $SYS_epoll_wait = 195;
135         $u64_mod_8 = 1;
136         $SYS_signalfd4 = 317;
137         $SYS_renameat2 //= 345;
138         $SFD_CLOEXEC = 020000000;
139         $SYS_fstatfs = 158;
140         $SYS_sendmsg = 114;
141         $SYS_recvmsg = 113;
142         $FS_IOC_GETFLAGS = 0x40086601;
143         $FS_IOC_SETFLAGS = 0x80086602;
144     } elsif ($machine =~ m/^parisc/) {
145         $SYS_epoll_create = 224;
146         $SYS_epoll_ctl    = 225;
147         $SYS_epoll_wait   = 226;
148         $u64_mod_8        = 1;
149         $SYS_signalfd4 = 309;
150         $SIGNUM{WINCH} = 23;
151     } elsif ($machine =~ m/^ppc64/) {
152         $SYS_epoll_create = 236;
153         $SYS_epoll_ctl    = 237;
154         $SYS_epoll_wait   = 238;
155         $u64_mod_8        = 1;
156         $SYS_signalfd4 = 313;
157         $SYS_renameat2 //= 357;
158         $SYS_fstatfs = 100;
159         $SYS_sendmsg = 341;
160         $SYS_recvmsg = 342;
161         $FS_IOC_GETFLAGS = 0x40086601;
162         $FS_IOC_SETFLAGS = 0x80086602;
163     } elsif ($machine eq "ppc") {
164         $SYS_epoll_create = 236;
165         $SYS_epoll_ctl    = 237;
166         $SYS_epoll_wait   = 238;
167         $u64_mod_8        = 1;
168         $SYS_signalfd4 = 313;
169         $SYS_renameat2 //= 357;
170         $SYS_fstatfs = 100;
171         $FS_IOC_GETFLAGS = 0x40086601;
172         $FS_IOC_SETFLAGS = 0x80086602;
173     } elsif ($machine =~ m/^s390/) { # untested, no machine on cfarm
174         $SYS_epoll_create = 249;
175         $SYS_epoll_ctl    = 250;
176         $SYS_epoll_wait   = 251;
177         $u64_mod_8        = 1;
178         $SYS_signalfd4 = 322;
179         $SYS_renameat2 //= 347;
180         $SYS_fstatfs = 100;
181         $SYS_sendmsg = 370;
182         $SYS_recvmsg = 372;
183     } elsif ($machine eq 'ia64') { # untested, no machine on cfarm
184         $SYS_epoll_create = 1243;
185         $SYS_epoll_ctl    = 1244;
186         $SYS_epoll_wait   = 1245;
187         $u64_mod_8        = 1;
188         $SYS_signalfd4 = 289;
189     } elsif ($machine eq "alpha") { # untested, no machine on cfarm
190         # natural alignment, ints are 32-bits
191         $SYS_epoll_create = 407;
192         $SYS_epoll_ctl    = 408;
193         $SYS_epoll_wait   = 409;
194         $u64_mod_8        = 1;
195         $SYS_signalfd4 = 484;
196         $SFD_CLOEXEC = 010000000;
197     } elsif ($machine =~ /\A(?:loong)?aarch64\z/ || $machine eq 'riscv64') {
198         $SYS_epoll_create = 20;  # (sys_epoll_create1)
199         $SYS_epoll_ctl    = 21;
200         $SYS_epoll_wait   = 22;  # (sys_epoll_pwait)
201         $u64_mod_8        = 1;
202         $no_deprecated    = 1;
203         $SYS_signalfd4 = 74;
204         $SYS_renameat2 //= 276;
205         $SYS_fstatfs = 44;
206         $SYS_sendmsg = 211;
207         $SYS_recvmsg = 212;
208         $FS_IOC_GETFLAGS = 0x80086601;
209         $FS_IOC_SETFLAGS = 0x40086602;
210     } elsif ($machine =~ m/arm(v\d+)?.*l/) { # ARM OABI (untested on cfarm)
211         $SYS_epoll_create = 250;
212         $SYS_epoll_ctl    = 251;
213         $SYS_epoll_wait   = 252;
214         $u64_mod_8        = 1;
215         $SYS_signalfd4 = 355;
216         $SYS_renameat2 //= 382;
217         $SYS_fstatfs = 100;
218         $SYS_sendmsg = 296;
219         $SYS_recvmsg = 297;
220     } elsif ($machine =~ m/^mips64/) { # cfarm only has 32-bit userspace
221         $SYS_epoll_create = 5207;
222         $SYS_epoll_ctl    = 5208;
223         $SYS_epoll_wait   = 5209;
224         $u64_mod_8        = 1;
225         $SYS_signalfd4 = 5283;
226         $SYS_renameat2 //= 5311;
227         $SYS_fstatfs = 5135;
228         $SYS_sendmsg = 5045;
229         $SYS_recvmsg = 5046;
230         $FS_IOC_GETFLAGS = 0x40046601;
231         $FS_IOC_SETFLAGS = 0x80046602;
232     } elsif ($machine =~ m/^mips/) { # 32-bit, tested on mips64 cfarm machine
233         $SYS_epoll_create = 4248;
234         $SYS_epoll_ctl    = 4249;
235         $SYS_epoll_wait   = 4250;
236         $u64_mod_8        = 1;
237         $SYS_signalfd4 = 4324;
238         $SYS_renameat2 //= 4351;
239         $SYS_fstatfs = 4100;
240         $SYS_sendmsg = 4179;
241         $SYS_recvmsg = 4177;
242         $FS_IOC_GETFLAGS = 0x40046601;
243         $FS_IOC_SETFLAGS = 0x80046602;
244         $SIGNUM{WINCH} = 20;
245     } else {
246         warn <<EOM;
247 machine=$machine ptrsize=$Config{ptrsize} has no syscall definitions
248 git clone https://80x24.org/public-inbox.git and
249 Send the output of ./devel/syscall-list to meta\@public-inbox.org
250 EOM
251     }
252     if ($u64_mod_8) {
253         *epoll_wait = \&epoll_wait_mod8;
254         *epoll_ctl = \&epoll_ctl_mod8;
255     } else {
256         *epoll_wait = \&epoll_wait_mod4;
257         *epoll_ctl = \&epoll_ctl_mod4;
258     }
259 }
260 # use Inline::C for *BSD-only or general POSIX stuff.
261 # Linux guarantees stable syscall numbering, BSDs only offer a stable libc
262 # use devel/syscall-list on Linux to detect new syscall numbers
263
264 ############################################################################
265 # epoll functions
266 ############################################################################
267
268 sub epoll_create {
269         syscall($SYS_epoll_create, $no_deprecated ? 0 : 100);
270 }
271
272 # epoll_ctl wrapper
273 # ARGS: (epfd, op, fd, events_mask)
274 sub epoll_ctl_mod4 {
275     syscall($SYS_epoll_ctl, $_[0]+0, $_[1]+0, $_[2]+0, pack("LLL", $_[3], $_[2], 0));
276 }
277 sub epoll_ctl_mod8 {
278     syscall($SYS_epoll_ctl, $_[0]+0, $_[1]+0, $_[2]+0, pack("LLLL", $_[3], 0, $_[2], 0));
279 }
280
281 # epoll_wait wrapper
282 # ARGS: (epfd, maxevents, timeout (milliseconds), arrayref)
283 #  arrayref: values modified to be [$fd, $event]
284 our $epoll_wait_events = '';
285 our $epoll_wait_size = 0;
286 sub epoll_wait_mod4 {
287         my ($epfd, $maxevents, $timeout_msec, $events) = @_;
288         # resize our static buffer if maxevents bigger than we've ever done
289         if ($maxevents > $epoll_wait_size) {
290                 $epoll_wait_size = $maxevents;
291                 vec($epoll_wait_events, $maxevents * 12 * 8 - 1, 1) = 0;
292         }
293         @$events = ();
294         my $ct = syscall($SYS_epoll_wait, $epfd, $epoll_wait_events,
295                         $maxevents, $timeout_msec);
296         for (0..$ct - 1) {
297                 # 12-byte struct epoll_event
298                 # 4 bytes uint32_t events mask (skipped, useless to us)
299                 # 8 bytes: epoll_data_t union (first 4 bytes are the fd)
300                 # So we skip the first 4 bytes and take the middle 4:
301                 $events->[$_] = unpack('L', substr($epoll_wait_events,
302                                                         12 * $_ + 4, 4));
303         }
304 }
305
306 sub epoll_wait_mod8 {
307         my ($epfd, $maxevents, $timeout_msec, $events) = @_;
308
309         # resize our static buffer if maxevents bigger than we've ever done
310         if ($maxevents > $epoll_wait_size) {
311                 $epoll_wait_size = $maxevents;
312                 vec($epoll_wait_events, $maxevents * 16 * 8 - 1, 1) = 0;
313         }
314         @$events = ();
315         my $ct = syscall($SYS_epoll_wait, $epfd, $epoll_wait_events,
316                         $maxevents, $timeout_msec,
317                         $no_deprecated ? undef : ());
318         for (0..$ct - 1) {
319                 # 16-byte struct epoll_event
320                 # 4 bytes uint32_t events mask (skipped, useless to us)
321                 # 4 bytes padding (skipped, useless)
322                 # 8 bytes epoll_data_t union (first 4 bytes are the fd)
323                 # So skip the first 8 bytes, take 4, and ignore the last 4:
324                 $events->[$_] = unpack('L', substr($epoll_wait_events,
325                                                         16 * $_ + 8, 4));
326         }
327 }
328
329 sub signalfd ($$) {
330         my ($signos, $nonblock) = @_;
331         if ($SYS_signalfd4) {
332                 my $set = POSIX::SigSet->new(@$signos);
333                 syscall($SYS_signalfd4, -1, "$$set",
334                         # $Config{sig_count} is NSIG, so this is NSIG/8:
335                         int($Config{sig_count}/8),
336                         # SFD_NONBLOCK == O_NONBLOCK for every architecture
337                         ($nonblock ? O_NONBLOCK : 0) |$SFD_CLOEXEC);
338         } else {
339                 $! = ENOSYS;
340                 undef;
341         }
342 }
343
344 sub _rename_noreplace_racy ($$) {
345         my ($old, $new) = @_;
346         if (link($old, $new)) {
347                 warn "unlink $old: $!\n" if !unlink($old) && $! != ENOENT;
348                 1
349         } else {
350                 undef;
351         }
352 }
353
354 # TODO: support FD args?
355 sub rename_noreplace ($$) {
356         my ($old, $new) = @_;
357         if ($SYS_renameat2) { # RENAME_NOREPLACE = 1, AT_FDCWD = -100
358                 my $ret = syscall($SYS_renameat2, -100, $old, -100, $new, 1);
359                 if ($ret == 0) {
360                         1; # like rename() perlop
361                 } elsif ($! == ENOSYS || $! == EINVAL) {
362                         undef $SYS_renameat2;
363                         _rename_noreplace_racy($old, $new);
364                 } else {
365                         undef
366                 }
367         } else {
368                 _rename_noreplace_racy($old, $new);
369         }
370 }
371
372 sub nodatacow_fh ($) {
373         my ($fh) = @_;
374         my $buf = "\0" x 120;
375         syscall($SYS_fstatfs // return, fileno($fh), $buf) == 0 or
376                 return warn("fstatfs: $!\n");
377         my $f_type = unpack('l!', $buf); # statfs.f_type is a signed word
378         return if $f_type != 0x9123683E; # BTRFS_SUPER_MAGIC
379
380         $FS_IOC_GETFLAGS //
381                 return warn('FS_IOC_GETFLAGS undefined for platform');
382         ioctl($fh, $FS_IOC_GETFLAGS, $buf) //
383                 return warn("FS_IOC_GETFLAGS: $!\n");
384         my $attr = unpack('l!', $buf);
385         return if ($attr & 0x00800000); # FS_NOCOW_FL;
386         ioctl($fh, $FS_IOC_SETFLAGS, pack('l', $attr | 0x00800000)) //
387                 warn("FS_IOC_SETFLAGS: $!\n");
388 }
389
390 sub nodatacow_dir {
391         if (open my $fh, '<', $_[0]) { nodatacow_fh($fh) }
392 }
393
394 sub CMSG_ALIGN ($) { ($_[0] + SIZEOF_size_t - 1) & ~(SIZEOF_size_t - 1) }
395 use constant CMSG_ALIGN_SIZEOF_cmsghdr => CMSG_ALIGN(SIZEOF_cmsghdr);
396 sub CMSG_SPACE ($) { CMSG_ALIGN($_[0]) + CMSG_ALIGN_SIZEOF_cmsghdr }
397 sub CMSG_LEN ($) { CMSG_ALIGN_SIZEOF_cmsghdr + $_[0] }
398 use constant msg_controllen => CMSG_SPACE(10 * SIZEOF_int) + 16; # 10 FDs
399
400 if (defined($SYS_sendmsg) && defined($SYS_recvmsg)) {
401 no warnings 'once';
402 *send_cmd4 = sub ($$$$) {
403         my ($sock, $fds, undef, $flags) = @_;
404         my $iov = pack('P'.TMPL_size_t,
405                         $_[2] // NUL, length($_[2] // NUL) || 1);
406         my $cmsghdr = pack(TMPL_size_t . # cmsg_len
407                         'LL' .  # cmsg_level, cmsg_type,
408                         ('i' x scalar(@$fds)),
409                         CMSG_LEN(scalar(@$fds) * SIZEOF_int), # cmsg_len
410                         SOL_SOCKET, SCM_RIGHTS, # cmsg_{level,type}
411                         @$fds); # CMSG_DATA
412         my $mh = pack('PL' . # msg_name, msg_namelen (socklen_t (U32))
413                         BYTES_4_hole . # 4-byte padding on 64-bit
414                         'P'.TMPL_size_t . # msg_iov, msg_iovlen,
415                         'P'.TMPL_size_t . # msg_control, msg_controllen,
416                         'i', # msg_flags
417                         NUL, 0, # msg_name, msg_namelen (unused)
418                         @BYTES_4_hole,
419                         $iov, 1, # msg_iov, msg_iovlen
420                         $cmsghdr, # msg_control
421                         CMSG_SPACE(scalar(@$fds) * SIZEOF_int), # msg_controllen
422                         0); # msg_flags
423         my $sent;
424         my $try = 0;
425         do {
426                 $sent = syscall($SYS_sendmsg, fileno($sock), $mh, $flags);
427         } while ($sent < 0 &&
428                         ($!{ENOBUFS} || $!{ENOMEM} || $!{ETOOMANYREFS}) &&
429                         (++$try < 50) &&
430                         warn "sleeping on sendmsg: $! (#$try)\n" &&
431                         select(undef, undef, undef, 0.1) == 0);
432         $sent >= 0 ? $sent : undef;
433 };
434
435 *recv_cmd4 = sub ($$$) {
436         my ($sock, undef, $len) = @_;
437         vec($_[1] //= '', ($len + 1) * 8, 1) = 0;
438         my $cmsghdr = "\0" x msg_controllen; # 10 * sizeof(int)
439         my $iov = pack('P'.TMPL_size_t, $_[1], $len);
440         my $mh = pack('PL' . # msg_name, msg_namelen (socklen_t (U32))
441                         BYTES_4_hole . # 4-byte padding on 64-bit
442                         'P'.TMPL_size_t . # msg_iov, msg_iovlen,
443                         'P'.TMPL_size_t . # msg_control, msg_controllen,
444                         'i', # msg_flags
445                         NUL, 0, # msg_name, msg_namelen (unused)
446                         @BYTES_4_hole,
447                         $iov, 1, # msg_iov, msg_iovlen
448                         $cmsghdr, # msg_control
449                         msg_controllen,
450                         0); # msg_flags
451         my $r = syscall($SYS_recvmsg, fileno($sock), $mh, 0);
452         return (undef) if $r < 0; # $! set
453         substr($_[1], $r, length($_[1]), '');
454         my @ret;
455         if ($r > 0) {
456                 my ($len, $lvl, $type, @fds) = unpack(TMPL_size_t . # cmsg_len
457                                         'LLi*', # cmsg_level, cmsg_type, @fds
458                                         $cmsghdr);
459                 if ($lvl == SOL_SOCKET && $type == SCM_RIGHTS) {
460                         $len -= CMSG_ALIGN_SIZEOF_cmsghdr;
461                         @ret = @fds[0..(($len / SIZEOF_int) - 1)];
462                 }
463         }
464         @ret;
465 };
466 }
467
468 1;
469
470 =head1 WARRANTY
471
472 This is free software. IT COMES WITHOUT WARRANTY OF ANY KIND.
473
474 =head1 AUTHORS
475
476 Brad Fitzpatrick <brad@danga.com>