Merge branch 'f-cvar-htmlfield'
[kivitendo-erp.git] / SL / HTML / Util.pm
1 package SL::HTML::Util;
2
3 use strict;
4 use warnings;
5
6 use HTML::Parser;
7
8 my %stripper;
9 my %entities = (
10   'lt'   => '<',
11   'gt'   => '>',
12   'amp'  => '&',
13   'nbsp' => ' ',   # should be => "\x{00A0}", but this can lead to problems with
14                    # a non-visible character in csv-exports for example
15 );
16
17 sub strip {
18   my ($class_or_value) = @_;
19
20   my $value = !ref($class_or_value) && (($class_or_value // '') eq 'SL::HTML::Util') ? $_[1] : $class_or_value;
21
22   return '' unless defined $value;
23
24   # Remove HTML comments.
25   $value =~ s{ <!-- .*? --> }{}gx;
26
27   if (!%stripper) {
28     %stripper = ( parser => HTML::Parser->new );
29
30     $stripper{parser}->handler(text => sub { $stripper{text} .= ' ' . $_[1]; });
31   }
32
33   $stripper{text} = '';
34   $stripper{parser}->parse($value);
35   $stripper{parser}->eof;
36
37   $stripper{text} =~ s{\&([^;]+);}{ $entities{$1} || "\&$1;" }eg;
38   $stripper{text} =~ s{^ +| +$}{}g;
39   $stripper{text} =~ s{ {2,}}{ }g;
40
41   return delete $stripper{text};
42 }
43
44 1;
45 __END__
46
47 =pod
48
49 =encoding utf8
50
51 =head1 NAME
52
53 SL::HTML::Util - Utility functions dealing with HTML
54
55 =head1 SYNOPSIS
56
57   my $plain_text = SL::HTML::Util->strip('<h1>Hello World</h1>');
58
59 =head1 FUNCTIONS
60
61 =over 4
62
63 =item C<strip $html_content>
64
65 Removes all HTML elements and tags from C<$html_content> and returns
66 the remaining plain text.
67
68 =back
69
70 =head1 BUGS
71
72 Nothing here yet.
73
74 =head1 AUTHOR
75
76 Moritz Bunkus E<lt>m.bunkus@linet-services.deE<gt>
77
78 =cut