Ir ao conteúdo
  • Cadastre-se

Guilherme Montelo

Membro Pleno
  • Posts

    77
  • Cadastrado em

  • Última visita

  1. Galera, Estou auxiliando fazer a migração de uma site para outra plataforma, entretanto estou tendo dificuldades em coletar (scraping) das noticias do site anterior para manter o histórico. Fiz alguns testes com um python e é o que tem me atendido melhor no momento entretanto ainda não consegui pegar as informações que preciso. As notícias estão da seguinte maneira: <div class="corpoEsq"> <article id="verConteudo"> <h1 class="v1">Titulo da Notícia</h1> <div class="cpCont"> <figure class="img md2"> <img src="imagens/uploads/conteudos/nome_do_arquivo.jpg" alt="" title="" width="348" heigth="224"> </figure> <section class="main"> <p style="text-align: justify;"> <span style="font-size: small; font-family: arial, helvetica, sans-serif;">Pagrafo 1.</span> </p> <p style="text-align: justify;"> <span style="font-size: small; font-family: arial, helvetica, sans-serif;">Paragrafo 2</span> </p> <p style="text-align: justify;"> <span style="font-size: small; font-family: arial, helvetica, sans-serif;">Paragrafo 3</span> </p> <p style="text-align: justify;"> <span style="font-size: small; font-family: arial, helvetica, sans-serif;">Paragrafo 4</span> </p> <p style="text-align: justify;"><span style="font-size: small; font-family: arial, helvetica, sans-serif;">Paragrafo 5</span> </p> <p style="text-align: justify;"> <span style="font-size: small; font-family: arial, helvetica, sans-serif;">Paragrafo 6</span> </p> <p style="text-align: justify;"> <span style="font-size: small; font-family: arial, helvetica, sans-serif;">Paragrafo 7.</span> </p> </section> </div> </article> </div> Como o acesso é realizado por url amigável não consegui até o momento navegar pelo índice de cada notícia, desta forma acredito que o primeiro passo seja percorrer a pagina que listam as notícias para pegar as URL do pagina da notícia, da chamada, da data de publicação e url para a imagem de destaque. A página que lista as notícias é assim: <div id="listaNoticias" class="corpoEsq"> <h1 class="v1">Notícias</h1> <ul> <li> <a title="Título da Notícia 1" href="conteudo/url_da_notica_1.html"> <img alt="" src="imagens/uploads/conteudos/nome_da_imagem_destaque_1.jpg" class="img" width="211" height="108"> <div class="body"> <h2 class="tit fft1">Chamda Notícia 1</h2> <span class="data">XX/XX/XXXX</span> <p class="desc">Resumo notícia 1.</p> </div> </a> </li> <li> <a title="Título da Notícia 2" href="conteudo/url_da_notica_2.html"> <img alt="" src="imagens/uploads/conteudos/nome_da_imagem_destaque_2.jpg" class="img" width="211" height="108"> <div class="body"> <h2 class="tit fft1">Chamda Notícia 2</h2> <span class="data">XX/XX/XXXX</span> <p class="desc">Resumo notícia 2.</p> </div> </a> </li> <li> <a title="Título da Notícia 3" href="conteudo/url_da_notica_3.html"> <img alt="" src="imagens/uploads/conteudos/nome_da_imagem_destaque_3.jpg" class="img" width="211" height="108"> <div class="body"> <h2 class="tit fft1">Chamda Notícia 3</h2> <span class="data">XX/XX/XXXX</span> <p class="desc">Resumo notícia 3.</p> </div> </a> </li> <li> <a title="Título da Notícia 4" href="conteudo/url_da_notica_4.html"> <img alt="" src="imagens/uploads/conteudos/nome_da_imagem_destaque_4.jpg" class="img" width="211" height="108"> <div class="body"> <h2 class="tit fft1">Chamda Notícia 4</h2> <span class="data">XX/XX/XXXX</span> <p class="desc">Resumo notícia 4.</p> </div> </a> </li> <li> <a title="Título da Notícia 5" href="conteudo/url_da_notica_5.html"> <img alt="" src="imagens/uploads/conteudos/nome_da_imagem_destaque_5.jpg" class="img" width="211" height="108"> <div class="body"> <h2 class="tit fft1">Chamda Notícia 5</h2> <span class="data">XX/XX/XXXX</span> <p class="desc">Resumo notícia 5.</p> </div> </a> </li> <li> <a title="Título da Notícia 6" href="conteudo/url_da_notica_6.html"> <img alt="" src="imagens/uploads/conteudos/nome_da_imagem_destaque_6.jpg" class="img" width="211" height="108"> <div class="body"> <h2 class="tit fft1">Chamda Notícia 6</h2> <span class="data">XX/XX/XXXX</span> <p class="desc">Resumo notícia 6.</p> </div> </a> </li> <li> <a title="Título da Notícia 7" href="conteudo/url_da_notica_7.html"> <img alt="" src="imagens/uploads/conteudos/nome_da_imagem_destaque_7.jpg" class="img" width="211" height="108"> <div class="body"> <h2 class="tit fft1">Chamda Notícia 7</h2> <span class="data">XX/XX/XXXX</span> <p class="desc">Resumo notícia 7.</p> </div> </a> </li> <li> <a title="Título da Notícia 8" href="conteudo/url_da_notica_8.html"> <img alt="" src="imagens/uploads/conteudos/nome_da_imagem_destaque_8.jpg" class="img" width="211" height="108"> <div class="body"> <h2 class="tit fft1">Chamda Notícia 8</h2> <span class="data">XX/XX/XXXX</span> <p class="desc">Resumo notícia 8.</p> </div> </a> </li> <li> <a title="Título da Notícia 9" href="conteudo/url_da_notica_9.html"> <img alt="" src="imagens/uploads/conteudos/nome_da_imagem_destaque_9.jpg" class="img" width="211" height="108"> <div class="body"> <h2 class="tit fft1">Chamda Notícia 9</h2> <span class="data">XX/XX/XXXX</span> <p class="desc">Resumo notícia 9.</p> </div> </a> </li> <li> <a title="Título da Notícia 10" href="conteudo/url_da_notica_10html"> <img alt="" src="imagens/uploads/conteudos/nome_da_imagem_destaque_10.jpg" class="img" width="211" height="108"> <div class="body"> <h2 class="tit fft1">Chamda Notícia 10</h2> <span class="data">XX/XX/XXXX</span> <p class="desc">Resumo notícia 10.</p> </div> </a> </li> </ul> <div style="clear:both;"> <div style="position:relative; font-size:12px;" class="paginacaoPublica"> <div align="left" id="paginacaoExibindo">Mostrando <b>1</b> à <b>10</b> (de <b>2512</b> encontrados)</div> <div align="right" class="paginacaoContainer" style="border:0px solid;"> <ol> <li class="paginacaoTitulo"> <strong>PÁGINAS</strong>: </li> <li> <span class="current">01</span> </li> <li> <a href="noticias/pagina/2/" class="linkClass">02</a> </li> <li> <a href="noticias/pagina/3/" class="linkClass">03</a> </li> <li> <a href="noticias/pagina/4/" class="linkClass">...</a> </li> <li> <a href="noticias/pagina/252/" class="linkClass" title="Última Página" alt="Última Página">»</a> </li> </ol> </div> </div> </div> </div> Desta forma com um pouco de google cheguei ao seguinte código from mailbox import NotEmptyError from turtle import st from urllib.request import urlopen from urllib.error import HTTPError from urllib.error import URLError from bs4 import BeautifulSoup iContador = 1 arquivo = open("noticias.txt", "a") while iContador <= 2512: sPagina = str(iContador) html = urlopen("http://www.site.com.br/noticias/pagina/" + sPagina) res = BeautifulSoup(html.read(),"html5lib") tags = res.findAll("a") for tag in tags: if tag is None: print("Não Localizados! Página" + sPagina) else: texto = str(tag) arquivo.write(texto + "\n") iContador = iContador + 1 o problema e que não estou conseguindo referencias na instrução "tags = res.findAll()" somente a url do "<a title="Título da Notícia 1" href="conteudo/url_da_notica_1.html">" para com uma estrutura de repetição aninhada, entrar dentro de cada noticia e coletar as informações que preciso.
  2. Atualizando um pouco o status desta busca. Não localizei nenhuma plataforma open-source que ao meu ver consiga atender aos principais pontos da LGPD, entretanto acredito que o uso de algumas ferramentas podem auxiliar e muito. Pensando em Data Discovery (processo de varredura e descoberta de dados pessoais tratados e armazenados de forma estruturada em sistemas, banco de dados e arquivos físicos organizados ou de forma não estruturada como fotos, imagens de documentos, documentos diversos como pdf, doc/docx, xls/xlsx, formulários, requerimentos, cartas e etc.), localizei algumas soluções ainda um pouco cru, mas com bastante potencial e outras já estabelecidas, de toda forma acredito que um pouco de esforço da comunidade conseguiria integrar tais soluções e criar uma plataforma poderosa na aplicação a LGPD e GPDR: Alfresco Community Editio - Trata-se de uma ferramenta de GED com recursos de OCR, que acredito ser o ideal para a digitalização dos documentos físicos e organização dos documentos digitais, além de proporcionar um controle de acesso ao dados, possibilitaria a organização dos dados não estruturados fornecendo uma interface a ferramenta a seguir. ReDiscovery - Como descrito no github, trata-se de um fork do projeto DataDefender, com a remoção de algumas funcionalidades de geração randomizada de dados e anonimização, já que o foco deste fork é a varredura dos dados em banco de dados Oracle, MS SQL Server, DB2, MySQL e PostgreSQL. Seal Report / BIRT / Pilha ELK - Penso neles como uma ferramenta de BI, agregador de informações e talvez uma interface para o Data Monitoring, ainda estou engatinhando em como realizar esta interface, mas vejo potencial. Já no processo de Data Mapping (processo de identificação dos fluxos de tratamento de dados e repositórios de dados), Gestão de Incidentes e Interface com o titular dos dados tenho utilizado o GLPI. GLPI - É uma ferramenta de ITSM, que possibilita realizarmos o inventários dos ativos de TIC, possibilitando um sistema de controle de requisições e incidentes. Uso estabelecendo uma conexão da Aplicação -> Banco de dados -> Servidor -> Data Center, desta forma caso ocorra um incidente de segurança a uma aplicação X, sei que preciso investigar o Banco de Dados Y, no servidor Z, para determinar a extensão do problema e se houve alguma acesso indevido ou exposição de dados daquela aplicação, Banco de Dados ou Servidor. O mesmo acontece se houver um incidente no Banco de Dados ou Servidor, pois sei que terei que avaliar todas as aplicações ou bancos que aquele servidor hospeda. O GLPI também é interessante por possibilitar o controle das solicitações dos titulares dos dados, permitindo o acompanhamento da tratativa e o cumprimento dos prazos. Assim como possibilita a emissão de relatórios de incidentes, problemas e atendimentos às demandas numa eventual ação da ANPD. Uma plataforma open-source que atenda a todos os requisitos da LGPD acho que ainda esta distante, mas as proprietárias em sua maioria ainda também estão, de qualquer forma imagino com essas poucas opções que localizei já possa ser um trabalho inicial, imaginem o seguinte cenário: O GLPI Agente (agente do GLPI instalados nas workstations que realiza a coleta das informações de hardware, software, rede e perfis de usuário e envia a instancia do GLPI) com a funcionalidade de identificação de dados pessoais não estruturados, coletando de forma automática estas informações ou identificando os arquivos de fotos, imagens, pds, doc/docx, xls/xlsx/csv e importando tais arquivos na Instancia do Afresco. O ReDiscovery sendo executa com x frequência sobre o Banco de Dados das Aplicações da entidade e do Afresco, varrendo os dados pessoais identificados e mapeando os repositórios e arquivos que contenham dados pessoais, impontando estas informações na instancia do GLPI, estando as ferramentas de BI conectadas a base de dados do GLPI de modo que seja possível a análise por estas ferramentas, assim como a notificação automática aos titulares na ocorrência de incidentes. Sei que pensar e falar é fácil difícil e implementar, mas esse brifieng pode instigar muita gente a trabalhar nisso.
  3. Depois de mais pesquisas, percebi que trata-se de uma alteração na forma como são validados os repositórios, e acabei solucionado da seguinte forma: $wget -O- https://debian.koha-community.org/koha/gpg.asc | gpg --dearmor | sudo tee /etc/apt/trusted.gpg.d/koha.gpg $echo 'deb [arch=amd64 signed-by=/etc/apt/trusted.gpg.d/koha.gpg] http://debian.koha-community.org/koha stable main' | sudo tee /etc/apt/sources.list.d/koha.list
  4. Galera, Estou tentando começar os testes com o software Koha de gestão de acervos de bibliotecas, entretanto quando vou adicionar o repositório recebo o erro: W: GPG error: http://debian.koha-community.org/koha stable InRelease: The following signature couldn't be verified because the public key is not available: NO_PUBKEY 3C9356BBA2E41F10 E: The repository 'http://debian.koha-community.org/koha stable InRelease' is not signed. Meu ambiente é o Ubuntu Server 22.04 LTS e antes de somente fiz a importação da key com o comando: $wget -q -0- https://debian.koha-community.org/koha/gpg.asc | sudo gpg --import - e adição do repositório: $echo 'deb https://debian.koha-community.org/koha stable main' | sudo tee /etc/apt/sources.list.d/koha.list Como a maior parte das soluções indicam o uso do apt-key e aparentemente nesta versão do Ubuntu, o apt-key foi substituído pelo gpg, não consigo prosseguir.
  5. Galera sou servidor público e como em muitas empresas privadas o TI não bem visto como investimento na maior parte das instituições públicas. Desta forma sempre acabo recorrendo a soluções open source para os problemas que acabo enfrentando (diga-se de passagem acredito que deveria ser regra o uso e disseminação de programas livre dentro de entidades públicas). A mais recente empreitada trata-se da adequação a LGPD, que há muito venho tentando conscientizar minha administração que trata-se de algo bem sério e não exclusivo do TI, entretanto como ainda recaí sobre meu departamento qualquer mobilização deste tipo, optei por além de continuar a conscientização na tentativa de angariar mais investimentos na área de segurança da informação, também procurar alguma solução/sistema que mesmo que de forma simples eu consiga ao menos manter um inventário de quais e onde os dados pessoais que detenho são tratados e armazenados, além de manter um histórico de eventuais incidentes e solicitação dos titulares. Andei procurando algo do tipo para a GPDR, visto que, está já esta bem consolidada não União Europeia, entretanto ainda não consegui localizar algo mais acabado que possa colocar ao menos em um ambiente de treinamento. Alguém já viu algo do tipo?
  6. Galera, Tenho uma instalação do GLPI rodando sobre Apache 2.4 e Debian 10, quando não configuro o Virtual Host, tenho acesso normal tanto ao index.html na raiz do /var/www/html/ pelo ip_servidor/index.html, quando ao GLPI utilizando a URL ip_servidor/glpi. Minha intenção e trabalhar com um único servidor apache para vários sites hospedados. Raiz do Apache /var/www/html/: /glpi/ index.html raiz do sites-available /etc/apache2/sites-available/: 000-default.conf default-ssl.conf glpi.conf glpi.conf: <VirtualHost *:80> ServerName chamados.cravinhos.sp.gov.br ServerAlias www.chamados.cravinhos.sp.gov.br ServerAdmin [email protected] DocumentRoot /var/www/html/glpi <Directory /var/www/glpi/> Options +FollowSymlinks AllowOverride All Require all granted </Directory> ErrorLog ${APACHE_LOG_DIR}/error.log CustomLog ${APACHE_LOG_DIR}/access.log combined </VirtualHost> quando executo os comando: #a2dissite 000-default.conf #a2ensite glpi.conf #service restart apache2 E tento o acesso aos endereços ip_server e ip_server/glpi, recebo a mensagem: Not Found The requested URL was not found on this server. Apache/2.4.38 (Debian) Server at 192.168.0.58 Port 80
  7. Pensando num ambiente que utilizará o vSphere ESXi como hypervisor, e somente parte dos recursos será destinado a VM's com Windows: Cenário Proposto: Host 2x CPU 16C/32T VM1 - Windows Server 2019 Standard AD - Segurança 4C/8T VM2 - Windows Server 2019 Standard BD - SQL SERVER 4C/8T VM3 - Windows Server 2019 Standard ERP1 4C/8T VM4 - Windows Server 2019 Standard ERP2 4C/8T VM5 - Windows Server 2019 Standard ERP3 4C/8T é necessário licenciar todos os núcleos físicos do HOST ou somente aqueles que serão alocados as VM's?
  8. Tenho o mesmo problema, após uma formatação, não consegui localizar o driver da placa de rede Wi-fi que me parece ser uma RTL8732BU, em contato com o suporte da própria COMPAQ, me orientaram a utilizar a ferramenta de atualização Windows (como se ele não tem interface de rede cabeada ) de toda forma instalei um dongle USB Wi-Fi e fiz todas as atualizações possíveis do Windows e mesmo assim nada da placa de rede wireless ser reconhecida, então depois de fazer o backup dos drivers de um notebook idêntico passei a ter problemas com a instabilidade da rede e dificuldade aleatório de me conectar as redes sejam estás abertas ou protegidas. Em contato com o suporte da COMPAQ novamente, aparentemente a engenharia encontrou uma falha e me forneceram um script bat, que de nada adiantou. CQ25_Script.zip
  9. Caros, Possuo diversos links de internet banda larga IP Dinâmico e muito provavelmente CGNAT (~80) espalhados pela cidade de diferentes operadoras, e regularmente recebo chamados de que os usuários estão sem internet, como em sua maioria são usuários leigos e o SLA da operadoras de até 24h acabo tendo que me deslocar até os locais muitas vezes por problemas de fibra/cabo rompido, modem desligado, cabo desconectado e situações do gênero. Desta forma quero checar antes mesmo de ir até o local se possa ser uma falha interna na rede local ou de fato na internet. Já possuía conhecimento de serviços como NO-IP ou DyDNS, entretanto o uso seja coorporativo e acredito que estes serviços não atendam sem que haja custos. Como possuo links dedicados e IP's validos imagino que o melhor seja montar um servidor próprio DDNS, rodando sob Linux, no momento acredito que nem seja necessário uma interface amigável, visto que o uso será somente pelos técnicos. Achei algumas soluções mais parecem estar abandonadas como o GnuDIP.
  10. A lista completa de processadores compatíveis pode ser visualizada no site do fabricante https://www.asrock.com/mb/Intel/G31M-VS/#CPU. Em relação ao upgrade de GPU tudo depende do uso que vai ser realizado. Processamento de textos e planilhas acredito que sua configuração atende bem. No que tange as memórias segue a relação de modelos testados pelo Asrock https://www.asrock.com/mb/memory/G31M-VS.pdf.
  11. Possuo atualmente uma-infraestrutura com 2 servidores com WS2008R2, AD, File Server e algumas aplicações legadas, adquiri um NAS QNAP TS-431K com 2 discos Seagate IronWolf 4 TB em RAID 1. A ideia inicial é configurar o NAS como integrante do Domínio, conectado a um switch 1Gbe na porta 1, para que os usuários acessem os arquivos (atuando como um substituto ao File Server no servidor, visto que temos enfrentado gargalos no uso intenso pois este servidor também roda um bando de dados) e a porta 2 conectada diretamente ao servidor 1 desta infraestrutura de modo a fornecer uma conexão com mínima latência (possivelmente até utilizando o recurso iSCSI presente no NAS), no intuito não haja gargalos nas rotinas de backup e verificação do antivírus. Também conto com um serviço de backup em nuvem mais precisamente no Azure que roda por meio de um agente instalado no servidor 1, acredito que seja possível transferirmos também o "upload" do agente no servidor para a aplicação "HBS 3 Hybrid Backup Sync". Como estou iniciando agora com o NAS aceito sugestões, criticas, dicas e conteúdo no intuito de identificar e antecipar potenciais problemas e tirar o máximo proveito do equipamento.
  12. Compartilho da sua dúvida. Acabei de receber 2 módulos de memória DDR3 RDIMM 4GB (M392B5270CH0-YH9 - Single Rank) para ser instalado em um servidor com memórias que já conta com 6 módulos DDR3 RDIMM 4GB (M393B5170FH0-CH9 - Dual Rank), por se tratar de um Server com Windows Server 2008 R2 Standard o máximo reconhecido pelo SO e 32GB desta forma a garantir o melhor desempenho com um 2x Xeon E5620 iria instalar 2 módulos por canal de cada processador numa configuração Dual Channel. XEON E5620 - CPU 0 Canal 1 Canal 2 Canal 3 M392B5270CH0-YH9 M392B5270CH0-YH9 Vazio M393B5170FH0-CH9 M393B5170FH0-CH9 Vazio Xeon E560 - CPU 1 Canal 1 Canal 2 Canal 3 M393B5170FH0-CH9 M393B5170FH0-CH9 Vazio M393B5170FH0-CH9 M393B5170FH0-CH9 Vazio Devido os dois primeiros módulos do "Canal 1" e "Canal 2" do CPU 0 serem single rank, terei algum problema?
  13. Já fez a atualização? Consegue postar aqui um relatório do CPU-Z depois da atualização?
  14. Acredito que não são as mesmas empresas, pois está do facebook é de Itapeva, e a do site não parece ser nem nacional.

Sobre o Clube do Hardware

No ar desde 1996, o Clube do Hardware é uma das maiores, mais antigas e mais respeitadas comunidades sobre tecnologia do Brasil. Leia mais

Direitos autorais

Não permitimos a cópia ou reprodução do conteúdo do nosso site, fórum, newsletters e redes sociais, mesmo citando-se a fonte. Leia mais

×
×
  • Criar novo...