Como copiar um trecho de arquivo em PDF?

codonauta · 21 de junho de 2010

Olá.

Estou com o seguinte problema: tenho um arquivo em PDF, um ebook. Gostaria de copiar e colar um trecho do texto, que está em português, para traduzi-lo para o inglês usando as ferramentas de idioma do google. Como faço isso?

Tenho o Acrobat 9.0 , mas nao consegui com este.

Pensei em converter o PDF para word e neste retirar parte do texto. Consegui converter, mas no word na hora de marcar a parte que quero copiar com o mouse, nao consigo. A página do livro nao aceita que se marque, copiei ou cole.

Uso o windows XP.

Alguém tem alguma sugestao?

21 de junho de 2010

1ª Opção: Foxit PDF Reader 3.3.exe: http://www.baixaki.com.br/download/foxit-pdf-reader.htm

Esse vale a pena instalar... 6,68 MB

Site: http://www.foxitsoftware.com/downloads/index.php

Portable: http://cdn01.foxitsoftware.com/pub/foxit/reader/desktop/win/3.x/3.3/enu/FoxitReader331_enu.zip

O bom desse portátil, é que ele se apresenta num arquivo executável único, não cria uma pasta com vários arquivos.

Abra o seu arquivo e clique numa aba que é uma "página de óculos". Terá o texto na íntegra.

Ele transforma em TXT file na própria tela do programa e ainda permite salvar o arquivo como TXT.

O texto apresentado obedece a mesma formatação do PDF.

Abre inclusive textos em formato de imagem, embora necessite de edição.

Nestes casos, ele faz um OCR instantâneo (Optical Character Recognition = Reconhecimento Ótico de Caracteres).

Num OCR é normal que não sejam reconhecidos: símbolos, letras e palavras falhas ou borradas.

Muito bom. Nota 10 para o Foxit Reader.

2ª Opção: Free PDF to Word Doc Converter

Fiz alguns testes e este se deu muito bem. Acredito que também serve aos seus objetivos.

Tem apenas 1,07 MB: http://www.baixaki.com.br/download/free-pdf-to-word-doc-converter.htm

Ele transforma um PDF em WORD (.doc). O suficiente para você copiar o texto ou editar.

Só tem uma questão: O texto não obedece uma formatação e não abre texto em formato de imagem.

Dica: Se você tem o Universal Extractor instalado é só clicar em cima do executável com o botão direito do mouse

e comandar "Extrair com UniExtract no Sub-diretório". Terá um Portable, sem necessidade de instalação.

Depois existem outros programas que permitem a edição e/ou conversão de um PDF como:

ABBYY Fine Reader, CorelDRAW X5, BrOffice.org 3.2, PowerPoint 2007 acho que faz isso, etc.

viniciusbmatos · 21 de junho de 2010

O documento permite impressão? Se sim, basta instalar uma impressora virtual (como o PrimoPDF) e imprimir nela o arquivo, criando assim um novo PDF livre.

Turcolino · 21 de junho de 2010

Normalmente o Adobe Acrobat 9 PRO permite a total edição dos arquivos em pdf...

Pelo menos sempre funcionou comigo.

codonauta · 21 de junho de 2010

O Foxit Reader me pareceu bom, mas na hora de marcar um trecho do livro e tentar salvar como txt, o programa abre uma janela dizendo que só o Foxit Reader Pro faz isso, e ele custa 39 dólares. Nao estava nos meus planos gastar mais com mais um programa.

O problema em só converter para .doc e tentar trabalhar no word é que a gente nao consegue marcar o trecho do livro que se quer trabalhar, nao fica assessível.

O livro em PDF que tenho foi escaneado a mao e nao muito profissionalmente, então tem a imagem das bordas do livro nas margens das páginas do arquivo PDF; e o livro foi escaneado aberto, com 2 páginas do livro / página de PDF, acredito que por causa disso nao consigo marcar os trechos que quero quando passo para .doc.

Só tenho o Acrobat 9.0, nao tenho o Acrobat 9.0 pro.

21 de junho de 2010

Então faça o seguinte:

Baixe o ABBYY PDF Transformer 3.0: http://www.abbyy.com.br/pdftransformer

Teste gratuito por 15 dias, depois desinstala. Esse vale a pena, a questão são os 220 MB.

O ABBYY é especialista em abrir texto de OCR.

Ou melhor ainda: Uma opção gratuita que uso para transformar tudo em PDF.

Baixe BrOffice.org 3.2 Portable (85 MB): http://www.baixaki.com.br/download/broffice-portable.htm

Ao abri-lo, escolha "Abrir um documento" e salvar como Apresentação ODF (.odp) para trabalhar na edição.

Depois em Exportar como PDF... Logo que abre a janela de tranferência, na guia Geral:

Intervalos > marque Todas as páginas

Imagens > marque Compressão sem perdas

Geral > marque Criar formulário PDF, Formato para submissão=PDF, marque Exportar marcadores

O restante não muda nada.

P.S.: O BrOffice é muito bom para editar apresentações e transformá-las em PDF, mas não lê OCR.

Ou tente o Acrobat 9.0 Pro, vê se concedem algum período de testes.

Quero ajudá-lo, está ao meu alcance, se não se decidir por nenhum, faça o seguinte:

Tenho o ABBYY Fine Reader 10, se não se importa, deposite/faça upload num site e me passa o link que transformo para você.

Se não tem nenhum site, pode usar o Sharex, é mais simples e não precisa se cadastrar: http://sharex.xpg.com.br

Só guarde os dois links: um para download e outro para posteriormente entrar e excluir. Me envia por e-mail ou por MP.

codonauta · 22 de junho de 2010

Me dei conta que o Acrobat que tenho aqui é 9.0 Pro.

Tentei fazer pelo BrOffice 3.2, mas quando abro o arquivo PDF o programa acusa

que ele está travado para edição. então me sugere que eu faça uma cópia dele para edição. Eu faço, mas o que abre sáo só uns traçoes e números desconexos, nao o texto do original.

Aconteceu algo semelhante com aquele editor da Foxit: quando salvei o arquivo para txt, ele ficou só com uns traços e o número das páginas, o texto do arquivo original sumiu.

Vou lhe enviar o link deste ebook por MP, pra ver se você consegue passar alguma parte do texto prum arquivo txt ou .doc que seja manipulável.

22 de junho de 2010

Bem, acabei fazendo a tarefa para o nosso amigo codonauta.

Foram 80 páginas de um livro, todas no formato de imagem.

Usei o excelente ABBYY Fine Reader 10. O trabalho de OCR durou menos de 15 minutos.

Salvei para texto editável em DOC, TXT e HTML. O interessante do HTML é que ele me classificou todas as imagens (fotos) em separado.

O OCR foi perfeito e deixou o texto quase sem necessidade de edição.

O ABBYY é ideal para OCR de textos a partir do scanner, mas também realiza tarefas em arquivos como PDF.

No que se refere a PDF ele faz tudo: Abre, faz OCR, edita e salva em vários formatos.

Esse programa tem muitos e bons recursos, ideal para profissionais que trabalham com digitalização de textos.

E também advogados que já entraram na era dos processos digitalizados.

Vale a pena pagar pela licença dele. Esse programa não vai te deixar na mão, no que depender de digitalização de texto.

Também o Acrobat 9 Pro possui o reconhecimento de OCR, os dois aqui se assemelham.

O ABBYY é essencialmente profissional pelas tarefas que executa e ocupa 623,14 MB no HD, mas é bastante ágil.

Me lembrei de OCR de programas antigos, por volta de 1994, quando terminava era muito texto para reeditar.

Hoje, para extrair o texto de um livro, você dispõe de ferramentas que já te entregam o trabalho praticamente pronto.

Usando a câmera digital e/ou celular como “scanner” portátil: http://abbyy.com.br/finereader/OCR/digicam_ocr

TESTE: Fiz um teste com um celular de câmera de 3 Megapixels à noite.

Fotografando uma apostila tamanho A-4, texto com letras pequenas, formato paisagem (texto na vertical/atravessado).

Mesmo usando o flash, a imagem ficou escura, mas ao fazer o OCR no ABBYY Fine Reader o texto ficou perfeito, sem nenhum erro.

Achei que não fosse fazer a leitura do texto atravessado, mas leu. Não cumpri nenhuma das regras e deu tudo certo. Aprovado.

Curiosidade, codonauta. Falaste que tinha o Acrobat 9 Pro, não conseguiu fazer com ele?

codonauta · 22 de junho de 2010

Pois é, eu tenho o Acrobat 9.0 PRO. Como faria isto com ele? Tentei e nao consegui. Fiz assim: marquei 3 parágrafos do texto de uma página do PDF, salvei como txt. Mas quando abri o txt salvo estava vazio!

Percebi que ele tem a opção de reconhecer pro OCR quando se marca uma parte da página em que se está trabalhando, mas depois de executar o reconhecimento OCR, como se passa o trecho para word ou txt?

22 de junho de 2010

Pois é, eu tenho o Acrobat 9.0 PRO. Como faria isto com ele? Tentei e nao consegui. Fiz assim: marquei 3 parágrafos do texto de uma página do PDF, salvei como txt. Mas quando abri o txt salvo estava vazio!
Percebi que ele tem a opção de reconhecer pro OCR quando se marca uma parte da página em que se está trabalhando, mas depois de executar o reconhecimento OCR, como se passa o trecho para word ou txt?

Não saberia te dizer, nunca usei o Acrobat.

Pelo que vi no site, ele tem extensões, plugins ou ferramentas auxiliares... Precisa da versão completa, talvez.

O ABBYY Fine Reader 10 faz tudo automático e no final abre a janela de "salvar como", daí é só escolher o formato.

codonauta · 23 de junho de 2010

Não saberia te dizer, nunca usei o Acrobat.
Pelo que vi no site, ele tem extensões, plugins ou ferramentas auxiliares... Precisa da versão completa, talvez.

O ABBYY Fine Reader 10 faz tudo automático e no final abre a janela de "salvar como", daí é só escolher o formato.

Grato mais uma vez pela ajuda.

Considero a questão resolvida.

duda3005 · 30 de junho de 2010

Só pra complementar... eu achei esse site... será de grande ajuda se der certo ( não cheguei a testa-lo)

http://info.abril.com.br/dicas/como-se-faz/dicas/como-copiar-livros-sem-ter-scanner.shtml?utm_source=feedburner&utm_medium=feed&utm_campaign=Feed%3A+bloginfoonline+%28Blogs+INFO%29

30 de junho de 2010

Beleza! duda3005. Muito útil a sua informação...

Testei o link que passou e mais alguns outros OCR Online.

OCR Online

Testes e Resultados:

Esse link acima, o qual faz um comentário importante do assunto, também fornece um link para OCR Online.

Testei com imagem e PDF e não foi muito eficiente,

além de pedir aquelas palavras de código de acesso a cada consulta.

Outro link exigia cadastro e limitava a 5 consultas e também não foi eficiente.

O mais eficiente: http://www.newocr.com

O New OCR Foi mais eficiente que os outros em todos os quesitos.

Algo interessante nesse link e que ele fornece a opção de leitura por página.

Então fica a nosso cargo escolher a página do PDF que quer fazer o OCR.

Os outros links fizeram o OCR só da primeira página e não dispõem de recurso para o restante das páginas.

O New OCR também se saiu melhor no OCR de textos em imagens. Os outros dois tiveram falhas ao não reconhecer todo o texto.

Quanto ao OCR de imagens os caracteres precisam ter boa definição para que sejam reconhecidos.

Fotografando o texto à noite, com um celular e câmera de 3 megapixels não deu. Com uma câmera de 5 megapixels já é possível.

Talvez com os 3 megapixels seja possível, se o texto for fotografado com a luz do dia. O tamanho da fonte pode influenciar.

NewOCR.com é um serviço grátis online de OCR (Reconhecimento Ótico de Caracteres).

Ele pode reconhecer o texto em qualquer arquivo de imagem e PDF,

fazendo o upload e convertendo o texto da imagem ou PDF num texto que você pode editar facilmente em seu computador.

Uploads ilimitados, sem registro, análise de layout (reconhecimento de texto multicoluna),

29 idiomas de suporte, arquivos de imagem (JPEG, PNG, GIF, BMP, TIFF multipáginas) até 5 MB,

e documentos multipáginas em PDF de até 20 MB.

E se um arquivo PDF tiver mas de 20 MB, como faço?

Baixe o arquivo PDF, abra-o com o Adobe ou Sumatra leitor, visualize a página e centralize-a na tela (Zoom).

Dê um "Print Screen" no teclado, abra o Paint e escolha "colar" e procure recortar as bordas deixando só o texto.

Serve para diminuir o tamanho da imagem e salve como PNG ou JPEG. Depois é só ir para o site e abrir a imagem.

Se a fonte do texto é muito pequena, é melhor dar um zoom para aumentá-la, desde que não fique desfocada.

Google Docs

Para quem tiver conta do "Gmail" também pode usar o recurso "Google Docs": http://www.google.com/google-d-s/intl/pt-BR/tour1.html

A partir da instalação da extensão "Visualizador de PDF/PowerPoint do Google Docs".

Abre e edita arquivos: Apresentações, Planilhas, Word, Open Office, RTF, TXT, Imagens e PDF.

Faz o OCR de textos a partir de PDF e de imagens automaticamente.

Ao fazer o Upload de um arquivo PDF ou imagem e para que estes sejam reconhecidos como texto, dever selecionar:

"Converter texto de PDFs ou arquivos de imagem para documentos do Google Docs".

Tipos de arquivo e limites de tamanho

Converter documentos - até 500 KB por arquivo: Microsoft Word (.doc, .docx), texto do OpenDocument (.odt)

e texto do StarOffice (.sxw) Rich text (.rtf), Texto simples (.txt), HTML (.htm, .html)

Converter apresentações - até 10 MB por arquivo: Microsoft PowerPoint (.ppt, .pps)

Converter planilhas - até 1 MB por arquivo: Arquivos do Microsoft Excel (.xls, .xlsx) e OpenDocument Spreadsheet (.ods).

Converter texto de PDFs ou arquivos de imagem - até 2 MB por arquivo: Fotos, documentos digitalizados, capturas de tela, etc. (.jpg, .gif, .png) e arquivos PDF (.pdf). O "Google Docs" disponibiliza 1,02 GB gratuitamente para guardar os seus documentos e acessar de qualquer computador.

2 de julho de 2010

O melhor software gratuito com o melhor recurso de OCR

Nuance PDF Reader (18 MB): http://www.nuance.com/imaging/products/pdf-reader.asp

Ele permite selecionar e copiar um texto tanto de um PDF normal como daqueles com texto em formato de imagem.

Se baixar pelo site vai pedir um cadastro básico, se baixar pelo Baixaki é direto e o link de download é o mesmo: Download e comentários

Permite selecionar o texto, copiar e colar: Clique na aba Edit > Select All > Copy,

que é igual a "Ctrl+A > Ctrl+C > Ctrl+V" para colar no Word ou Bloco de Notas.

Para selecionar só uma parte do texto clique na aba "Select text" e para selecionar uma imagem clique na aba "Set".

Conclusão:

Se o objetivo principal é extrair um texto de um arquivo PDF de forma gratuita e sem depender da internet,

você precisa apenas do Nuance PDF Reader instalado no seu computador.

O Nuance PDF Reader, após a instalação do programa te libera uma chave para o uso gratuito através de um longo cadastro.

É a única coisa que tive contra ele, pedem até a cor dos teus olhos, quantos cachorros tem, etc.

Pode omitir o que puder ou vê se consegue se manter assim mesmo, sem fazer esse tal cadastro.

Tirando isso, o programa é muito bom. Após testar uma infinidade deles, esse realmente é o melhor.

JCarlosMonteiro · 21 de julho de 2011

Estou precisando urgentemente de um software que passe OCR em vários arquivos contidos em diretório. Tipo assim, eu direciono para um diretório com vários arquivos do tipo .pbf (ou outra extensão compatível) e o aplicativo vai abrindo passando OCR e fechando automaticamente com todos, do primeiro ao último arquivo do diretório. Já encontrei o Maestro da CVISION Technologies mas é em inglês e pago. O ABBY FineReader tem essa opção? Me ajudem por favor. Um abraço a todos. JCarlos Monteiro

23 de julho de 2011

Estou precisando urgentemente de um software que passe OCR em vários arquivos contidos em diretório. Tipo assim, eu direciono para um diretório com vários arquivos do tipo .pbf (ou outra extensão compatível) e o aplicativo vai abrindo passando OCR e fechando automaticamente com todos, do primeiro ao último arquivo do diretório. Já encontrei o Maestro da CVISION Technologies mas é em inglês e pago. O ABBY FineReader tem essa opção? Me ajudem por favor. Um abraço a todos. JCarlos Monteiro

O Recognition Server ABBYY FlexiCapture deve suprir as suas necessidades.

Ele pode processar enormes quantidades de documentos e indexa-los, ou mesmo reconhecer formas de escrita à mão.

Leia mais sobre OCR de texto aqui: http://forum.clubedohardware.com.br/ocr-digitalizacao-texto/823298

Likarey · 2 de agosto de 2011

Estou precisando urgentemente de um software que passe OCR em vários arquivos contidos em diretório. Tipo assim, eu direciono para um diretório com vários arquivos do tipo .pbf (ou outra extensão compatível) e o aplicativo vai abrindo passando OCR e fechando automaticamente com todos, do primeiro ao último arquivo do diretório. Já encontrei o Maestro da CVISION Technologies mas é em inglês e pago. O ABBY FineReader tem essa opção? Me ajudem por favor. Um abraço a todos. JCarlos Monteiro

Olá Carlos,

Os programas ocr com esta opção automática são pagos, porque esta funcionalidade (escaneamento e reconhecimento de textos a partir dum diretocrio específico ) usualmente é para ambientes corporativos.

O famoso finereader tem uma versão para este tipo de tarefas - finereader corporate. Mas tudo depende da quantidade de documentos que você precisa processar. Se são mais de 1mil documentos por dia, já precisaria de Recognition Server para processamento de documentos de volumes grandes