{"id":58,"date":"2018-03-09T12:18:46","date_gmt":"2018-03-09T12:18:46","guid":{"rendered":"http:\/\/www.pucau.org\/?page_id=58"},"modified":"2021-12-29T18:05:31","modified_gmt":"2021-12-29T18:05:31","slug":"a-elaboracao-do-corpus","status":"publish","type":"page","link":"https:\/\/www.pucau.org\/?page_id=58","title":{"rendered":"A elabora\u00e7\u00e3o do corpus"},"content":{"rendered":"<h2 style=\"text-align: justify;\">Levantamento de entidades geogr\u00e1ficas<\/h2>\n<ol>\n<li style=\"text-align: justify;\"><b>Fichas<\/b>. Faz-se um invent\u00e1rio por fichas de entidades a partir de repetidas leituras do texto em:\n<ul>\n<li><a href=\"http:\/\/purl.pt\/82\">Facs\u00edmile do original<\/a> da Biblioteca Digital da Biblioteca Nacional de Portugal.<\/li>\n<li>Lopes da Costa (ed. e rev.). <i>Fern\u00e3o Mendes Pinto and the Peregrina\u00e7\u00e3o. Restored Portuguese Text<\/i>. Jorge Santos Alves (ed.). <i>Fern\u00e3o Mendes Pinto and the Peregrina\u00e7\u00e3o<\/i>. Lisbon. Funda\u00e7\u00e3o Oriente. 2010. Vol. II.<\/li>\n<li><i>Peregrina\u00e7am<\/i>. Documento digital. Edi\u00e7\u00f5es Vercial.<\/li>\n<\/ul>\n<\/li>\n<li style=\"text-align: justify;\"><b>Listado estruturado<\/b>. A partir das fichas cria-se um listado, em formato .csv, que recolhe:\n<ul>\n<li>Uma entrada principal para cada entidade geogr\u00e1fica (parelho ao lexema para nomes comuns). Ex. <b>Cauchenchina<\/b><\/li>\n<li>As variantes com que aparece a entidade geogr\u00e1fica no texto. Ex. <i>Cauchenchina, Cauchim, Cauchins<\/i>.<\/li>\n<li>A categoria da entrada principal (nome pr\u00f3prio por defeito, gent\u00edlico se s\u00f3 aparece no texto como adjectivo).<\/li>\n<\/ul>\n<\/li>\n<li style=\"text-align: justify;\"><b>Indice prim\u00e1rio<\/b>. O listado volca-se numa base de dados e cria-se um \u00edndice para cada entrada que servir\u00e1 de refer\u00eancia para a sua recupera\u00e7\u00e3o.<\/li>\n<li style=\"text-align: justify;\"><b>Indice de variantes<\/b>. A partir da tabela de lexemas, cria-se uma nova tabela que indexa todas as variantes de cada entidade geogr\u00e1fica, quer gr\u00e1ficas, quer gent\u00edlicos.<\/li>\n<\/ol>\n<h2>Elabora\u00e7\u00e3o de um corpus para o estudo das entidades geogr\u00e1ficas<\/h2>\n<ol>\n<li style=\"text-align: justify;\"><b>Anota\u00e7\u00e3o<\/b>. Anota-se cada uma das entidades geogr\u00e1ficas registadas no conjunto do texto a partir do listado de variantes.<\/li>\n<li style=\"text-align: justify;\"><b>Segmenta\u00e7\u00e3o por cap\u00edtulos<\/b>. Com o texto j\u00e1 anotado, cria-se um ficheiro texto de cada cap\u00edtulo para optimizar pesquisas e facilitar o indexado das entidades geogr\u00e1ficas.<\/li>\n<li style=\"text-align: justify;\"><b>Control da anota\u00e7\u00e3o de entidades geogr\u00e1ficas<\/b>. Para cada variante indexada, comprova-se que aparece no texto e realizam-se corre\u00e7\u00f5es se proceder.<\/li>\n<li style=\"text-align: justify;\"><b>Corre\u00e7\u00e3o<\/b>. Detetam-se variantes que n\u00e3o aparecem por leituras equivocadas, gralhas ou resultado de realizar o levantamento desde distintas edi\u00e7\u00f5es (ex. diferen\u00e7as na anota\u00e7\u00e3o da nasalidade).\n<ul>\n<li style=\"text-align: justify;\">Alguns termos aparecem anotados v\u00e1rias vezes por aparecerem como parte de uma forma complexa (e.g. \u00c7ambil\u00e3o e Pullo \u00c7ambil\u00e3o).<\/li>\n<li>Aproveita-se o control para recolher dados sobre a frequ\u00eancia de variantes em cada cap\u00edtulo.<\/li>\n<\/ul>\n<\/li>\n<li style=\"text-align: justify;\"><b>Segmenta\u00e7\u00e3o por ora\u00e7\u00f5es<\/b>. A partir da tabela de cap\u00edtulos (para facilitar o indexado), segmenta-se o conjunto do texto por ora\u00e7\u00f5es.<br \/>\nEscolhem-se o ponto (.), a interroga\u00e7\u00e3o (?) e exclama\u00e7\u00e3o (?) como delimitadores oracionais. Criam-se excep\u00e7\u00f5es para abreviaturas e datas e quantidades em n\u00fameros que levam sistematicamente um ponto no texto, para serem obviadas na segmenta\u00e7\u00e3o. Eliminam-se tamb\u00e9m os cabe\u00e7alhos com o t\u00edtulo de cap\u00edtulo em Romanos do original, elemento de marcagem mais que conte\u00fado.<\/li>\n<li style=\"text-align: justify;\"><b>Control da anota\u00e7\u00e3o por ora\u00e7\u00f5es<\/b>. Buscam-se ocorr\u00eancias para cada varianten no listado de ora\u00e7\u00f5es.<\/li>\n<\/ol>\n<h2>Atualiza\u00e7\u00f5es<\/h2>\n<p style=\"text-align: justify;\">Ao trabalhar sobre o corpus precisa-se atualizar as bases de dados segundo se acham entidades n\u00e3o anotadas, se reorganiza a sua classifica\u00e7\u00e3o ou se reestruturam as tabelas para trabalhar com ferramentas PLN e SIG.<\/p>\n<ol>\n<li style=\"text-align: justify;\"><b>Ordem da lista de variantes de um lexema<\/b><br \/>\nAs variantes adicionam-se segundo v\u00e3o aparecendo no corpus e no caso de serem adicionadas como resultado de trabalho sobre o corpus (casos n\u00e3o considerados inicialmente, omiss\u00f5es na anota\u00e7\u00e3o inicial), entram nas \u00faltimas posi\u00e7\u00f5es da tabela de variantes. Os scripts de sa\u00edda e consulta podem ordenar automaticamente a sa\u00edda dos dados segundo prefer\u00eancias do usu\u00e1rio, por defeito, estabelece-se uma ordem alfab\u00e9tica para a lista de variantes baixo cada lexema.<\/li>\n<li style=\"text-align: justify;\"><b>Sele\u00e7\u00e3o da variante com a frequ\u00eancia mais alta como lexema<\/b><br \/>\nO representante das variantes de uma mesma entidade geogr\u00e1fica \u00e9 escolhido a partir da frequ\u00eancia mais alta. Se mais de uma variante tem a mesma frequ\u00eancia com o valor mais alto, ordenam-se alfabeticamente e escolhe-se a primeira.<\/li>\n<\/ol>\n<h2>Resultados<\/h2>\n<p style=\"text-align: justify;\">O resultado mais direto \u00e9 <a href=\"?page_id=9\">o \u00edndice de entidades<\/a> que permite recuperar as concord\u00e2ncias no corpus a partir das anota\u00e7\u00f5es de top\u00f3nimos e gent\u00edlicos.<\/p>\n<p style=\"text-align: justify;\">Os cap\u00edtulos 117-131, referidos aos epis\u00f3dios com os T\u00e1rtaros, foram alinhados com os correspondentes da primeira tradu\u00e7\u00e3o inglesa para criar um corpus paralelo chamado de <a href=\"?page_id=276\">corpus da Tart\u00e1ria<\/a>.<\/p>\n<h2>Publica\u00e7\u00f5es relacionadas<\/h2>\n<p>Algumas publica\u00e7\u00f5es que descrevem o processo de elabora\u00e7\u00e3o do corpus e metodologias espec\u00edficas no trabalho com as entidades geogr\u00e1ficas mencionadas.<\/p>\n<p>Canosa, A. X. (2019). Referentes por coordenadas e georrefer\u00eancias relativas das entidades geogr\u00e1ficas mencionadas na Peregrina\u00e7\u00e3o. In C. Pazos Alonso, V. Russo, R. Vechi &amp; C. Ascenso (Eds.), <em>De Oriente a Ocidente: Estudos da Associa\u00e7\u00e3o Internacional de Lusitanistas<\/em> (vol. I, pp.11-34). Coimbra: Angelus Novus. <a href=\"https:\/\/lusitanistasail.press\/index.php\/ailpress\/catalog\/book\/164\" target=\"_blank\" rel=\"noopener\">https:\/\/lusitanistasail.press\/index.php\/ailpress\/catalog\/book\/164<\/a><\/p>\n<p>Canosa, A. X. (2018). Comparison of Segmentable Units as Indicators of Two Texts Being Parallel. In\u00a0<em>7th Symposium on Languages, Applications and Technologies<\/em>. <a href=\"http:\/\/drops.dagstuhl.de\/opus\/volltexte\/oasics-complete\/oasics-vol62-slate2018-complete.pdf#page=189\">http:\/\/drops.dagstuhl.de\/opus\/volltexte\/oasics-complete\/oasics-vol62-slate2018-complete.pdf#page=189<\/a><\/p>\n<p>Canosa, A. X. (2017). Valida\u00e7\u00e3o de termos de dom\u00ednio por meio de uma base lexical-sem\u00e2ntica difusa. <em>Tradterm<\/em>, 30. <a href=\"http:\/\/www.revistas.usp.br\/tradterm\/article\/view\/141821\">http:\/\/www.revistas.usp.br\/tradterm\/article\/view\/141821<\/a><\/p>\n<p>Canosa, A. X. (2017). Algumas interse\u00e7\u00f5es disciplinares na recupera\u00e7\u00e3o da geografia da Peregrina\u00e7\u00e3o de Fern\u00e3o Mendes Pinto. <em>Fluxos e Riscos<\/em>, 2(2), 23-43. <a href=\"http:\/\/www.academia.edu\/35547657\/Fluxos_and_Riscos_Vol.2_No_1_2017_\">http:\/\/www.academia.edu\/35547657\/Fluxos_and_Riscos_Vol.2_No_1_2017_<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Levantamento de entidades geogr\u00e1ficas Fichas. Faz-se um invent\u00e1rio por fichas de entidades a partir de repetidas leituras do texto em: Facs\u00edmile do original da Biblioteca Digital da Biblioteca Nacional de Portugal. Lopes da Costa (ed. e rev.). Fern\u00e3o Mendes Pinto and the Peregrina\u00e7\u00e3o. Restored Portuguese Text. Jorge Santos Alves (ed.). Fern\u00e3o Mendes Pinto and the &hellip; <\/p>\n<p class=\"link-more\"><a href=\"https:\/\/www.pucau.org\/?page_id=58\" class=\"more-link\">Continue reading<span class=\"screen-reader-text\"> &#8220;A elabora\u00e7\u00e3o do corpus&#8221;<\/span><\/a><\/p>\n","protected":false},"author":2,"featured_media":0,"parent":0,"menu_order":0,"comment_status":"closed","ping_status":"closed","template":"","meta":{"_monsterinsights_skip_tracking":false,"_monsterinsights_sitenote_active":false,"_monsterinsights_sitenote_note":"","_monsterinsights_sitenote_category":0,"footnotes":""},"_links":{"self":[{"href":"https:\/\/www.pucau.org\/index.php?rest_route=\/wp\/v2\/pages\/58"}],"collection":[{"href":"https:\/\/www.pucau.org\/index.php?rest_route=\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/www.pucau.org\/index.php?rest_route=\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/www.pucau.org\/index.php?rest_route=\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/www.pucau.org\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=58"}],"version-history":[{"count":21,"href":"https:\/\/www.pucau.org\/index.php?rest_route=\/wp\/v2\/pages\/58\/revisions"}],"predecessor-version":[{"id":344,"href":"https:\/\/www.pucau.org\/index.php?rest_route=\/wp\/v2\/pages\/58\/revisions\/344"}],"wp:attachment":[{"href":"https:\/\/www.pucau.org\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=58"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}