-
E-mail
service@h3c.com
- Telefone
-
Endereço
No. 466, estrada Changhe, distrito de Binjiang, Hangzhou, empresa H3C
Xinhua Sans Tecnologia Co., Ltd.
service@h3c.com
No. 466, estrada Changhe, distrito de Binjiang, Hangzhou, empresa H3C
Para ajudar os clientes de todos os setores a enfrentar os desafios da era do Big Data, a H3C criou uma plataforma de processamento de Big Data de alto desempenho que usa uma estrutura de computação que combina Hadoop e bancos de dados distribuídos MPP para fornecer aos usuários uma solução completa de plataforma de Big Data, incluindo a conversão de aquisição de dados, computação de armazenamento, mineração analítica, troca compartilhada, apresentação de BI e gerenciamento de operações, ajudando os usuários a construir sistemas de processamento de dados massivos, descobrir o valor intrínseco dos dados e obter novas oportunidades de mercado.

O SeaSQL MPP suporta a implantação de máquinas físicas locais e também suporta a implantação em nuvens privadas, onde as fontes de dados podem ser armazenamento local, HDFS、 O armazenamento em nuvem ou outros bancos de dados relacionais, como Oracle, MySQL, etc., são integrados em bancos de dados SeaSQL MPP através de ferramentas ETL ou Kafka, etc. O banco de dados distribuído SeaSQL MPP é baseado em uma arquitetura paralela em massa sem compartilhamento, com capacidade de processamento de dados de nível PB, o núcleo é baseado no núcleo PostgreSQL, otimizado em massa, oferecendo um otimizador de consulta poderoso e compatibilidade perfeita com SQL. Na camada de interface, o SeaSQL MPP, além de fornecer a interface padrão JDBC/ODBC, oferece interfaces para a linguagem de programação comum Python/R/Java/Perl/C, bem como interfaces para bibliotecas de aprendizado de máquina MADLib, recuperação de texto completo e PostGIS para chamadas da camada de aplicativos.

O SeaSQL MPP é uma arquitetura distribuída, altamente escalável horizontalmente, que permite a interconexão de milhares de nós e suporta milhares de CPUs. Suas poderosas capacidades de processamento e computação de dados são adequadas para os seguintes cenários:
• Aplicações orientadas para análise, como a construção de ODS/EDW de nível empresarial, mercados de dados e muito mais.
• Aplicações que exigem processar grandes quantidades de dados, como data warehouse, business intelligence e muito mais.
• Análise e mineração de dados para dados offline, como análise do comportamento do cliente, retratos de pessoas, modelagem preditiva do comportamento e muito mais.
O H3C SeaSQL MPP é um banco de dados distribuído baseado em PostgreSQL que usa a arquitetura Shared-Nothing, o host, o sistema operacional, a memória e o armazenamento são auto-controlados e não existem compartilhamentos. As principais características do banco de dados H3C SeaSQL MPP são as seguintes:
· Arquitetura de processamento paralelo em grande escala.
· Suporta tanto a linha como a lista. Cada tabela ou partição de tabela pode ser especificada por um administrador como armazenamento e compressão, de acordo com as necessidades do aplicativo.
Suporta vários métodos de compressão, incluindo Zlib, RLE, etc.
· Suporte para tabelas de partições de vários níveis, partições suportam vários padrões, incluindo intervalos, listas, etc.
Suporta índices como árvore B, bitmap e GiST.
Os mecanismos de autenticação suportam várias formas, incluindo LDAP e Kerberos.
Suporte a linguagens estendidas: o SeaSQL MPP suporta a implementação de funções personalizadas do usuário em vários idiomas populares, incluindo Python, R, Java, Perl, C / C ++ e muito mais.
· Processamento de informações geográficas: através da integração do PostGIS, o SeaSQL MPP suporta o armazenamento e análise de informações geográficas.
Algoritmos de mineração de dados incorporados: com o algoritmo MADlib (agora o Projeto de Incubação Apache), dezenas de algoritmos comuns de análise e mineração de dados podem ser incorporados em bancos de dados SeaSQL MPP, incluindo regressão lógica, árvores de decisão, florestas aleatórias e muito mais. Não é necessário escrever nenhum código de algoritmo, você pode usar todos os algoritmos através do SQL.
Recuperação de texto: o SeaSQL MPP oferece suporte a recursos eficientes e flexíveis de recuperação de texto completo. Em conjunto com o MADlib, é possível realizar análise e mineração de texto em paralelo.
· Carregamento de alto desempenho, usando a tecnologia MPP para fornecer desempenho de carregamento de quantidades de dados de nível Petabyte.
• Otimização de consultas de fluxo de trabalho de Big Data.
• Armazenamento e execução de dados polimórficos.
Capacidade avançada de aprendizagem de máquina baseada no Apache MADlib.
· Suporta SQL 92 ANSI / ISO, SQL 99 ANSI / ISO, SQL 2003 ANSI / ISO, SQL 2006 ANSI / ISO padrões, suporte a C API, ODBC, JDBC e outras especificações internacionais de interface, suporte a DDL, DML, sintaxe DCL, suporte a tipos de dados básicos, restrições básicas de integridade, gerenciamento básico de tabelas, termos de pesquisa, conexões de tabelas, sub-consultas, inserção, modificação, exclusão, controle de transações.
O SeaSQL MPP suporta instalações de implementação da plataforma em nuvem CloudOS5.0 e é capaz de suportar implementações em nuvem. Os usuários podem controlar todos os recursos e gerenciar o agendamento de forma unificada através da interface do CloudOS, proporcionando flexibilidade para gerenciar a alocação de recursos e melhorar a utilização geral dos recursos.

Os bancos de dados SeaSQL MPP podem ser escalados de duas maneiras, de acordo com as necessidades do cliente: escalação de host e escalação de instância. Apenas atualizar os metadados da tabela do sistema é necessário para completar a escalabilidade, sem a necessidade de operações de parada no banco de dados, e a adoção do algoritmo Jump Consistent Hash após a escalabilidade do banco de dados reduz significativamente o movimento de dados durante a redistribuição de dados.
O banco de dados SeaSQL MPP oferece vários tipos de modelos de armazenamento: armazenamento de linhas, listas e armazenamento híbrido de filas que permitem desenvolver padrões de armazenamento de dados de acordo com as necessidades do negócio.

O SeaSQL MPP oferece funcionalidades OLAP ricas, incluindo Rollup, cube, funções de janela, operações recursivas e muito mais, para suportar operações analíticas complexas com foco no suporte à tomada de decisões para tomadores de decisões e gerentes de alto nível. O processamento de consultas complexas de grandes volumes de dados é rápido e flexível, de acordo com as necessidades dos analistas, para que eles tenham uma visão precisa das operações da empresa, entendam as necessidades dos clientes e desenvolvam o plano certo.
O recurso de múltiplos inquilinos do banco de dados SeaSQL MPP pode dividir um banco de dados em vários inquilinos para uso, os recursos físicos de diferentes inquilinos são isolados uns dos outros, o recurso de múltiplos inquilinos reflete principalmente as seguintes vantagens:
Os requisitos dos diferentes inquilinos para recursos físicos são diferentes, os recursos individuais são isolados uns dos outros e não interferem, impedindo que certos inquilinos apoderem os recursos de outros usuários em momentos de pico de negócios.
Os dados são isolados entre os inquilinos, aumentando a segurança dos dados.
Quando os recursos do sistema estão ociosos, a CPU e os recursos de memória podem ser usados com flexibilidade, e quando os recursos estão ocupados, os recursos entre os inquilinos são limitados de acordo com os parâmetros definidos no momento, para melhorar a utilização de recursos de todo o sistema.
Os indicadores de desempenho de importação de dados são importantes para a experiência de uso do armazém de dados, o banco de dados SeaSQL MPP pode usar os recursos de todos os nós em todo o cluster durante o carregamento de dados, o desempenho de carregamento aumenta linearmente à medida que o número de nós aumenta, e a taxa de carregamento de dados em clusters de grande escala pode atingir 20TB / hora.
O MADlib não é voltado para programadores, mas sim para o desenvolvimento de bancos de dados ou DBA, que combina a facilidade de uso do SQL com algoritmos complexos de mineração de dados, aproveitando as vantagens e características de ambos para melhorar significativamente a eficiência do desenvolvimento dos desenvolvedores.
Para os usuários, o MADlib fornece funções que podem ser invocadas em instruções de consulta SQL, que incluem não apenas operações algebraicas lineares básicas e funções estatísticas, mas também funções de modelo de aprendizado de máquina ou mineração de dados comuns e prontas para uso. Os usuários não precisam entender os detalhes da implementação do programa do algoritmo, apenas precisam entender o uso da função, melhorando significativamente a eficiência do desenvolvimento e economizando custos de desenvolvimento.

O PostGIS é uma extensão do sistema de bancos de dados relacionais PostgreSQL, que converte o sistema de gerenciamento de bancos de dados PostgreSQL em bancos de dados espaciais adicionando suporte para tipos de dados espaciais, índices espaciais e funções espaciais ao PostgreSQL.
O SeaSQL MPP integra o banco de dados espacial PostGIS para integrar totalmente os dados espaciais e os bancos de dados relacionais com objetos, permitindo a transição do GIS para o banco de dados. Desta forma, os usuários não precisam de um mecanismo de dados GIS dedicado para processar e manipular dados espaciais, e os aplicativos podem manipular os dados espaciais facilmente através da linguagem SQL.
O módulo de criptografia transparente SeaSQL MPP implementa a criptografia de todo o banco de dados, que é totalmente invisível ao cliente. Quando os blocos de dados são gravados em disco, os dados são criptografados; Quando os dados são lidos a partir de um disco, descifrar. Garante que os dados armazenados no disco permaneçam criptografados e que os dados de texto não possam ser lidos mesmo que o conteúdo do disco seja obtido. Ao mesmo tempo, o nível de negócios é totalmente inconsciente das ações de criptografia e não requer nenhuma adaptação à criptografia. A criptografia utiliza o modo de criptografia XTS da AES para garantir a segurança da criptografia dos dados.
Máscara de dados, também conhecida como branqueamento de dados, desprivatização de dados ou deformação de dados. Refere-se à deformação de dados por meio de regras de desensibilização de certas informações sensíveis para garantir a proteção confiável de dados confidenciais. No caso de dados de segurança do cliente ou alguns dados confidenciais comerciais, sem violar as regras do sistema, a modificação de dados reais e a disponibilização de dados para uso de teste, como números de identificação, números de telefone celular, números de cartão, números de cliente e informações pessoais, etc., são necessários para a dessensibilização dos dados.
O banco de dados SeaSQL MPP oferece uma variedade de formas de desensibilização e, depois de definir regras de desensibilização, os usuários podem acessar os dados de desensibilização de duas maneiras:
Dessensibilização estática:Para remover informações sensíveis da biblioteca, os dados sensíveis da base de dados são sobrescritos e irrecuperáveis.
Dessensibilização dinâmica:Bloquee informações confidenciais para usuários específicos e outros usuários não desensensíveis ainda terão acesso aos dados brutos.
FDW é uma implementação do padrão SQL SQL/MED (SQL Management of External Data). O FDW oferece uma gama de interfaces públicas unificadas que facilitam a integração profunda das extensões com o SeaSQL em partes centrais como otimização, execução, digitalização, atualizações e estatísticas, permitindo consultar e operar fontes de dados externas diretamente com instruções SQL. Por exemplo, com o FDW para MySQL, os usuários podem consultar, ordenar, agrupar, filtrar, juntar e até mesmo inserir e atualizar os dados de um banco de dados MySQL da mesma forma que operam uma tabela local.
Dependendo da fonte de dados, os módulos FDW implementados pelo SeaSQL incluem: postgres_fdw、file_fdw、oracle_fdw、mysql_fdw、json_fdw、redis_fdw、hdfs_dfw, Como mostrado no gráfico abaixo:

O RoaringBitMap é um algoritmo de compressão de bitmap eficiente que melhora a eficiência do uso da memória de bitmap e resolve o problema de que os bitmaps escassos não se adaptam ao armazenamento escasso. O cálculo de bitmaps é ideal para cálculos de grandes bases de dados e é frequentemente usado em despesa, filtragem de etiquetas, sequências temporais e outros cálculos. O plug-in gpdb_roaringbitmap integra o recurso Roaringbitmap ao banco de dados SeaSQL MPP, oferecendo suporte nativo a funções de banco de dados, operadores, agregação e outros recursos como um tipo de dados.